Comment fonctionne la compression audio ?

Vous avez peut-être entendu dire que la musique que vous écoutez est « compressée » et que, si elle était moins compressée, ou même non compressée, elle sonnerait beaucoup mieux.

Cependant, si vous savez ce qu’est la compression et comment elle fonctionne, vous ne serez peut-être pas si pressé d' »élargir » vos horizons musicaux.

Rencontre avec M. Nyquist

Avant d’entrer dans le vif du sujet, il est important de parler du théorème d’échantillonnage de Whittaker-Nyquist-Shannon, car il est basé sur les travaux de Harry Nyquist, Claude Shannon et (depuis 1915) E.T. Whitaker. Nyquist est cependant le promoteur le plus connu du théorème, c’est pourquoi il est souvent appelé « théorème de Nyquist ».

Le crédit mis à part, le théorème de Nyquist est le fondement de l’audio numérique. Il stipule que pour représenter numériquement un son, il faut l’échantillonner au moins deux fois la fréquence la plus élevée du son. Par exemple, les CD échantillonnent l’audio à 44,1 kHz, capturant les fréquences jusqu’à 22,05 kHz, juste au-delà de la gamme supérieure de l’audition humaine.

L’échantillonnage peut être considéré comme la forme de base de la compression audio numérique. Après tout, vous pouvez augmenter la fréquence d’échantillonnage et obtenir techniquement un enregistrement plus précis du son analogique original, mais la taille de vos fichiers augmentera de façon exponentielle. L’augmentation de la précision au-delà de ce que l’oreille humaine peut percevoir ne vaut pas l’espace de stockage requis, et vous disposez ainsi d’une base pour déterminer l’espace maximum qu’un enregistrement audio devrait utiliser.

Bien sûr, de nos jours, les offres audio de qualité supérieure vont au-delà de la qualité CD avec des taux comme 48kHz, mais le point de rendement décroissant est relativement clair.

La compression avec perte réduit la qualité audio

Il existe deux types de compression audio : avec ou sans perte. La compression sans perte (comme FLAC) conserve chaque bit des données d’origine, mais produit des fichiers plus volumineux, environ la moitié de la taille d’un enregistrement audio sur CD.

La compression avec perte (comme MP3 ou AAC) élimine les données « inutiles » pour économiser de l’espace, sur la base de modèles psychoacoustiques de l’audition humaine. Ces modèles supposent que nous ne remarquerons pas certains sons masqués par des sons plus forts, ou des fréquences à la limite de la plage d’audition humaine typique.

Cette approche n’est cependant pas parfaite. Si la compression avec perte élimine les données audio redondantes, elle peut également supprimer des détails subtils, tels que la réverbération d’une pièce ou la richesse harmonique des instruments. Il en résulte ce que certains audiophiles pourraient décrire comme un son « plat » ou « sans vie », en particulier à des débits binaires faibles comme 128 kbit/s.

La fréquence d’échantillonnage et la profondeur de bits sont les plus importantes

La compression n’est pas le seul facteur qui affecte la qualité ; la fréquence d’échantillonnage et la profondeur de bits d’origine sont tout aussi importantes.

Comme mentionné plus haut, la fréquence d’échantillonnage est la fréquence à laquelle le son est mesuré par seconde. Les fréquences d’échantillonnage plus élevées (par exemple, 96 kHz) capturent plus de détails, mais nécessitent plus de stockage.

La profondeur de bits définit la plage dynamique, c’est-à-dire la différence entre les sons les plus forts et les plus faibles. Une profondeur de bits plus élevée, comme l’audio 24 bits, préserve plus de nuances que la norme 16 bits des CD.

Lorsque l’audio est compressé dans des formats avec perte, la fréquence d’échantillonnage et la profondeur de bits sont souvent réduites, ce qui peut éliminer les détails discrets de l’arrière-plan et donner une texture « dure » ou « granuleuse ».

Bien sûr, avec un stockage moins coûteux, des processeurs plus puissants et de meilleurs algorithmes de compression qui font varier le débit binaire en fonction de ce dont la musique a besoin à un moment donné, la qualité originale de la musique peut être presque entièrement préservée. Tout cela en n’utilisant qu’une fraction de l’espace de stockage d’un format comme le FLAC.

Une mauvaise compression est facilement perceptible

Même si vous n’êtes pas audiophile, une mauvaise compression peut être perceptible. Les « artefacts » audio les plus courants sont les suivants :

L’écrêtage : les sons forts sont déformés ou coupés.
Son métallique : qualité « métallique » due à une compression trop agressive.
Perte de dynamique : la musique semble plate et manque d’impact.
Écho ou bruit de fond : distorsions subtiles dans les voix ou les notes soutenues, semblables au « wow » ou au « flutter » des disques vinyle et des cassettes.

Vous voulez le constater par vous-même ? Comparez un MP3 à haut débit (par exemple 320 kbit/s) à une version à faible débit (par exemple 128 kbit/s). La différence est flagrante, en particulier pour les musiques élaborées, telles que les enregistrements orchestraux ou en direct.

Cependant, si l’on passe à des débits binaires plus élevés, le son devient rapidement le même, ce qui signifie qu’il existe un juste milieu, 320 kbit/s étant un bon exemple pour le MP3 en particulier.

Rencontre avec M. Nyquist

La compression avec perte réduit la qualité audio

La fréquence d’échantillonnage et la profondeur de bits sont les plus importantes

Une mauvaise compression est facilement perceptible

Partager :

J’aime ça :