MPEG-2

Le Mpeg-2 - Fonctionnement

En quelques années, le Mpeg-2 est devenu un standard mondial. Cette norme de compression est en passe de s'imposer dans l'univers de la vidéo (DVD Vidéo, TVHD, Satellite). Chronique d'un succès annoncé.

La vidéo: Très gourmande en taille ...

De par sa structure, la vidéo se révèle complexe à numériser et très gourmande en débit.

Le format PAL necessite 25 images/seconde et le NTSC 30 images/seconde. Pour mémoire, une seule image vidéo PAL, une fois numérisée (768 x 576 pixels en 16 bits), correspond à un fichier de 864 Ko (768 x 576 x 16 = 7 077 888 bits, soit 884 736 octets). A 25 images par seconde, cela donne 21,6 Mo/s, sans tenir compte de la partie audio ! Difficile, dès lors, de stocker, ou même de faire circuler de la vidéo. Il faut donc compresser ce signal vidéo. Un groupe d'ingénieurs se sont penchés sur le problème, de leurs recherches est né le label Mpeg (Moving Picture Experts Group) dont il existe maintenant plusieurs formats comme le Mpeg-1, Mpeg-2, Mpeg-4 et Mpeg-7. Chaque format correspond à un besoin spécifique, le Mpeg-1 pour les applications multimédia offrant une qualité proche de la VHS, pour les communications mobiles, le Mpeg-4 ; pour la vidéo, le Mpeg-2, qui allie les principes du Mpeg-1 à une qualité d'image de type broadcast, c'est-à-dire diffusable. C'est d'ailleurs lui qui a été retenu pour le traitement de la télévision haute définition (TVHD) de demain, et enfin pour la communication réseau, le futur Mpeg-7.

Comment réduire le débit ?

Le débit que nécessite une vidéo est trop important actuellement. Comment le réduire ? Plusieurs solutions ont été trouvées.

1°) En réduisant le nombre d'images par seconde, mais en dessous de 16 cela devient visible à l'œil nu.

2°) En diminuant les couleurs visibles à 64 536 ou 256 (voire moins), au risque, de transformer sensiblement la réalité.

3°) En réduisant la taille de l'image, au risque d'une pixellisation après projection sur grand écran.

Le consortium à définit quatre levels:

Low Level: (352 x 288 en PAL ou 352 x 240 en NTSC), qui reprend le format appliqué au Mpeg-1 avec un débit de 4 Mbits/s

Main Level: (720 x 576 en PAL ou 720 x 480 en NTSC) - utilisé pour la "masterisation" des DVD-Video avec un débit de 15 Mbits/s

High Level: pour la TVHD (1920 x 1080) avec un débit de 60 Mbits/s

High Level 1440: pour la TVHD (1440 x 1152) avec un débit 80 Mbits/s

4°) Mais la meilleure façon de réduire le débit c'est de la compresser. La compression peut être spatiale ou temporelle. Il y a deux manières de procéder qui s'appuient sur des constatations différentes.

La compression spatiale:

On part du principe qu'il existe, dans chaque image, des zones aux caractéristiques communes (contraste, luminosité, colorimétrie). Inutile, dans ces conditions, de coder séparément chaque pixel : il suffit d'en coder un et de signaler que les autres sont identiques. Une opération qui s'effectue sur des matrices de 8 par 8 pixels (soit 64 pixels), appelées macroblocks. En fonction du taux de compression retenu, ceux-ci seront plus ou moins visibles après décompression. C'est le principe adopté pour la compression des images fixes en Jpeg. Appliqué aux séquences animées, cela donne le Motion Jpeg, appelé aussi MJpeg, employé par la plupart des cartes d'acquisition vidéo et dans la technologie DV.

La compression temporelle:

On s'appuie sur le fait qu'il existe peu de différences entre des images consécutives. C'est le principe utilisé par le Mpeg qui, à qualité visuelle égale, s'avère environ quatre fois moins gourmand en espace disque que le MJpeg. Le principe de base du Mpeg consiste donc à coder, grâce à des algorithmes une image de référence et à coder les suivantes uniquement par leurs différences. L'image de référence s'appelle I, les images suivantes P ou B. Les images P sont prédites et composées à partir de l'image I qui les précède. Les images B sont bidirectionnelles et dépendent des images I et P qui les entourent. En général, on constate que les images P pèsent environ 50 % d'une image I, alors que les images B n'en représentent que 15 % environ. Le GOP (Group of Pictures) fixe tout au long d'un film correspond à un type de Mpeg-2 bien précis en fonction du nombre d'images I,B et P retenu. Le poids d'une seconde de vidéo varie, naturellement, en fonction de la taille du GOP : plus il est long et moins le fichier est lourd.

Pour gagner encore de la place, chaque image I, B ou P est compressée soit par un taux fixe (CBR, Constant Bit Rate), soit par un taux variable (VBR, Variable Bit Rate). Avec le taux fixe, l'image I est compressée dans son ensemble, quel que soit son contenu. La valeur de compression CBR est généralement comprise entre 4 et 15 Mbits/s, de très bons résultats sont obtenus entre 6 et 10 Mbits/s. Avec le mode VBR, la compression de chaque image I est variable suivant son contenu. L'encodage en VBR nécessite généralement deux passes : une pour le repérage des points difficiles, une autre pour réaliser l'encodage proprement dit. Il faut donc compter plus de temps pour réaliser le fichier, mais la qualité est nettement supérieure. On retrouve le VBR dans la diffusion (satellite), dans le DVD (où les taux varient dans des rapports importants - de 2 à 10 Mbits/s - pour faciliter le passage de certaines scènes "difficiles", avec du mouvement). La principale utilisation du Mpeg-2 concerne la diffusion de films. Et, naturellement, on le retrouve dans les DVD-Video.