Cours4 Compressionvideo PDF
Cours4 Compressionvideo PDF
Cours4 Compressionvideo PDF
Tlvision analogique
! Red/Green/Blue : RGB ! Luminance :
"
"
rponse de l'oeil l'ensemble des longueurs d'ondes d'une source lumineuse transporte la "luminosit" (N/B) et la "brillance"
! Chrominance : couleur ! transformation en 3 autres signaux ! oeil moins sensible la couleur qu' la luminance
2
Tlvision analogique
! Luminance : Y = .30R + .59G + .14B ! NTSC : nuance (hue), saturation, Y/I/Q
" "
I = 0.74 (R-Y) - 0.27 (B-Y) Q = 0.48 (R-Y) + 0.41 (B-Y) U = 0.493 (B-Y) V = 0.877 (R-Y)
3
Tlvision digitale
! Qualit studio TV :
luminance : 720*(486 ou 576 lignes) chrominance : 360 * (486 ou 576 lignes) Codage : 4:2:2
soit 72 minutes de son non compress mais 30 secondes de TV (90mn = 120Go) do la compression
! Vido : visiophonie
"
1990 : H261
tlphonie visuelle sur le RNIS [ ISDN ] (Rseau Numrique Intgration de Services, 64 k bit/s) formats image CIF ( Common Intermediate Format ) et QCIF ( Quarter CIF ) dbits : px64 k bit/s (p : de 1 30)
"
1996 : H263
dbits infrieurs car pour rseau LAN (28.8 k bit/s) formats image SQCIF, 4CIF, 16CIF
30 images/s
6
"
1993 : MPG1
but : la qualit VHS sur un CD-ROM (=> stockage) dbit bas de 1.5 M bit/s (ima. 352x288 + audio) un accs alatoire au sein de la squence
"
1994 : MPEG2
but : diffusion de la vido (=> application tlvisuelle) adaptation aux formats ( scalabilit )
taille image 4/3 16/9 entrelac ou non, formats 4:2:0, 4:2:2, 4:4:4, compatibilit entre niveaux de qualit (normale<-> HDTV) .
MPEG3, originellement prvu pour la HDTV (TV Haute dfinition) est inclus dans MPEG2
7
MPEG2
"
1998 : MPEG4
dcomposition de la scne en lments VOP
VOP Video Object Plane chaque lment = une composante audio + une comp. Vido lments rels ou de synthse, forme arbitraire, scalabilit une bote outils de compression pour les VOP
"
Vido analogique :
NTSC
525 lignes/image dont 20 lignes de contrle (TV ~320 lignes) image entrelace 30 images/s, modle YIQ
PAL
625 lignes/image 25 images/s image entrelace, modle YUV
"
Vido numrique
sous-chantillonnage de la chrominance :
4:4:4 : pas d chant. 4:2:2 : chant. horizontal d un facteur 2 4:1:1 : chant. horizontal d un facteur 4 4:2:0 : chant. horizontal et vertical d un facteur 4 positionnement du pixel de chrominance
Y+Cr+Cb : Cr+Cb Y : :
10
Normes pour la vido numrique par le CCIR ( Consultative Committee for International Radio )
dbit : ~165 M bits/s pour CCIR 601 (NTSC) CIF ~ qualit VHS format 4/3
progressif
11
Normes pour la TV numrique par le ATSC ( Advance Television Systems Comittee ) 1995 : la norme pour la HDTV ( High Definition TV )
12
! Vido : H.261 ! Audio : G.711, G.722, G.728 ! Structure des blocs vido et audio : H.221 ! Multiplexage information de contrle : H.230 ! Units de Contrle Multipoint : H.231 ! Prise de connexions : H.242 ! Encription : H.233
13
Standard H. 261
! Format d'image :
" "
Nouveaux standards
! H.321 : rseaux B-ISDN ! H.322 : rseaux locaux avec qualit de service garantie ! H.323 : QoS non garantie ; LAN, Internet ! H.324 : RTC (ShareVision de CreativeLabs)
15
16
HTDV : 50 ms, TV : 100 ms, Confrence : 400 ms exemple : taux d'erreur 10-5 Confrence : 1 sec. entre 2 images errones TV : 2 erreurs par image HDTV (compress) : 4 erreurs par image !
17
! Erreurs de transmission
" " " "
Famille MPEG
! MPEG-1 : 352x240(NTSC) ou 352x288(PAL)
" "
Qualit VCR, compression : ~ 25:1 Pour stockage, 0.2 Mbps(audio) + 1.2 Mbps(vido) Qualit "broadcast", voire HDTV Entre 4 et 6 Mbps Vido-confrence, moins de 64 kbps
19
! MPEG-2 :
" "
! MPEG-4
"
MPEG: principe
! Macroblocs de 16x16 pixels/lum., et 8x8/ chrom. ! Images de rfrence : Intracoded (I), JPEG ! Images prdites : Predicted (P) ! Images interpoles : Bidirectionnal (B) ! 2 paramtres : intervalles entre deux P (m) et entre deux I (n)
20
Picture
Slice
Image de rfrence
Image P courante
23
MPEG: principe
! F1 : Intracod, pas construite partir d'autres ! Certains blocs de F3 sont construit partir de F1 par un vecteur de mouvement
24
F1
F3
MPEG: principe
! Les images F2 entre les deux ont des blocs de F1 et des blocs de F3 ! Elles sont interpoles entre les deux images ! Certains blocs peuvent tre calculs par un terme d'erreur ! Les autres sont cods
25
MPEG: images I
! Elles servent de points de synchronisation ! Elles sont codes en JPEG ! Il ne doit pas y avoir plus de 400 ms entre deux images I
26
MPEG: images B et P
! chaque macrobloc : recherche dans la rfrence du bloc le plus prs ! diffrence calcule : un (P) ou deux (B) vecteurs ! macrobloc terme d'erreur est transform DCT ! applique quantification, zig-zag, RLE, Huffman ! table de quantification diffrente de I ! DPCM, Huffman sur les vecteurs de
27
I 1
B 2 3
P 4 5 6 7 8 9 10 11 12 13 14
! 1 et 13 (I) sont compltes ! 4 est prdite / 1, 7 / 4 par diffrence ! 2 est interpole partir de 1 et 4 ! envoi : 1 4 2 3 7 5 6 10 8 9 13 11 12 16 14 ... 28
29
Standard MPEG2
La structure fondamentale et les algorithmes de codage MPEG2 sont les mmes que pour MPEG1 (*) - architecture I,B,P (**) - codage du mouvement par macro-bloc Pourquoi MPEG2 ? pour rpondre aux besoins - de rsolution et de qualit suprieures; - de compatibilit avec le parc dquipement ( TV) et les canaux de transmission htrognes - de protection contre les erreurs de transmission dans des canaux bruits
30
Applications MPEG2
Tlvision numrique SD et HD; DVB ( satellite), DTTB(TNT), Production et archivage de la vido HD VOD Digital Cinma via satellite, Internet large bande Qualit de tldiffusion SD est associ un dbit 6Mbit/s pour un seul programme vido ! Qualit HD >15 (19 et plus) Mbit/sec. ! ! ! ! ! !
31
Image - frame
Trame infrieure
33 Bottom field
Image de rfrence
Mode Field : Chaque trame peut tre prdite soit par la trame de la mme parit soit par la trame de la parit oppose
Image Prdite
Ainsi dans les images P pour le mode field deux vecteurs du mouvement sont possibles. 34
Field/frame prediction
Image de rfrence
Image Prdite
Mode Frame : un seul vecteur de dplacement par macro-bloc, les deux trames sont considres comme une image
35
36
Macroblock
Frame DCT
Mode image (frame) pour le codage des blocs (DCT) : Chaque bloc 8x8 contient les pixels de deux trames (suprieure et infrieure) et la transforme DCT est applique un tel bloc;
37
Macroblock
Frame DCT
Mode field DCT : chaque bloc 8x8 contient les pixels dune seule trame et la transforme DCT est applique un tel bloc; Lintrt : quand le mouvement est fort, le dcalage spatial entre les trames est important ; cela peut amener une variation importante de la luminance, donc laugmentation de la haute frquence.
38
Balayage alternatif
Balayage alternatif : a t propos pour le mode frame DCT: Statistiquement, lnergie savre plus forte dans les hautes frquences. RLC est donc plus efficace
39
Macroblock
Scalabilit
! Scalabilit : capacit davoir dans le mme train binaire plusieurs versions de la source. ! Dans le train binaire scalable on peut omettre des parties spcifies et dcoder une image complte avec la qualit correspondante au dbit utilis ! Scalabilit en MPEG2 ! Spatiale : le dcodeur peut dcoder les images de plusieurs rsolutions ! Temporelle : une vido peut tre dcode la cadence temporelle diffrente ! SNR : la qualit diffrente dune mme source vido dtermine par le pas de quantification. ! Les trains binaires scalables contiennent toujours le niveau de base - la version minimale de la source. 41
42
Profile
Commentaire
Simple Main
SNR Spatial
Low, main High-1440 ( base layer + SNR), High-1440(Base layer + spatial) Main (Base layer + SNR), Main (Base Layer + spatial)
scalable scalable
High Profile
Scalable
43
Level
Rsolution max, Nbr niveaux 352/288/30 720/576/30 1440/1152/60 1920/1152/60 352/288/30, 2 niveaux 720/576/30, 2 niveaux 2 niveaux : base 720/576/30 ou 352/288/30 ou 768/576/30 Etc.. Enh. 1440/1152/30
SNR
low, main
Spatial
Etc..
44
MPEG 2 System
! Flux de programme (program stream) ! Flux de transport (transport stream). ! Le flux de transport est conu pour communiquer ou enregistrer un ou plusieurs programmes audio, vido ou autre. ! Avant quun flux vido puisse tre dcod, il doit tre extrait du transport stream.
Dcodeur vido Canal Dcodeur du canal Dmultiplexeur du TS Dcodeur audio Horloge
MPEG4
H.263/MPEG4 V1. H.264/MPEG4 AVC Principes cls : Codage intra-image et inter-image par des blocs de taille variable et par combinaison des blocs (H.264) Slection du meilleur mode intra/inter, configuration locale Codage au sens dbit/distorsion.
46
La norme H.264
! Le standard de codage vido qui dpasse les performances de H. 263/MPEG4-V1 ! Lintitul AVC = Advanced Vido Coding ! Fait partie de MPEG4 = V. 10 ! ISO/IEC 14496-10 and IUT Rec H.264 ! Date 2003
47
H. 264
Partition arborescente rcursive : - dcomposition des macroblocs 16x16: 16x16, 2x 16x8, 2x8x16, 4x8x8 - dcomposition des blocs 8x8 : 8x8, 2x8x4,2x4x8, 4x4x4
48
Estimation du mouvement
Principe: recherche du vecteur optimal au sens dun critre de compensation
Previous Frame
Current Frame
MPEG2 uniquement 1 niveau : estimation du mouvement sur de macroblocs 16x16, H. 263 /MPEG4 V1 uniquement 2 niveaux : 16x16 et 8x8
49
16 x 8
8 x 16
8x8
8x4
4x8
4x4
50
51
R(C)
- R(C) : dbit associ au codage. H. 264: Comment choisir la partition optimale tant donn le dbit . maximal respecter. Partition optimale : pour le dbit donne choisir la partition minimisant la fonctionnelle derreur. 52
53
Standard MPEG7
- Une grande diversit des contenus multimdia; - Complexit de la composition; - Ncessit d accs, recherche, manipulation...
55
Objectifs et applications
Objectif du MPEG7 est d assurer interoprabilit des systmes et d applications utiliss dans la generation, management, distribution et consommation des descriptions des contenus audio-visuels. Applications : - slection des contenus de tldiffusion, radio, - librairies digitales (ctalogues des images, dictionnaires musicaux) - services de catalogues multimdia ( pages jaunes multimdias) -dition multimdia (par exemple un service personnalis des informations, production mdia).
56
Objectifs et applications
57
Elments du standard
D - descriptors DS - description schemes DDL - description definition language
58
Ds dfinissent la syntaxe et la smantique des traits caractristiques du contenu audio-visuel. Au niveau bas d abstraction
Ds peuvent inclure la forme, la texture, la couleur , le mouvement de la camra, le timbre de la musique. Au niveau d abstraction plus lev les Ds peuvent inclure des venements, les genres de contenu etc...
Elments du standard
DS permettent la construction des descriptions complexes en spcifiant la structure et la smantique des relations entre les Ds ou les DS les constituant. DDL permet une dfinition flexible des DSs bass sur XML Schema.
Production de la description Description standard Consommation de la description
59
Composantes du standard
1) ISO/IEC 15 938-1: MPEG7 - Systems 2) ISO/IEC 15 938-2 : MPEG7 DDL 3) ISO/IEC 15 938-3 : MPEG7 Visual 4) ISO/IEC 15 938-4 : MPEG7 Audio 5) ISO/IEC 15 928-5 : MPEG7 Multimedia DSs 6) ISO/IEC 15 938-6 : MPEG7 Reference Software 7) ISO/IEC 15 938-7 : MPEG-7 Conformance
60
MPEG7 Visual
MPEG-7 Visual dfinie un ensemble standardis des Ds et DSs visuels.
Pour chaque caractristique visuelle (couleur,texture, forme, mouvement, autre (reconnnaissance de visages) on normalise un nombre de descripteurs, notamment : - Ds Couleur : espace couleur, quantification couleur, couleur dominante, couleur scalable, composition couleur,structure couleur, groupe des couleurs image - Ds Texture : Texture homogne, Texture Browsing, lHistogramme des Contours - Ds Forme : Forme de la rgion, Forme de contour, Forme 3D - Ds du mouvement : mouvement de la camra, trajectoir du mouvement, mouvement paramtriqu, Activit en mouvement
61
Dominant Color
Descripteurs de la couleur
Nouvel espace couleur : HueMaxMinDiff (HMMD)
Blanc Intensit (sum) Degr de blanc (min)
Chroma (diff)
Couleur Pure
Degr de noir (max) Noir Hue - le mme que dans HSV Max=max(R,G,B), Min=min(R,G,B) Diff=Max-Min, Sum=(Max+Min)/2
63
Descripteurs de la couleur
Color structure descriptor : exprime la structure locale de la couleur dans l image Calcul : soit
M couleurs quantifies. L histogramme de la structure couleur est dnot par h(m), m=0,1,,M-1 o la valeur dans chaque bin reprsente le nombre d lments structurants dans l image contenant cette couleur.
Quantification de la couleur (HMMD - HS) en 32, 64, 120, 184 couleurs Si la taille de l image > 256x256 - un sous-chantillonage de facteur de 2 est effectu.
64
Descripteurs de la couleur
Dominant color descriptor : l ensemble des couleurs dominantes dans la rgions d intrt ou dans l image entire fournit une description compacte facile indexer. Utilisation : recherche des images par similarit couleur dans des grandes bases de donnes. Ici
ime couleur dominante pourcentage dans l image variance couleur; mesure de cohrence spatiale (nombre moyen normalis des pixels connexes de mme couleur dans un voisinage 3x3).
65
Coefficients DCT de luminance Coefficients DCT de chrominance rouge Coefficients DCT de chrominance bleu i = 6, j = 3
Color Layout Descriptor : reprsentation compacte de la distribution spatiale des couleurs dans limage, indpendante de la rsolution.
67
64(8x8) blocs
Calcul des couleurs reprsentatives
Cr Cb
DC T
68
Descripteurs du mouvement
Vid
t1
t0
Moving region
69
Descripteurs du mouvement
Vido segment Mosaque Mouvement de la camra Activit de mouvement Paramtres de Warping
Trajectoire
70
Descripteurs du mouvement
Activit de mouvement : traduit la notion intuitive de l intensit d action dans un vido segment Attributs : - intensit de d activit (l attribut principal) - direction d activit (la direction dominante parmi 8 possibles) - distribution spatiale de l activit (indication sur la taille et quantit des rgions actives dans une scne vido) - distribution temporelle de l activit
71
Descripteurs du mouvement
Intensit d activit : mesure qualitatives selon l chelle 1..5
1) intensit trs faible 2) intensit faible 3) intensit moyenne 4) intensit forte 5) intensit trs forte
72
Paramtres de trajectoire
Extraction : - instants cls : chantillonnage temporel rgulier ou non - paramtres d interpolation : les drivs secondes locales des coordonnes. Utilisation lors des requtes :
Mesure de similarit des trajectoires
Schmas de description
Description des aspects structurels du contenu : Segment DS
Segment temporel VideoSegment, AudioSegment t Segment spatial (StillRegion)
75