\n'); } function setFlash(){ var myFlshObj = document.myFlash; var photoAlbum=document.getElementById('photoAlbum'); if(photoAlbum&&myFlshObj){ var awidth=0; awidth=parseInt(photoAlbum.offsetWidth); if(awidth<260) myFlshObj.height='150px'; if(awidth>=260 && awidth<350) myFlshObj.height='240px'; if(awidth>=350 && awidth<370) myFlshObj.height='305px'; if(awidth>=370 && awidth<550) myFlshObj.height='320px'; if(awidth>=550 && awidth<730) myFlshObj.height='455px'; if(awidth>=730) myFlshObj.height='590px'; } } function setAlbumUrl(name){ albumTypename=name; setFlash(); myFlash_DoFSCommand(null,"test"); } function showLoginWindow(ev){ var obj = document.getElementById("pop-login"); if(document.all){ obj.style.top = ev.clientY +'px'; obj.style.left = ev.clientX - 272 +'px'; } else{ obj.style.top = ev.pageY +'px'; obj.style.left = ev.pageX - 272 +'px' } obj.style.display ="block"; document.getElementById("pop-user-name").focus(); } function hideLoginWindow(){ document.getElementById("pop-login").style.display ="none"; } var blogID=getBlogID(); var UserName = ""; if(blogID!=null){ var tmpUserName=blogID.split("."); UserName=tmpUserName[0]; } function resize(obj){ if(window.event.srcElement.tagName == 'A'){ return; } obj.parentNode.childNodes[1].style.display = obj.parentNode.childNodes[1].style.display=='none' ? 'block': 'none'; obj.parentNode.childNodes[2].style.display = obj.parentNode.childNodes[2].style.display=='none' ? 'block': 'none'; } function tab(event){ var evt = (document.all)?window.event:event; if(evt.keyCode == 9){ document.getElementById("pop-password").focus(); return false; } else{ return evt.keyCode; } } function tab1(event){ var evt = (document.all)?window.event:event; if(evt.keyCode == 9){ document.getElementById("save").focus(); return false; } else{ return evt.keyCode; } } function tabTrack(event) { var evt = (document.all)?window.event:event; if(evt.keyCode == 9){ document.getElementById("pop-password-track").focus(); return false; } else{ return evt.keyCode; } }
日志
|
2002年以来,MMS就以极高的频率侵入人们的视野,敲击人们的耳鼓。从爱立信、诺基亚、摩托罗拉、西门子、阿尔卡特这样的跨国移动巨头到华为、中兴这样的本土移动新军,都不遗余力地向移动运营商介绍各自的MMS技术和解决方案,不少运营商已经扑身下水开通MMS业务张网待捕;各内容提供商也在紧锣密鼓加紧开发MMS内容……
|
| 一、什么是"3S"技术?
"3S"技术是英文遥感技术(Remote Senescing RS)、地理信息系统(Geographical information System GIS)、全球定位系统(Global Positioning System GPS)这三种技术名词中最后一个单词字头的统称。 二、为什么"3S"技术"走到了"一起? ...人类有一个梦想,就是想只用一种方法,就把世间一切事物都管起来。而遥感技术(RS)、地理信息系统(GIS)、全球定位系统(GPS),它们具有天然的优势互补性,因此,它们就自然而然的"走到"一起来了。 三、什么是遥感技术(RS)? ...."遥感",顾名思义,就是遥远的感知。地球上的每一个物体都在不停的吸收、发射和反射信息和能量。其中的一种形式-电磁波早已经被人们所认识和利用。人们发现不同物体的电磁波特性是不同的。遥感就是根据这个原理来探测地表物体对电磁波的反射和其发射的电磁波,从而提取这些物体的信息,完成远距离识别物体。 四、遥感技术是如何成像的? 简单归纳遥感技术的成像方法,一般有两种:第一种是用照相机拍的胶卷,它用的照像机和胶卷和我们平常生活中用的照相机和胶片基本一样,所不同的是遥感的专业照相机要大一些,当然胶片也相应要大一些,另外有些胶片是专用胶卷,如"彩色红外"专用胶卷。将拍摄完毕的胶卷冲洗、印像、放大,即成为遥感像片;第二种是"数字成像"的,成像原理类似于我们看的电视。电视节目是从由电视台发射数字电信信号,这种信号在空中传播,到用户电视接收、回放信号,一幅图像的信号传输完毕,就实现了"可视化"。遥感技术也可理解为上述的信息传输过程,即把地面信息,通过卫星上的设备"拍摄"下来,然后将拍摄的信号传输到计算机中回放出来,我们就可以看到遥感图像了! 五、遥感图像的分辨率是怎么回事?> ....分辨率是用于记录数据的最小度量单位,一般用来描述在显示设备上所能够显示的点的数量(行、列),或在影像中一个象元点所表示的面积。 六、遥感图像有什么用途? 就像我们生活中拍摄的照片一样,遥感像片同样可以"提取"出大量有用的信息。从一个人的像片中,我们可以辨别出人的头、身体及眼、鼻、口、眉毛、头发等信息。遥感像片(图像)一样可以辨别出很多信息,如水体(河流、湖泊、水库、盐池、鱼塘等)、植被(森林、果园、草地、农作物、沼泽、水生植物等)、土地(农田、林地、居民地、厂矿企事业单位、沙漠、海岸、荒原、道路等)、山地(丘岭、高山、雪山)等等;从遥感图像上能辨别出较小的物体如:一棵树、一个人、一条交通标志线、一个足球场内的标志线等。大量信息的提取,无疑决定了遥感技术的应用是十分广阔的,据统计,有近30个领域、行业都能用到遥感技术。由于遥感技术是从人们一般不能站到的高度去"拍照",故从宏观视野上,也有着人力所不能及的优势。 七、什么是地理信息系统技术(GIS)? ....信息总量中有85%的信息是与地理位置有关的信息。与地理位置有关的信息,就叫地理信息。这样的信息相当广泛,如耕地的分布、林地的分布、城镇的分布、楼房等建筑物的分布、道路、河流、海岸、人口、医院、学校、企事业单位、管线、派出所、商店、井位、门牌、电闸、水表、开关等等,只要能用"位置"去描述的东西,都属于"地理信息",遥感所提取的信息也全部包含在地理信息之中。 八、什么是全球定位系统(GPS)? ....一种系统,由处于2万公里高度的6个轨道平面中的25颗卫星组成。此系统用于在任何时间,向地球上任何地方的用户提供高精度的位置、速度、时间信息,或给用户提供其邻近者的这种信息。 九、什么是"数字地图"? ..通常我们所看到的地图是以纸张、布或其他可见真实大小的物体为载体的,地图内容是绘制或印制在这些载体上。而数字地图是存储在计算机的硬盘、软盘或磁带等介质上的,地图内容是通过数字来表示的,需要通过专用的计算机软件对这些数字进行显示、读取、检索、分析。数字地图上可以表示的信息量远大于普通地图。 十、什么是空间数据? ..空间数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。定位是指在已知的坐标系里空间目标都具有唯一的空间位置;定性是指有关空间目标的自然属性,它伴随着目标的地理位置 ;时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。 十一、什么是海量数据? ..海量数据是一个形容词,它是用来形容巨大的、空前浩瀚的数据。现在很多业务部门中都需要操作海量数据,如规划部门有规划方面的数据,水利部门有水利方面的数据,气象部门有气象方面的数据,这些部门处理的数据量都非常大。它包括各种空间数据、报表统计数据、文字、声音、图象、超文本等各种环境和文化数据信息。 十二、卫星的轨道有哪几种? ..人造卫星的轨道根据形状不同可以有各种名称。 十三、航空摄影(Aerial Photography) ..从机载平台所摄照相。 十四、航天摄影(space Photography) ..从宇宙飞船所摄照相。 十五、波宽(bandwidth) ..在某一波段中一定范围的光谱频率。 十六、基图(base map) ..表示平面的、立体的、地理的、政治的、地籍的基本地图,有各种不同的类型。基图信息与其它主题变化信息一起提取。 十七、效益分析(benifi analysis) ..研究遥感应用技术应用于某特殊领域中的特殊效益。 十八、缓冲带(buffer) ..在某物理实体(如点、线、多边形)周围一定距离的一个地带。 十九、地籍的(cadastral,cadastre) ..关于土地性质及范围的记录。一般指说明地块等内容的地图和说明,以及谁拥有该土地所有权的证明。地籍信息常包括关于地块的其它信息的说明。 二十、制图参照点(cartographic reference) ..指图象中其位置已知的点,从而可以决定图象其他部份的准确的位置和方向。 二十一、轮廓线图(contour mapping) ..线上参数值相等的图。 二十二、COSMOS ..俄罗斯的系列卫星。 二十三、数据转换(data conversion) ..数据从一种图象形式转换成另一种(红外波段一可见光波段;把象元转换成新的类别;图象表示的变化;等等)。 二十四、数据层(data layer) ..可以用来叠加的一组数据。每一层一般为一种主题(例如灌溉级别,森林种类,道路,等等)并由一个公共座标系统与其他各层相联系。 二十五、美国国防制图局(DMA) ..是美国政府机构。 二十六、数字地形模型(digital terrain model,DTM) ..以数字形式表示地球的地形,即用座标及高度的数字表达。 二十七、边缘匹配(edge matching) ..在把两张图连接为一张时,消除相邻图幅中特征及边缘表示的差异的过程。 二十八、特征(feature) ..一种地理本质的表示,如点、线、多边形。 二十九、特征数据(feature data) ..以空间位置、属性、关系来描述特征的一般术语。例子有:道路、湖泊、铁路。 三十、地理编码(geocodin) ..校正图象的过程、校正全部与数据来源有关的误差并通过重采样成标准大小的方形象元而在几何上转换成需要的地图投影。 三十一、地理参考(georeference) ..在两种座标之间建立联系:纸质地图或底稿上的座标,已知真实坐标。 三十二、地面控制构(ground control) ..系统的点,其位置与/或高程由地面测量获得,这种点用于决定地图特征的位置并加以关联。 三十三、地面实况(ground truth) .在现场获取的信息,其目的是标定与/或验证遥感数据。 三十四、图象纠正(image rectificatin) ..把图象做成平面的过程,它并不去除高程畸变或透视畸变。 三十五、图象配准(image registration) ..在两个以上重叠的图象上匹配点以便与地面的点相对应。 三十六、图象重采样(image resampling) 在数字图象处理中用于几何校正的技术。通过插值过程,输出的象元值是作为输入象元值的函数推导而得,其间结合了计算所得的畸变。最近邻、双线性插入,立方卷积是常用的重采样技术。 三十七、图象处理(image processing) ...包括全部可用于照相数据或图象数据的各种全部不同的处理方法,包括图象压缩、图象恢复、图象增强、预处理、定量化、空间滤波及其他图象模式识别技术。 三十八、地图投影(Map projection) ...把地球表面的一部分或全部在平面上表示出来的方法。 三十九、镶嵌(mosaic) ...把有重叠部份的航空或航天图象的边缘部份进行匹配而形成地球表面的一部分的连续图象 四十、多光谱图象(multispectral imagery) .同时获取的两个以上的图象,但每一图象都在电磁谱中的不同部分获取。 四十一、正射照相(orthophoto) 从通常的透视照相通过简单的或差分纠正而推导得到的照相。经过纠正,相机倾斜及地形高低所造成的图象位移得以去除。 四十二、全色胶卷 (panchromati film) .对可见光谱段内所有波长都感光的胶卷,但不一定那么均匀地感光。 四十三、照相测绘(Photogrammetry) ..把照相原理应用于制图科学。这是从图象获得可靠空间测量值的科学。 四十四、象元(Pixel) ."图象单元,Picture element"是对应于一幅数字图象数据集的一个数。 四十五、点(poin) ..只有X、Y座标,说明一个地理太小,不足以显示为一条线或一个面积。 四十六、快视(Quich look) ..联机或传送数据时产生的、或在数据接收后立刻产生的图象。这种图象未经计算机校正,但具有的分辨率及清晰度可对大多数应用提供看得见的信息。 四十七、纠正(rectification) 网象或网络从图象座标转成实际座标的处理过程,纠正通常涉及网格的旋转、缩放、故需要数值的重采样。 四十八、弹性伸缩(rubber-sheeting) ..对地图特征进行几何调整,强制数字地图适配进入一种指定的基图。 四十九、SPIN-2 ..俄罗斯卫星、2米分辨率、正射校正、全色、数字数据。 五十、SPIN CONTROL 一种费用及时间都经济的从SPIN-2数据产生地面控制点的方法,用于几何校正其他卫星数据。 五十一、立体信息分析(stereo analysis) ..从图象(单的或成对的)推导立体信息的技艺。 五十二、立体图象(stereo imagery) ..同一地区的两幅图象,但是是从不同的传感器平台摄取的,从而可以产生立体视觉。 五十三、立体正射照相(stereo orthophoto) .利用正射照相的象对(Pairs),象对中的一个是从另一个原始正射照相人工制造的。 五十四、热图象(thermal imargery) ..由发射的热辐射(红外或微波)产生的图象。 五十五、三角测量技术(triangulation) ..扩展水平或垂直的控制点,利用照相术的透视原理在重叠的照相上把角度和距离的测量与空间座标联系起来。 五十六、USGS ..美国测绘局(United States Geo-logical Survey。) 五十七、向量数据(vector data) ..利用点、线、多边形来表示空间数据,这些点、线、多边形是根据它们的原点、断点、终点进行数字编码的。 五十八、VTU ..俄罗斯国防制图局。 |
|
2006年“中山大学”自考学士学位主干课程报名通知 |
| 通 知
先生(女士):
现将2006年下半年成人教育本科毕业生申请学士学位的条件和要求通知如下:
一、申请学士学位的条件
根据中山大学成人教育本科毕业生申请及授予学士学位工作实施办法的通知,符合下列条件者,方可在今年申请参加学士学位主干课程的考试。
⒈ 2005年自学考试本科毕业并获取证书者;
⒉ 本科段各科成绩的平均分在70分以上(含70分);
⒊ 通过本专业的外语课程的考试,成绩合格(含60分以上);
⒋ 论文成绩在良好以上(含良好);
⒌ 参加省学位办组织的学位英语考试,成绩合格(含60分以上)。
二、申请学位的要求
⒈ 填写《中山大学高等教育自学考试学士学位申请表》;
⒉ 提供专科和本科毕业证书的复印件、本科段成绩复印件、学位英语合格证书复印件(2005年6月以前参加成人外语的考生提供)或成绩单(2005年6月以后参加成人外语考试的考生提供)、身份证复印件;
⒊ 本科段免考科目,请交省自考办审批的申请免考课程登记表的复印件;
⒋ 交免冠大一寸彩色同底近照三张、(一张贴在学士学位申请表上,另二张背面写姓名、专业);
⒌ 交申请学士学位审核费及主干课程考务费,共计人民币150元,报名后不参加考试或考试成绩不及格的,不退款。
请考生于9月27日到广州市新港西路135号中山大学高等继续教育学院自学考试办公室报名,广州以外考生必须在9月27日前将以上材料寄到上述地址(以收到报名费为准),过时不予办理。
四、考试时间:2006年11月11日(星期六)上午9:00、下午2:30。考试科目见附表。
参加考试时须带齐成人本科申请学士学位外国语统考合格证书原件(2005年6月以前的考生提供)或成绩单(2005年6月以后的成人外语考试考生提供)、身份证原件和准考证。
⒈ 11月10日到中大高等继续教育学院自考办领取准考证;
⒉ 考试地点:中山大学逸夫楼。
注意:本次考试不接受2004年以前毕业以及2006年毕业的考生。
中山大学高等教育自学考试办公室
二00六年九月十四日
联系电话:84113326 联系人:林老师
邮政编码:510275
通讯地址:广州市新港西路135号 中山大学高等继续教育学院自学考试办公室
附表:各专业主干课程表
|
|
1998年11月 MPEG-4的国际标准公布 1999年 Microsoft开发了用于Windows Media的MPEG-4CODEC(编码解码平台) 2000年2月份 一位27岁的法国电影爱好者和黑客Je{AAC}ro{ACI}me Rota合作开发了一个新的基于MPEG-4的视频编码解码平台,并同时在网络上开放下载。这就是如今大名鼎鼎的DivX;-) DivX;-)是一种音视频存储格式、影音媒体,最大的用途就是保存高品质的电影并在网上交流,各项特征如下: 文件类型 多数情况下以AVI文件的形式保存 分辨率 可选择、变化:512x384(4:3画面)、640x272(2.35:1画面)为主 音频 开放特性。可使用Lame MP3(VBR)、Dobly Digtal(AC3)等。DivX;-) Audio、PCM、MP3、DTS等。 码流(容量) 取决于分辨率和具体的编码设置。 质量 视频画质接近DVD水平,超过VCD和LD; 音频可以达到CD质量(48kHz, 96kBits, stereo) 或者是多声道数码声(例如Dobly Digtal 5.1) 系统配置 300MHz CPU,64M 内存,8M显存,系统安装了相应的DivX CODEC后可使用Media Player6.4+或者专用播放软件播放 编码效率 PII-350的系统约为1-2桢/秒 DivX;-) CODEC的开发,实际是挪用了Microsoft Mpeg4v3 4.1.00.4920 Low Motion和4.1.00.4917 Fast Motion的编码核心。经过几个月的修正和一系列更新版本,DivX;-) 现在已经可以在所有主流操作平台上工作和运行,包括Windows, Macintosh, Linux 和 BeOS的DivX版本都已经开放下载。 DivX;-)视频编码所使用的MPEG4编码压缩技术是一种高压缩比有损视频压缩技术。用它来压缩一部容量为5-10G的DVD,保持相同的分辨率和AC3音轨只需要1-2张CDROM,压缩比接近10:1。高压缩比使个人可以更轻松廉价的保存高品质影片,DivX;-)很快就被网民接受并普遍使用。 Internet更为DivX;-)提供了无限的发展空间。现在每天在网络上都会有5、6部最新发行的影片以DivX;-)格式流传。高清晰的影像画面和相对小的文件吸引着上千万的人。上网者只要足不出户,就可以轻松交换高品质的音视频享受。朋友间种种充满乐趣、轻松惬意的影音交流也更为容易。要知道,DivX;-)的流行还只不过是刚刚开始而已。 『 XviD的历史与特点 』 ---- 作者:沈晟 4年以前,在PC上能用的唯一MPEG-4编码器就是由微软所开发的,包括MS MPEG4V1、MS MPEG4V2、MS MPEG4V3的系列编码内核。其中前面两种都可以用来制作AVI文件,至今都作为Windows的默认组件。不过V1和V2的编码质量都还不太好,直到MS MPEG4V3开始,画面质量有了显著的进步。不过微软却决定仅将这个MS MPEG4V3 的视频编码内核封闭在Windows Media流媒体技术,也就是我们熟知的ASF文件之中,不再能用于AVI文件。ASF文件虽然有一些好处,但是过于封闭甚至不能被编辑,惹恼了天不怕地不怕的电影黑客。很快便有小组修改了微软的MS MPEG4V3,解除了不能用于AVI文件的限制,并开放了其中一些压缩参数,由此,也就诞生了我们今天所熟悉的MPEG4编码器DivX;-)3。11。 DivX广泛流行,成为DVDRip的标准,问题是,它的基础技术是非法盗用微软的,只能在地下里流传却上不了台面,无法进行更广泛的产品化,更无法生产硬件播放机。在这种情况下,一些精通视频编码的程序员(包括原DivX 3.11的开发者)成立了一家名为DivXNetworks Inc.的公司,简称DXN。DXN发起一个开放源码项目ProjectMayo,目标是开发一套全新的、开放源码的MPEG4编码软件。特别是完全符合ISO MPEG4标准的OpenDivX CODEC吸引了许多软件高手参与,并很快开发出OpenDivX编码器和解码器原型,之后又开发出更高性能的编码器Encore 2等等。这一时期,主要编码工作是DXN的人在做,而许多技术难关的解决得力于来自开放源码社会的帮助。 就在一切都看起来进展顺利的时候,好戏上演了。ProjectMayo虽然是开放源码,但不是依据GPL(通用公共许可证,一种开放源码项目中常用的保障自由使用和修改的软件或源码的协议)。DXN在设计授权协议时留了一手,2001年7月,就在Encore 2基本成型,差不多可以产品化的时候,DXN另搞了一个DIVX.COM网站,封闭了源码,发布了他们自己的DivX 4。DivX 4的基础就是OpenDivX中的Encore 2,但利用了DivX的牌号,可以说出乎意料的摆了所有人一刀。由于DXN不再参与,ProjectMayo陷于停顿,Encore2的源码也被DXN从服务器上撤下。经过激烈的争论,DXN虽然承认Encore 2在法律上是开放的,但仍然拒绝把它放回服务器。开放源码社会就这样被狠狠地涮了一回。 OpenDivX尚不能实际使用,而DivX 4(以及后续的收费版本--DivX 5)等等都成了私有财产,许多人为打破微软垄断而无偿付出的智慧和劳动仅仅是帮助了DXN发财,这种结果当然是不能被接受的。为此,整个0dayz组织永远的拒绝了DXN公司的DivX45,而原OpenDivX开发组中的幸存者,逐渐重新聚拢开发力量,在最后一个OpenDivX版本的基础上,发展出了XviD。 劫后余生的XVID到现在又度过了近1年时间,它继承并发展了OpenDIVX Encore 2,性能得到极大提高,被认为目前世界上速度最快的MPEG4 CODEC。XVID重写了所有代码,并吸取前车之鉴依照GPL发布(注意不再是LGPL,所以谁要是想用它做成产品而不开放源码是非法的)。不过,因为MPEG4还存在专利权的问题,所以XVID只能仿照LAME的做法,仅仅作为对如何实现ISO MPEG-4标准的一种研究交流,网站上只提供源码,如果要使用就要自己编译源码或者到第三方网站下载编译好的可运行版本。 想当初Gaj之流的几个家伙搞OpenDivX的时候,一开始是很像一个像模像样的开放源码项目,很多人都被吸引过去一起开发,测试。直到后来,那几个家伙一夜之间露出骗子的本来面目了,把OpenDivX的成果一股脑带走,变成了封闭源码的DivX4,而后进一步变成现在的收费的DivX5了。本来很好的OpenDivX被逼流产,不过也就促成了今天XviD的诞生、发展和壮大。现在的XVID更可以说超越了DivX 5,以更好的质量,更强的功能挑战着新一代的MPEG4应用战场。 目前,微软基于Mpeg-4的wmv9在商业应用上也很成功。在微软的巨大影响力下,已经成为新一代DVD标准之一的蓝光DVD的编码器。Divx5依然在商业应用的道路上前进着,似乎在一些avi播放机上可以看到他。Xvid随着1.0版的正式发布,风头正劲,视频编码性能方面确实是当之无愧的王者,开放的Xvid活力无限。另外要介绍一下H.264。H.264是最新的MPEG压缩技术,又名“MPEG4 AVC(Advanced Video Coding)”。H.264的数据压缩率在MPEG2的2倍以上、MPEG4的1.5倍以上。One2公司在H.264基础上开发的VP6在压缩率上有着不错的表现,在低码率的情况下,性能不错。 下面介绍一下视频编码的基本概念 码流(Data Rate) 码流是指视(音)频文件在单位时间内使用的数据流量,有时候也叫码率,是Mpeg4画面质量控制中最重要的部分。同样分辨率下,视(音)频文件的码流越大,压缩比就越小,画面质量就越高。试采集同一帧同一分辨率的原版《木乃伊》做细部比较,如下图:
我们注意观察黑色前景周围的高对比度区域,和背景天空的对比度和碎化程度。以原图为标准画面(10Mbits/s的Mpeg2),可以看到“码流500kbits/s的DivX”高对比度区域呈斑点状,背景天空碎化、混沌;“码流1000kbits/s的DivX”介于前后两者之间;“码流1500kbits/s的DivX”画面柔和,背景天空已经可以准确分辨明暗位置。虽然DivX和原图比较仍有缺陷,但毕竟DivX的码流只有DVD的1/10-1/6。码流1000-1500kbits/s画面质量已经相当令人满意了。 如果对画质有更高的要求而不在乎文件的大小,则可以将码流提高到2000kbits/s以上(系统允许最大值是6000kbits/s)。如下图:
以2000kbits/s生成的画面已经相当接近原画,很难看出分别了。 可以通过公式来通过控制码流来推算生成文件的大小,以适合个人存放: 码流 x 时间 = 总容量 这里要注意的是码流的单位,1 byte (B) = 8 bits (b),我们计算机上文件的容量K/M,都是指B 1 Kilobyte(K/KB)=2^10 bytes=1,024 bytes 千字节 所以如果用的bits/s的码流计算容量记得要除8,否则就差大了 关键帧 所有的Mpeg影片都是由16x16见方的小方块构建的。在连续的两帧中“基本相同”的小方块内的像素信息将不被后一帧记录,以节省空间并得到更高的压缩比例。正例如下图中说话的男子,第2到第4帧除了正在移动的嘴部附近画面,其他部分并不一一复制。就可以节省超过70%存储空间。
但是在这种方式下,多数的帧都并不会记录完整的画面信息。例如在播放第4帧画面时,就必须先得到第1、2、3帧的信息。如果要看第100帧的画面,就必须读取并处理前99帧的数据信息才可以得到。这样就造成影片不能够从中间选定的时间点播放。即使你已经看过前面30分钟的画面,也必须要慢慢的等待电脑一帧一帧的重建前面的画面,这是多么痛苦啊。因此就必须设定合适的“关键帧”。 适当的加入“关键帧”既可以轻松的在影片的中定位时间点,也方便对影片进行后期编辑和处理,还可以更准确的保证音轨同步、保证画面质量。 三种帧类型 IF——I-frame的缩写,即关键帧。关键帧是构成一个帧组(GOP,Group of Picture)的第一个帧。IF保留了一个场景的所有信息。压缩比为1:7。 PF——P-frame的缩写,即未来单项预测帧,只储存与之前一个已解压画面的差值。压缩比为1:20。 BF——B-frame的缩写,即双向预测帧,除了参考之前解压过了的画面外,亦会参考后面一帧中的画面信息。压缩比为1:50。 B-Frame(在 MPEG-4 里面正确的名称是 B-VOP)的预测模式有四种: 压缩 B-Frame 的时候会从上面几种预测模式中选压出来最小的一个模式来使用。 三种量化方式:H.263、MPEG和MPEG Custom H.263——推荐700~900K的码率(比如1CD制作)时使用。保留画面细节不及MPEG量化方式好,但可以达到较好的画面降噪效果,可以让画面看起来更干净一些。推荐压制动画使用本量化方式。H.263 的量化方法,顾名思义,就是使用 H.263 这个压缩规格所使用的量化方法,量化的时候,8x8 的像素方块内的所有 DCT 系数,全部除以同一个数字。(这个动作就叫做量化)例如全部都除以 32,如果有一个 DCT 系数为 15,小于 32,经过相除之后,会被量化为 0,如此便可以省下很多记录的 bits。当然,除的数字越大,量化的误差也就越大,品质也就越差,但是压缩率会越高,压出来档案会越小。我们会利用另一个参数来调整量化的误差,控制最后量化的品质和档案的大小,这个参数叫做 Quantizer。量化的系数会再乘上这个 Quantizer 的倍数,例如原本要除的量化系数是 32,Quantizer 是 2,对应的放大倍数也是 2,最后真正要除的量化系数就变成 32*2 = 64。所以 Quantizer 越大,要除的量化系数就越大,量化误差就越大,品质就越差,但是档案也越小。H.263 的量化方法还规定,相邻的两个 MacroBlock 的Quantizer 不能相差超过 2。 MPEG——建议高码率情况下(比如2CD制作)使用,画质最佳,能保留较多细节。推荐制作电影DVDRIP使用本方式。若在制作动画时使用,可能引起色彩过度不自然、颜色边界处出现噪声等副作用,此时,可搭配Cartoon Mode降低这些副作用。MPEG 的量化方法,高低频系数可以除以不同的量化系数,可以视情况将高频削多一点。这个 8x8 的量化系数,也就是 Quantize Matrix(量化矩阵)。 MPEG Custom——可以加载MPEG自定义量化模板。你可以依照影片内容、使用码率,自订最适当的量化矩阵。比如,压电影的时候常用的hvs-best-picture模板可以兼具MPEG和H.263量化方式的优点,即画面细节和降噪都能得到兼顾。 总的来说,使用H.263 量化法,压出来的画面会较模糊。MPEG 量化方法的画面会比较锐利。(不过锐利线条的周围、物体的边缘,会产生一些噪声)MS MPEG-4,也就是 DivX 3.11,使用的是 MPEG 的量化方式,所以一直以来,大家的评价都是 MS MPEG-4的画面比较锐利,保留比较多的细节。DivX 4, DivX 5 都是使用 H.263 的量化方法,尤其是 DivX 4,画面非常模糊。虽然表面上看起来压缩瑕疵较少,但是细节都被削光光了。XviD 则可以让使用者自行选择要固定使用哪种量化方法,或者是视情况切换量化的方法。 CBR和VBR CBR 恒定码率,整个文件的码率是恒定不变的。 VBR 动态码率,文件的码率是变化的,在一些大动态的场景,如爆炸,高速运动的物体等场景码率会很高,而在一些静态的,相对静止缺乏变化的场景码率又很低。 Single pass 和 Two pass 下面是Xvid1.0里面的两种模式的具体应用,可以更形象的了解这两种编码模式。 Single pass——一次运算,Single pass有两种模式。Single pass模式编码较简单,速度也很快,但是最终质量不如Twopass模式好。可用于实时采集。 Single pass之Target bitrate(CBR)——目标码率模式,单位kbps。最简单的单线编码,选择平均码率后编码。文件大小相对容易控制。 Single pass之Target quantizer(VBR)——目标Q值模式,动态码率。 Twopass——二重运算。这种编码模式分为两步,首先对画面逐帧进行运动侦测,以及对全片段的运动侦测结果进行分析,然后重新以曲线平衡分配每一帧的Q值,以做到:需要高码率的运动画面可以分配更多空间、更高的码率、更低的Q值来保证画面质量;而对于不包含太多运动信息的静态画面,则可以消减分配的码率。这种把好钢用在刀刃上的做法,是XviD作为第二代MPEG4编码的核心内容。可以说,Twopass模式可以在影片容量与画面质量之间找到最佳平衡点,这也是大多数人都乐意花费更多时间采用这种方式的原因。 Twopass-1st pass——二重运算,第一次运算。这是Twopass模式的第一步。在这一步中,编码器会用最高质量编码(量化值2),同时收集画面信息,并将这些信息记录信息文件(stats)当中提供第二次运算的时候参考。 Twopass-2nd pass——二重运算,第二次运算。这是Twopass模式的第二步,编码器会根据第一次压缩时获得的影片的信息和用户指定的最终文件大小,自动分配码率,低动态的分配得少一些、大动态的分配得多一些,总之尽量保证最终文件大小为用户指定的大小 |
|
DVI 的定义:
DVI-A : 就是与 VGA 规范一样的 包括 RGBHV 信号线的模拟接口,
根据DVI标准,一条TMDS通道可以达到165MHz的工作频率和10-bit接口,也就是可以提供1.65Gbps的带宽,这足以应付1920*1080/60Hz的显示要求。另外,为了扩充兼容性,DVI还可以使用第二条TMDS通道,这样其带宽将会高过2Gbps。
DVI-A 的接口图示:
DVI-D 的接口图示 :
DVI-I 的接口图示 :
从 DVI-I 以及 DVI-D 的管脚图的差别就可以看出 DVI-A 的信号规范了。 大家可以看看: DVI-I 与 DVI-D 的差别是这么几个插脚 :
DVI-I :
C1 = Analog Red 模拟视频信号 三基色信号线中的 红
看完管脚规范/定义后, 再看看实际的图例。 VGA的规范中还有 即插即用的 DDC2B 的规范以及相应的管脚,接计算机时必用。但是对于 DVI 来说 若是接其他模拟视频设备就不需要了。一般的 DVI 接口转VGA 的模拟部分的信号线都是基于RGBHV 的。
假设 显示终端是 DVI-I (或 DVI-A) 的接口, 信号源是 VGA 接口的, 那就配置这样一根线缆联接即可。大家看到了吧:一端是接视频源的 VGA 接口,另一端是接终端的 DVI-I (或者 DVI-A)接口。
图中俺还画了音频的连接线, 其实大家一看就明白, 不用俺赘述了吧。
DVI-D 联接图示: 假设显示终端是 DVI-D 接口的投影仪, 而信号源是 DVI-D 接口的 影碟机,就配备这样一根 DVI-D 线缆即可。
其实今后大部分是这种情况。许多视频源都是 DVI-D 的输出接口,而显示终端也大都是 DVI-D 的 ( 例如 AE500 )。
RGBHV: 当使用模拟部分 (DVI-A) 联接时,除了 VGA 以外,也可以联接 RGBHV 输出的其他视频设备。这种插座/插头 在视频广电设备中常见, 不用俺多说了吧。
大家可以看到,线缆中的插头里: 除了 三基色的 R G B (红 绿 蓝 )以外, 还有两个 H V ( 行 场 ) 同步信号线。由于插头的外壳是接地的, 所以从 DVI-I 连接线的这端就只有 R G B H V 五个信号线联接了。不管你接的是模拟的 VGA 插座也好, 别的模拟视频连接插座也好, 其实万变不离其宗: R G B H V !
DVI-I 输入端 联接 DVI-D 输出时 :
俺已经说过了, 就是 DVI-I中的 DVI-D 部分起了作用, 实际就是 DVI-D 联接。
这是 DVI 信号线中的TMDS数字信号以及控制信号、模拟信号列表: 数字信号部分
模拟信号部分
大家可以看到: 模拟部分关键的就是 RGBHV (模拟接地信号线除外)。
AE500是DVI-D接口,可不可以接DVI-I接口呢?一定要接DVI-D吗,DVI-I不是可以兼容-D的么?DVI-I输出的HTPC连接DVI-D的AE500有没有问题? DVI-D可以用DVI-I的接口, 电气原理上没什么不适。 打个通俗的比喻吧:DVI-I 是现金加支票两种结算方式 ,比较灵活,选择余地大。DVI-D只是现金结算方式,就一种选择。那么DVI-I是可以与DVI-D做交易的, 因为DVI-I的有两种方式可以选择,其中一种恰好适合DVI-D 。因为DVI-D只做现金交易,那好,DVI-I 就放弃 支票交易模式。单单用DVI-I 中的现金交易模式来与DVI-D沟通,不知比喻适合否。 |
| 从H.261到H.264
数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、可视电话及数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。ITU-T与ISO/IEC是制定视频编码标准的两大组织,ITU-T的标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如会议电视;MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。两个组织也共同制定了一些标准,H.262标准等同于MPEG-2的视频编码标准,而最新的H.264标准则被纳入MPEG-4的第10部分。 本文按照ITU-T视频编码标准的发展过程,介绍H.261、H.263及H.264。 H.261视频编码标准 H.261是ITU-T为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的,速率为64kb/s的整数倍。H.261只对CIF和QCIF两种图像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理。 H.261是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包括运动补偿的帧间预测、DCT变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。 H.263视频编码标准 H.263是最早用于低码率视频编码的ITU-T标准,随后出现的第二版(H.263+)及H.263++增加了许多选项,使其具有更广泛的适用性。 H.263视频压缩标准 H.263是ITU-T为低于64kb/s的窄带通信信道制定的视频编码标准。它是在H.261基础上发展起来的,其标准输入图像格式可以是S-QCIF、QCIF、CIF、4CIF或者16CIF的彩色4∶2∶0亚取样图像。H.263与H.261相比采用了半象素的运动补偿,并增加了4种有效的压缩编码模式。 无限制的运动矢量模式允许运动矢量指向图像以外的区域。当某一运动矢量所指的参考宏块位于编码图像之外时,就用其边缘的图像象素值来代替。当存在跨边界的运动时,这种模式能取得很大的编码增益,特别是对小图像而言。另外,这种模式包括了运动矢量范围的扩展,允许使用更大的运动矢量,这对摄像机运动特别有利。 基于句法的算术编码模式使用算术编码代替霍夫曼编码,可在信噪比和重建图像质量相同的情况下降低码率。 先进的预测模式允许一个宏块中4个8×8亮度块各对应一个运动矢量,从而提高了预测精度;两个色度块的运动矢量则取这4个亮度块运动矢量的平均值。补偿时,使用重叠的块运动补偿,8×8亮度块的每个象素的补偿值由3个预测值加权平均得到。使用该模式可以产生显著的编码增益,特别是采用重叠的块运动补偿,会减少块效应,提高主观质量。 PB-帧模式规定一个PB-帧包含作为一个单元进行编码的两帧图像。PB-帧模式可在码率增加不多的情况下,使帧率加倍。 H.263视频压缩标准版本2 ITU-T在H.263发布后又修订发布了H.263标准的版本2,非正式地命名为H.263+标准。它在保证原H.263标准核心句法和语义不变的基础上,增加了若干选项以提高压缩效率或改善某方面的功能。原H.263标准限制了其应用的图像输入格式,仅允许5种视频源格式。H.263+标准允许更大范围的图像输入格式,自定义图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图像序列及宽屏图像。 为提高压缩效率,H.263+采用先进的帧内编码模式;增强的PB-帧模式改进了H.263的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率,而且提供重建图像的主观质量。 为适应网络传输,H.263+增加了时间分级、信噪比和空间分级,对在噪声信道和存在大量包丢失的网络中传送视频信号很有意义;另外,片结构模式、参考帧选择模式增强了视频传输的抗误码能力。 H.263++视频压缩标准 H263++在H263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率。这3个选项为: 选项U--称为增强型参考帧选择,它能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存贮多参考帧图像。 选项V--称为数据分片,它能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分离视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量。 选项W--在H263+的码流中增加补充信息,保证增强型的反向兼容性,附加信息包括:指示采用的定点IDCT、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。 H.264视频编码标准 H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准。事实上,H.264标准的开展可以追溯到8年前。1996年制定H.263标准后,ITU-T的视频编码专家组(VCEG)开始了两个方面的研究:一个是短期研究计划,在H.263基础上增加选项(之后产生了H.263+与H.263++);另一个是长期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生了H.26L标准草案,在压缩效率方面与先期的ITU-T视频压缩标准相比,具有明显的优越性。2001年,ISO的MPEG组织认识到H.26L潜在的优势,随后ISO与ITU开始组建包括来自ISO/IEC MPEG与ITU-T VCEG的联合视频组(JVT),JVT的主要任务就是将H.26L草案发展为一个国际性标准。于是,在ISO/IEC中该标准命名为AVC(Advanced Video Coding),作为MPEG-4标准的第10个选项;在ITU-T中正式命名为H.264标准。H.264的主要优点如下: 在相同的重建图像质量下,H.264比H.263+和MPEG-4(SP)减小50%码率。 对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。 提高网络适应性,采用"网络友好"的结构和语法,加强对误码和丢包的处理,提高解码器的差错恢复能力。 在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级,以适应不同复杂度的应用。 相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括4×4整数变换、空域内的帧内预测、1/4象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的复杂度。 4×4整数变换 以前的标准,如H.263或MPEG-4,都是采用8x8的DCT变换。H.26L中建议的整数变换实际上接近于4×4的DCT变换,整数的引入降低了算法的复杂度,也避免了反变换的失配问题,4×4的块可以减小块效应。而H.264的4×4整数变换进一步降低了算法的复杂度,相比H.26L中建议的整数变换,对于9b输入残差数据,由以前的32b降为现在的16b运算,而且整个变换无乘法,只需加法和一些移位运算。新的变换对编码的性能几乎没有影响,而且实际编码略好一些。 基于空域的帧内预测技术 视频编码是通过去除图像的空间与时间相关性来达到压缩的目的。空间相关性通过有效的变换来去除,如DCT变换、H.264的整数变换;时间相关性则通过帧间预测来去除。这里所说的变换去除空间相关性,仅仅局限在所变换的块内,如8×8或者4×4,并没有块与块之间的处理。H.263+与MPEG-4引入了帧内预测技术,在变换域中根据相临块对当前块的某些系数做预测。H.264则是在空域中,利用当前块的相临象素直接对每个系数做预测,更有效地去除相临块之间的相关性,极大地提高了帧内编码的效率。 H.264基本部分的帧内预测包括9种4×4亮度块的预测、4种16×16亮度块的预测和4种色度块的预测。 运动估计 H.264的运动估计具有3个新的特点:1/4象素精度的运动估计;7种大小不同的块进行匹配;前向与后向多参考帧。 H.264在帧间编码中,一个宏块(16×16)可以被分为16×8、8×16、8×8的块,而8×8的块被称为子宏块,又可以分为8×4、4×8、4×4的块。总体而言,共有7种大小不同的块做运动估计,以找出最匹配的类型。与以往标准的P帧、B帧不同,H.264采用了前向与后向多个参考帧的预测。半象素精度的运动估计比整象素运动估计有效地提高了压缩比,而1/4象素精度的运动估计可带来更好的压缩效果。 编码器中运用多种大小不同的块进行运动估计,可节省15%以上的比特率(相对于16×16的块)。运用1/4象素精度的运动估计,可以节省20%的码率(相对于整象素预测)。多参考帧预测方面,假设为5个参考帧预测,相对于一个参考帧,可降低5%~10%的码率。以上百分比都是统计数据,不同视频因其细节特征与运动情况而有所差异。 熵编码 H.264标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC)与统一的变长编码(UVLC)结合;另一种是基于内容的自适应二进制算术编码(CABAC)。CAVLC与CABAC根据相临块的情况进行当前块的编码,以达到更好的编码效率。CABAC比CAVLC压缩效率高,但要复杂一些。 去块效应滤波器 H.264标准引入了去块效应滤波器,对块的边界进行滤波,滤波强度与块的编码模式、运动矢量及块的系数有关。去块效应滤波器在提高压缩效率的同时,改善了图像的主观效果。 其他视频编码标准 除上述ITU-T的视频压缩标准外,还有一些标准也比较流行,如MPEG-4、AVS、WM9。 H.264也称为MPEG-4 AVC,而目前业内所说的MPEG-4一般是指SP(简级)或ASP(先进的简级),主要针对低码率应用,如因特网上的流媒体、无线网的视频传输及视频存储等,其核心类似于H.263。 M PEG-4 SP和H.263有很多相似的地方,如附表所示。然而,这两个标准之间也有显著的不同,主要表现在:码流结构和头信息、熵编码的部分码表、编码技术的一些细节。MPEG-4 ASP较SP增加了一些技术,主要有:1/4象素精度的运动估计、B帧、全局运动矢量(GMV),因而压缩效率得以提高。 AVS是由我国自主制定的音/视频编码技术标准,主要面向高清晰度电视、高密度光存储媒体等应用。AVS标准以当前国际上最先进的MPEG-4 AVC/H.264框架为基础,强调自主知识产权,同时充分考虑了实现的复杂度。相对于H.264,AVS的主要特点有:(1)8×8的整数变换与64级量化;(2)亮度和色度帧内预测都是以8×8块为单位,亮度块采用5种预测模式,色度块采用4种预测模式;(3)采用16×16、16×8、8×16和8×8 4种块模式进行运动补偿;(4)在1/4象素运动估计方面,采用不同的四抽头滤波器进行半象素插值和1/4象素插值;(5)P帧可以利用最多2帧的前向参考帧,而B帧采用前后各一个参考帧。 Window Meida 9(WM9)是微软公司开发的新一代数字媒体技术。一些测试表明,WM9的视频压缩效率比MPEG-2、MPEG-4 SP及H.263高很多,而与H.264的压缩效率相当。 结束语 目前,H.261与H.263在视频通信中广泛应用,成熟的产品已经很多。H.263与H.261相比,增加了若干选项,提供了更灵活的编码方式,压缩效率大大提高,更适应网络传输。H.264标准的推出,是视频编码标准的一次重要进步,它与现有的MPEG-2、MPEG-4 SP及H.263相比,具有明显的优越性,特别是在编码效率上的提高,使之能用于许多新的领域。尽管H.264的算法复杂度是现有编码压缩标准的4倍以上,随着集成电路技术的快速发展,H.264的应用将成为现实。 |
| 1、PCM编码
PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 2、WAVE 这是一种古老的音频文件格式,由微软开发。WAV是一种文件格式,符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念,我们拿AVI做个示范,因为AVI和WAV在文件结构上是非常相似的,不过AVI多了一个视频流而已。我们接触到的AVI有很多种,因此我们经常需要安装一些Decode才能观看一些AVI,我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。 2、MP3编码 MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。 可以看到这条曲线基本成一个V字型,当频率超过15000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时,响度较小的那个也会被忽略,例如:在白天我们很难听到电脑中散热风扇的声音,晚上却成了噪声源,根据这种原理,编码器可以过滤掉很多听不到的声音,以简化信息复杂度,增加压缩比,而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽,如果A处于B为中心的遮蔽范围内,遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样,频率越高的临界带宽越宽。
根据这种效应,专家们设计出人耳听觉心理模型,这个模型被导入到mp3编码中后,导致了一场翻天覆地的音质革命,mp3编码技术一直背负着音质差的恶名,但这个恶名现在已经逐渐被洗脱。到了此时,一直被埋没的VBR技术光彩四射,配合心理模型的运用便现实出强大的诱惑力与杀伤力。
长期来,很多人对MP3印象不好,更多人认为WMA的最佳音质要好过MP3,这种说法是不正确的,在中高码率下,编码得当的MP3要比WMA优秀很多,可以非常接近CD音质,在不太好的硬件设备支持下,没有多少人可以区分两者的差异,这不是神话故事,尽管你以前盲听就可以很轻松区分MP3和CD,但现在你难保证你可以分辨正确。因为MP3是优秀的编码,以前被埋没了. 4、OGG编码 网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案!OGG的信念就是:OPEN!FREE!Vorbis这个词汇是特里•普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。 5、MPC 编码 MPC是又是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。 6、mp3PRO 编码 2001年6月14日,美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点 midi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。 7、WMA WMA就是Windows Media Audio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中著名的Real Networks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过Windows Media Rights Manager 加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。 8、RA RA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括ATRAC3。和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA和WMA是目前互联网上,用于在线试听最多的音频媒体格式。 9、APE APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。 |
今天你看高清了吗?这句话成了时下热门的见面语,可见,“高清”已经稳扎在消费者的心中了。高清是目前电视机领域的一个热点,高清电视成了家电卖场中的招牌货,形形式式的电视机都打着高清的幌子,而真正的高清电视又有多少呢?真的如商家所言吗?非也!由于高清电视标准迟迟不予公布,所以厂商便狠狠抓着这个漏洞,在高清标准、高清概念上大做文章,使其成为虚假宣传、误导消费者的推销工具。大多的消费者都不具备相关的专业知识,在商家的大肆宣扬下,在商家所罗列的一大堆根本看不懂的数据面前,消费者有点迷失方向了,虽然嘴里常提着高清、高清电视,而实际上他们都不知道其所以然,很多消费者都以为高清就是指高清电视,有些甚至认为,数字电视都是高清电视。就是因为对这些概念太模糊太令人迷惑了,所以消费者很容易误入商家的圈套,为了让消费者不再被商家忽悠,在这里将高清电视和“高清”的关系做一个讲解。
高清≠高清电视 1.“高清”是高清电视的一个概念标准 高清是新一代的视频标准,它是一个系统,一种视频格式,而不是具体的一台电视机或者摄像机,所以决不能把它与高清电视混为一谈。对于“高清”标准的定义,目前还没有完全统一的标准,各国的发展进度也不一致。国家数字电视接收设备和性能标准制定工作组组长刘全恩指出,按照信息产业部已确定上报的“数字高清显示器”草案,规定数字电视机的显示屏幕长与宽的比例一定要为16∶9,并且图像屏幕清晰度要达到720线以上。而低于这个分辨率的视频,一般称为标清。目前国内高清电视市场上的产品,很多都只是拿“高清格式”作为噱头的,并非是真正的高清电视机,只不过是能收看标准清晰度数字电视节目而已。 “高清”强调的是电视机的画面显示能力,它要求电视机不但支持高清输入,更要支持高清显示,二者缺一不可。目前,市面上销售的电视机,输入信号几乎都能达到720p,很多的产品还能支持1080i的信号模式,在输入信号上达到高清标准甚至更高的要求并不难实现。但是,高清输入只是“高清”的其中一个指标,是否支持高清显示才是重点,这实际上是物理分辨率的问题,物理分辨率在根本上决定电视机能否达到高清的标准,而有些厂商却总是兜着圈子介绍产品,对物理分辨率这个问题避而不谈。这样看来,“高清”的幌子未免举得太高了。 2.高清电视仅是“高清”的载体 高清电视是一种同时支持高清输入和高清显示的数字电视,是数字电视(DTV)标准中最高级的一种,简称为HDTV(HDTVHigh Definition Tele Vision)。其拍摄、编辑、制作、播出、传输、接收等一系列电视信号的播出和接收全过程都使用数字技术,它比目前的电视系统增加了扫描线数,观众可以欣赏到更清晰的画面与更多的细节。目前高清电视有3种格式,即1280×720p、1920×1080i和1920×1080p。 数字电视≠高清电视 数字电视是一项全新的有线电视服务,用户通过机顶盒利用现有有线电视网络即可收看数字电视系统播出的数字电视,画面质量达到DVD及其以上的视频水平,供用户选择的节目内容将极大丰富。通过数字电视,用户将可以全情投入到个性电视、互动电视的时代。 数字电视是一个群体,按照图像清晰度分类从高到低可包括:数字高清晰度电视(HDTV,即电影级图像)、数字增强清晰度电视(EDTV,即比DVD略高的图像)、数字标准清晰度电视(SDTV,即DVD级图像)以及数字普及型电视(即:VCD级图像)等四种。 显而易见,数字电视是一项电视服务的总称,其家族非常庞大,高清电视(HDTV)只不过是数字电视家族内的一个成员而已,说数字电视等同于高清电视简直就是以偏概全。 真正的高清电视=四大标准 高清电视是长插在家电卖场中的一面招客旗,也成了一个被商家“透支”的概念。到底什么样的电视才算是高清电视,又有哪些产品支持高清呢?一台真正的高清电视应该同时具备以下几个方面。 1.首先是物理分辨率的问题,即屏幕上象素点的数目,高清电视机的屏幕物理分辨率水平扫描线至少720线,支持输入信号至少满足1080i、720p、1080p。因此无论是液晶电视、等离子电视还是微显背投,只有达到以上的标准才能满足高清电视的要求。如果达不到这个标准,你可认真考虑了,因为“伪高清”的电视机可是不能完全还原显示高清信号的。目前国内市场上很多的电视机其物理分辨率大都是852×480,这些只能够算是标清电视,还不能成为高清电视。 其中,p代表逐行扫描,i代表隔行扫描,前边的数字代表垂直方向的扫描线数。1080i和1080p每帧视频图像有1080条扫描线,720p每帧视频图像有720条扫描线。但1080i采用的是隔行扫描模式,每一帧都是通过两次扫描来完成的,每次实际扫描线数只有一半即1080/2=540线,分为奇数线和偶数线。1080p和720p采用的是逐行扫描方式,每帧图像的实际扫描线就是1080线和720线。一般情况下,p比i好,而且前边的数字越大越好。逐行扫描方式可以解决在隔行扫描中带来的闪烁现象。所以在欣赏一些充满大量快速动作的节目如足球等体育比赛时,720p将比1080i更合适,它可以提供更清晰、更稳定的图像画面。当然,要是你所欣赏的节目没有太强的动作性,那么1080i所提供给你的将是更细腻的图像。选择电视时一定要要注意电视机支持更多、更高的数字信号输入,否则连高清信号输入都不能兼容,就更谈不上显示高清画质了。这些数字看上去似乎有点乱,其实理清了头绪之后就不复杂的了。 2.其次的就是屏幕的比例,高清标准要求电视屏幕的长宽比为16:9,传统的4:3比例的电视虽然可以显示16:9内容,但图像要经过压缩调整,这样的话就不够资格入选高清电视之列了。 3.接下来就要看电视机提供的接口了,高清电视要显示高清内容必须配备DVI或者HDMI数字多媒体接口,才能接驳高清视频播放设备,所以只有配备相关接口的电视机才具备参选高清标准电视的条件。 4.最后一个就是高清调谐器和解码器是否集成的问题,真正的高清电视是应该内置高清数字调谐器,不过目前国内由于相关标准还没有确定,所以市场上暂时还没有内置调谐器的高清电视产品。高清电视中没有集成高清调谐器和解码器,那么要想收看高清电视的话,就必须另外购买专门的高清电视机顶盒了。由于目前国内尚无正式开播的高清电视节目,所以还不会影响用户的使用。 拥有高清电视≠可以收看高清电视节目 很多消费者都以为购买了高清电视之后,就可以随心所欲地收看高清电视节目了,这就有所误会了。拥有高清电视当然是收看高清电视节目最基本的前提条件,但是由于高清电视节目在带宽、编码等方面有一些特殊的需要,因此无论是通过有线传送还是卫星传送都需要专门的高清传送站,用户才能接收到。在美国和日本已经有高清电视节目,国内的中央电视台央视高清频道已于去年的9月1日在杭州、成都、重庆和东莞4个城市开始收费试播了。也就是说,到目前为止,在我国的高清电视用户中,只有以上的这四个城市的用户可以享受高清电视节目。 央视高清频道是中央电视台的一个综合性的付费频道,试播期间每天播出15小时。2006年1月正式开播,正式开播后播出时间将延长到18个小时。目前确定高清频道的使用服务费为120元/月,购买一台符合央视高清频道技术条件的高清机顶盒大约要花费2500元。字高清电视作为数字付费电视业的一个新的增长点,目前在欧美日韩等数字电视发展较快的国家普及率已非常高。央视高清频道的开播,对推动中国数字付费电视事业的发展具有划时代的意义,市场潜力不可限量。 由于目前国内没有对高清电视出台一个统一的标准,很多家电厂商都标榜自己的产品是高清电视,在这个鱼龙混杂的高清市场上,央视高清为了避免由于用户的电视机清晰度达不到要求而影响收视效果,从而影响节目口碑,所以央视高清的“HDTV@”认证很快便出台了。央视建议众多国内外电视机厂家“自愿”在中央视传媒登记申请,并送一个或多个型号的电视机到国家广播电视产品质量监督检验中心所属的数字电视产品质量检测实验室进行检测。所有通过“高清晰数字电视”测试的生产厂家都可以在自己的产品上贴上“HDTV@”的央视高清认证标志。首批获得“HDTV@”认证标志的品牌机包括有海尔送检的流媒体液晶电视,夏华送检的“微晶神画”数字高清电视,TCL送检的银弧LCD40A71系列液晶电视,以及先锋送检的PDP-435HDCPDP-505HDC等离子电视机等。 看了以上的介绍,相信对高清电视的底细也有所了解了,应该不会再说高清就是高清电视,数字电视就是高清电视了吧?购买一台优秀的高清电视,先得擦亮你的眼睛,不要单看广告或者单听销售人员的推介,些货比三家,多看产品的说明,用高清电视的四大标准比划衡量下,商家的自吹自擂也尽在你眼底,自然就不会被忽悠了。 |
|
数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化,而最热门的要算娱乐应用,如 DVD、HDTV、卫星电视、高清 (HD) 机顶盒、因特网视频流、数码相机与 HD 摄像机、视频光盘库 (video jukebox)、高端显示器(LCD、等离子显示器、DLP)以及个人摄像机等。众多精彩的新应用目前也处于设计或前期部署中,例如针对家庭与手持设备及地面/卫星标准(DVB-T、DVB-H、DMB)的高清 DVD(蓝光/HD-DVD)和数字视频广播、高清视频电话、数码相机以及 IP 机顶盒。由于手持终端计算能力的提高以及电池技术与高速无线连接的发展,最终产品的移动性与集成性也在不断提高。 视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩-解压(编解码)算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准,如 MPEG2、MPEG4、H.264/AVC 与 AVS,要么采用专有算法,如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法,而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术(H.264/AVC 与 VC-1)代表着第三代视频压缩技术。这两种编解码技术利用如可编程 DSP 与ASIC 等低成本 IC 的处理能力,都能够达到极高的压缩比。不过,为具体应用选择正确的编解码器并优化其实时处理仍然是一项巨大的挑战。最佳的设计必须权衡压缩效率及可用的计算能力。此外,如何在计算能力有限的情况下获得最佳压缩效率也是一门大学问。 在本文中,我们首先概述视频编码的主要概念,同时介绍传统压缩标准。然后我们重点介绍其中包括 H.264/AVC、WMV9/VC-1与AVS 等在内的最新编解码技术的功能,此外,还将深入探讨压缩能力与复杂性之间的权衡。最后,讨论市场中可能会影响主流视频编解码器未来的实时处理与主要趋势。 2. 视频压缩挑战 数字视频的主要挑战在于原始或未压缩的视频需要存储或传输大量数据。例如,标准清晰度的 NTSC 视频的数字化一般是每秒 30 帧速率,采用 4:2:2 YcrCb 及 720(480,其要求超过 165Mbps 的数据速率。保存 90 分钟的视频需要 110GB 空间,或者说超过标准 DVD-R 存储容量的 25 倍。即使是视频流应用中常用的低分辨率视频(如:CIF:352x288 4:2:0、30 帧/秒)也需要超过 36.5Mbps 的数据速率,这是 ADSL 或 3G 无线等宽带网络速度的许多倍。目前的宽带网可提供 1~10Mbps 的持续传输能力。显然数字视频的存储或传输需要采用压缩技术。 视频压缩的目的是对数字视频进行编码——在保持视频质量的同时占用尽可能少的空间。编解码技术理论依据为信息理论的数学原理。不过,开发实用的编解码技术需要艺术性的精心考虑。 3. 压缩权衡 在选择数字视频系统的编解码技术时需要考虑诸多因素。主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境(速度、时延、错误特征)以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍。首先,用途是存储还是单播、多播、双向通信或广播?对于存储应用,到底有多少可用的存储容量以及存储时间需要多久?对于存储之外的应用,最高比特率是多少?对于双向视频通信,时延容差或容许的端到端系统延迟是多少?如果不是双向通信,内容需要在脱机状态提前完成编码还是需要实时编码?网络或存储介质的容错能力如何?根据基本目标应用,不同压缩标准以不同方式处理这些问题的权衡。 另一方面是需要权衡编解码实时处理的成本。如 H.264/AVC 或 WMV9/VC-1等能够实现较高压缩比的新算法需要更高的处理能力,这会影响编解码器件的成本、系统功耗以及系统内存。 4. 标准化机构 在视频编解码技术定义方面有两大标准机构。国际电信联盟 (ITU) 致力于电信应用,已经开发了用于低比特率视频电话的 H.26x 标准,其中包括 H.261、H.262、H.263 与 H.264;国际标准化组织 (ISO) 主要针对消费类应用,已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。图 1 说明了视频编解码标准的发展历程。 MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。有时它们也会开展合作,如:联合视频小组 (JVT),该小组定义了 H.264 编解码技术,这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。我们在本文中将这种联合标准称为 H.264/AVC。同样,H.262 对应 MPEG2,而 H.263 基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Simple Profile) 编解码技术存在较多重复。 标准对编解码技术的普及至关重要。出于规模经济原因,用户根据可承受的标准寻找相应产品。由于能够保障厂商之间的互操作性,业界乐意在标准方面进行投资。而由于自己的内容可以获得较长的生命周期及广泛的需求,内容提供商也对标准青睐有加。尽管几乎所有视频标准都是针对少数特定应用的,但是在能够适用的情况下,它们在其他应用中也能发挥优势。
为了实现更好的压缩及获得新的市场机遇,ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。中国最近开发了一种称为 AVS 的国家视频编码标准,我们在后面也会做一介绍。目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)(对 H264/ AVC 的修订)和MPEG 多视角视频编码 (Multi-view Video Coding)。另外,为了满足新的应用需求,现有标准也在不断发展。例如,H.264 最近定义了一种称为高精度拓展 (Fidelity Range Extensions) 的新模式,以满足新的市场需求,如专业数字编辑、HD-DVD 与无损编码等。 除了 ITU 与 ISO 开发的行业标准以外,还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案,其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于这些格式在内容中得到了广泛应用,因此专有编解码技术可以成为业界标准。2003 年 9 月,微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。该提议得到了采纳,现在 WMV9 已经被 SMPTE 作为 VC-1 实现标准化。 5. 视频编码原理 我们感兴趣的所有视频标准都采用基于模块的处理方式。每个宏模块一般包含 4 个 8(8 的光度块和 2 个 8(8 的色度块(4:2:0 色度格式)。视频编码基于运动补偿预测(MC) 原理错误!未找到引用源。,变换与量化及熵编码。图 2 说明的是一种典型的、基于运动补偿的视频编解码技术。在运动补偿中,通过预测与最新编码的("参考")视频帧处于同一区域的视频帧中各宏模块的像素来实现压缩。例如,背景区域通常在各帧之间保持不变,因此不需要在每个帧中重新传输。运动估计 (ME) 是确定当前帧——即与它最相似的参考帧的 16(16 区域中每个 MB 的过程。ME 通常是视频压缩中最消耗性能的功能。有关当前帧中各模块最相似区域相对位置的信息("运动矢量")被发送至解码器。 MC 之后的残差部分分为 8(8 的模块,各模块综合利用变换编码、量化编码与可变长度编码技术进行编码。变换编码(如:离散余弦变换或 DCT)利用残差信号中的空间冗余。量化编码可以消除感知冗余 (perceptual redundancy) 并且降低编码残差信号所需要的数据量。可变长度编码利用残差系数的统计性质。通过 MC 进行的冗余消除过程在解码器中以相反过程进行,来自参考帧的预测数据与编码后的残差数据结合在一起产生对原始视频帧的再现 。
在视频编解码器中,单个帧可以采用三个模式中的一个进行编码 —— 即 I、P 或 B 帧模式(见图 3)。几个称为 Intra (I) 的帧单独编码,无需参考任何其他帧(无运动补偿)。某些帧可以利用 MC 编码,以前一个帧为参考(前向预测)。这些帧称为预测帧 (P)。 B 帧或双向预测帧通过之前的帧以及当前帧的后续帧进行预测。B 帧的优势是能够匹配堵塞在采用前向预测的上一帧中的背景区域。双向预测通过平衡前向及后向预测可以降低噪声。在编码器中采用这种功能会要求更多处理量,因为必须同时针对前向及后向预测执行 ME,而这会明显使运动估计计算需求加倍。为了保存两个参考帧,编码器与解码器都需要更多内存。B 帧工具需要更复杂的数据流,因为相对采集及显示顺序而言,帧不按顺序解码。这个特点会增加时延,因此不适合实时性较高的应用。B 帧不用于预测,因此可以针对某些应用进行取舍。例如,在低帧速应用中可以跳过它们而不会影响随后 I 与 P 帧的解码。
6. 传统视频编码标准 H.261 ITU 编制的 H.261[2] 标准是第一个主流视频压缩标准。它主要针对双工视频会议应用,是为支持 40kpbs~2Mbps 的 ISDN 网络而设计的。H.261 支持 352(288 (CIF) 及 176(144 (QCIF) 分辨率,色度分辨率二次采样为 4:2:0。由于可视电话需要同步实时编解码,因此复杂性设计得较低。由于主要用于对延迟敏感的双向视频,因此 H.261 仅允许采用 I 与 P 帧,而不允许 B 帧。 H.261 采用基于块的 DCT 进行残差信号的变换编码。DCT 把像素的每个 8(8 块映射到频域,产生 64 个频率成分(第一个系数称为 DC,其他的称为 AC)。为了量化 DCT 系数,H.261 在所有 AC 系数中采用固定的线性量化。量化后的系数进行行程编码,其可以按非零系数描述量化的频率,后面跟随一串零系数,在最后一个非零值之后以块代码结束。最后,可变长度编码 (Huffman) 将运行级别对 (run-level pair) 转换成可变长度编码 (VLC),其比特长度已针对典型概率分布进行过优化。 基于标准块的编码最终产生模块化视频。H.261 标准利用环路滤波避免这种现象。在模块边缘采用的简单 2D FIR 滤波器用于平滑参考帧中的量化效应。必须同时在编码器及解码器中精确地对每个比特应用上述滤波。 MPEG-1 MPEG-1[3] 是 ISO 开发的第一个视频压缩算法。主要应用是数字媒体上动态图像与音频的存储与检索,如速率为 1.15Mbps、采用 SIF 分辨率(352(240 - 29.97fps 或者 352(288 - 25 fps)的VCD。MPEG-1 与 H.261 相似,不过编码器一般需要更高的性能,以便支持电影内容的较高运动性而不是典型的可视电话功能。 与 H.261 相比,MPEG1 允许采用 B 帧。另外它还采用自适应感知量化,也就是说,对每个频段采用单独的量化比例因子(或等步长),以便优化人们的视觉感受。MPEG-1 仅支持逐行视频,因此新标准——MPEG2 已经开始做出努力,同时支持分辨率及比特率更高的逐行与隔行视频。 MPEG-2/H.262 MPEG-2[4] 专门针对数字电视而开发,很快成为了迄今最成功的视频压缩标准。MPEG-2 既能够满足标准逐行视频的需求(其中视频序列由一系列按一定时间间隔采集的帧构成),又能够满足电视领域常用的隔行视频的需求。隔行视频交替采集及显示图像中两组交替的像素(每组称为一个场)。这种方式尤其适合电视显示器的物理特性。MPEG2 支持标准的电视分辨率,其中包括:针对美国和日本采用的 NTSC 制式隔行 720(480 分辨率,每秒 60 场,以及欧洲和其他国家采用的PAL 制式的 720(576 分辨率,每秒 50 场。 MPEG-2 建立在 MPEG-1 基础之上,并具备扩展功能,能支持隔行视频及更宽的运动补偿范围。由于高分辨率视频是非常重要的应用,因此 MPEG-2 支持的搜索范围远远大于 MPEG-1。与之前的标准相比,它显著提高了运动估计的性能要求,并充分利用更宽搜索范围与更高分辨率优势的编码器需要比 H.261 和 MPEG-1 高得多的处理能力。MPEG2 中的隔行编码工具包含优化运动补偿的能力,同时支持基于场和基于帧的预测,而且同时支持基于场和基于帧的 DCT/IDCT。MPEG-2 在 30:1 左右的压缩比时运行良好。MPEG-2 在 4-8Mbps 时达到的质量适合消费类视频应用,因此它很快在许多应用中得到普及,如:数字卫星电视、数字有线电视、DVD 以及后来的高清电视等。 另外,MPEG-2 增加了分级视频编码工具,以支持多层视频编码,即:时域分级、空域分级、SNR 分级以及数据分割。尽管 MPEG-2 中针对分级视频应用定义了相关类别 (profile),不过支持单层编码的主类 (Main Profile) 是当今大众市场中得到广泛应用的唯一 MPEG-2 类。MPEG-2 通常称为 MPEG-2 主类。 MPEG-2 解码最初对于通用处理器及 DSP 具有很高的处理要求。优化的固定功能 MPEG-2 解码器开发已问世,由于使用量较高,成本已逐渐降低。MPEG2 证明低成本芯片解决方案的供应是视频编解码标准成功和普及的关键。 H.263 H.263[5] 在 H.261 之后得到开发,主要是为了以更低的比特率实现更高的质量。其主要目标之一是基于普通 28.8Kbps 电话调制解调器的视频。目标分辨率是 SQCIF (128(96)~CIF (352(288)。其基本原理与 H.261 大同小异。 H.263 的运动矢量在两个方向上允许是 1/2 的倍数(“半像素”),参考图像以数字方式内插到更高的分辨率。这种方法可以提高 MC 精度及压缩比。MV 可采用更大的范围。为不同方案提供许多新的选项,包括: * 4 个运动矢量——每个块采用一个运动矢量,而非整个 MB 采用单个运动矢量。 * 3D VLC:Huffman 编码——将块结束 (EOB) 指示符与每个运行级别对结合在一起。这种功能主要用于低比特率,这时大多时候只有一、两个编码系数。 尽管存在这些功能,但是仍然很难在普通电话线上实现理想的视频质量,而且目前基于标准调制解调器的可视电话仍然是一个难题。不过,由于 H.263 一般情况下可提供优于 H.261 的效率,它成为了电视会议首选的算法,但是,为了兼容旧系统,仍然需要支持 H.261。H.263 逐渐发展成为了 H.263+,其增加了可选的附件,为提高压缩并实现分组网的鲁棒性提供支持。H.263 及其附件构成了 MPEG-4 中许多编码工具的核心。 MPEG-4 MPEG-4[6] 由 ISO 提出,以延续 MPEG-2 的成功。一些早期的目标包括:提高容错能力以支持无线网、对低比特率应用进行更好的支持、实现各种新工具以支持图形对象及视频之间的融合。大部分图形功能并未在产品中受到重视,相关实施主要集中在改善低比特率压缩及提高容错性上。. MPEG-4 简化类 (SP) 以H.263为基础,为改善压缩增加了新的工具,包括: * 无限制的运动矢量:支持对象部分超出帧边界时的预测。 * 可变块大小运动补偿:可以在 16(16 或 8(8 粒度下进行运动补偿。 * 上下文自适应帧内 DCT DC/AC 预测:可以通过当前块的左右相邻块预测 DC/AC DCT 系数。 * 扩展量化 AC 系数的动态范围,支持高清视频:从 H.263 的 [-127:127] 到 [-2047, 2047]。 增加了容错功能,以支持丢包情况下的恢复,包括: * 片断重同步 (Slice Resynchronization):在图像内建立片断 (slice),以便在出现错误后更快速的进行重新同步。与 MPEG-2 数据包大小不同,MPEG4 数据包大小与用于描述 MB 的比特数量脱离了联系。因此,不管每个 MB 的信息量多少,都可以在位流中按相同间隔进行重新同步。 * 数据分割:这种模式允许利用唯一的运动边界标记将视频数据包中的数据分割成运动部分和 DCT 数据部分。这样就可以实现对运动矢量数据更严格的检查。如果出现错误,我们可以更清楚地了解错误之处,从而避免在发现错误情况下抛弃所有运动数据。 * 可逆 VLC:VLC 编码表允许后向及前向解码。在遇到错误时,可以在下一个slice进行同步,或者开始编码并且返回到出现错误之处。 * 新预测 (NEWPRED):主要用于在实时应用中实现快速错误恢复,这些应用中的解码器在出现丢包情况下采用逆向通道向解码器请求补充信息。 MPEG-4 高级简化类 (ASP) 以简化类为基础,增加了与 MPEG-2 类似的 B 帧及隔行工具(用于Level 4 及以上级别)。另外它还增加了四分之一像素运动补偿及用于全局运动补偿的选项。MPEG-4 高级简化类比简化类的处理性能要求更高,而且复杂性与编码效率都高于 MPEG-2。 MPEG-4 最初用于因特网数据流,例如,已经被 Apple 的 QuickTime 播放器采用。MPEG-4 简化类目前在移动数据流中得到广泛应用。MPEG-4 ASP 是已经流行的专有 DivX 编解码器的基石。 工具与压缩增益 当我们查看 H.261、MPEG1、MPEG2 与 H.263 视频编解码技术中引入的功能时,明显可以发现几种基本技巧提供了大部分压缩增益。图 4 说明这些技巧及其相关效果。与 4 个运动矢量以及四分之一像素运动补偿等工具相比,运动补偿(整数像素与半像素)的效果显然更为突出。 图 4:基本技巧的效果:1) 无 MC;2) 增加 Skip 模式构成 CR 编码器;3) 仅允许零 MV;4) 允许整数像素 MC;5) 允许半像素 MC;6) 允许 4-MV;7) 允许四分之一像素MC。如欲了解有关详细说明,敬请参见 [7]。 7. H.264/ MPEG4-AVC 视频编码技术在过去几年最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频小组 (JVT) 开发了 H.264/MPEG-4 AVC[8] 标准。在发展过程中,业界为这种新标准取了许多不同的名称。ITU 在 1997 年开始利用重要的新编码工具处理 H.26L(长期),结果令人鼓舞,于是 ISO 决定联手 ITU 组建 JVT 并采用一个通用的标准。因此,大家有时会听到有人将这项标准称为 JVT,尽管它并非正式名称。ITU 在 2003 年 5 月批准了新的 H.264 标准。ISO 在 2003 年 10 月以 MPEG-4 Part 10、高级视频编码或 AVC 的名称批准了该标准。 H.264/AVC 在压缩效率方面取得了巨大突破,一般情况下达到 MPEG-2 及 MPEG-4 简化类压缩效率的大约 2 倍。在 JVT 进行的正式测试中 [9],H.264 在 85 个测试案例中有 78% 的案例实现 1.5 倍以上的编码效率提高,77% 的案例中达到 2 倍以上,部分案例甚至高达 4 倍。H.264 实现的改进创造了新的市场机遇,如: * 600Kbps 的 VHS 品质视频。可以通过 ADSL 线路实现视频点播。 * 高清晰电影无需新的激光头即可适应普通 DVD。 H.264 标准化时支持三个类别:基本类、主类及扩展类。后来一项称为高保真范围扩展 (FRExt) 的修订引入了称为高级类的 4 个附加类。在初期主要是基本类和主类引起了大家的兴趣。基本类降低了计算及系统内存需求,而且针对低时延进行了优化。由于 B 帧的内在时延以及 CABAC 的计算复杂性,因此它不包括这两者。基本类非常适合可视电话应用以及其他需要低成本实时编码的应用。 主类提供的压缩效率最高,但其要求的处理能力也比基本类高许多,因此使其难以用于低成本实时编码和低时延应用。广播与内容存储应用对主类最感兴趣,它们是为了尽可能以最低的比特率获得最高的视频质量。 尽管 H.264 采用与旧标准相同的主要编码功能,不过它还具有许多与旧标准不同的新功能,它们一起实现了编码效率的提高。图 5 的编码器框图总结了其主要差别,概述如下: 帧内预测与编码:H.264 采用空域帧内预测技术来预测相邻块邻近像素的 Intra-MB 中的像素。它对预测残差信号和预测模式进行编码,而不是编码块中的实际像素。这样可以显著提高帧内编码效率。 帧间预测与编码:H.264 中的帧间编码采用了旧标准的主要功能,同时也增加了灵活性及可操作性,包括适用于多种功能的几种块大小选项,如:运动补偿、四分之一像素运动补偿、多参考帧、通用 (generalized) 双向预测和自适应环路去块。 可变矢量块大小:允许采用不同块大小执行运动补偿。可以为小至 4(4 的块传输单个运动矢量,因此在双向预测情况下可以为单个 MB 传输多达 32 个运动矢量。另外还支持 16(8、8(16、8(8、8(4 和 4(8 的块大小。降低块大小可以提高运动细节的处理能力,因而提高主观质量感受,包括消除较大的块化失真。 四分之一像素运动估计:通过允许半像素和四分之一像素运动矢量分辨率可以改善运动补偿。 多参考帧预测:16 个不同的参考帧可以用于帧间编码,从而可以改善视频质量的主观感受并提高编码效率。提供多个参考帧还有助于提高 H.264 位流的容错能力。值得注意的是,这种特性会增加编码器与解码器的内存需求,因为必须在内存中保存多个参考帧。 自适应环路去块滤波器:H.264 采用一种自适应解块滤波器,它会在预测回路内 对水平和垂直区块边缘进行处理,用于消除块预测误差造成的失真。这种滤波通常是基于 4(4 块边界为运算基础,其中边界各边的 3 个像素可通过 4 级滤波器进行更新。 整数变换:采用 DCT 的早期标准必须为逆变换的固点实施来定义舍入误差的容差范围。编码器与解码器之间的 IDCT 精度失配造成的漂移是质量损失的根源。H.264 利用整数 4(4 空域变换解决了这一问题——这种变换是 DCT 的近似值。4(4 的小区块还有助于减少阻塞与振铃失真。 量化与变换系数扫描:变换系数通过标量量化方式得到量化,不产生加大的死区。与之前的标准类似,每个 MB 都可选择不同的量化步长,不过步长以大约 12.5% 的复合速率增加,而不是固定递增。同时,更精细的量化步长还可以用于色度成分,尤其是在粗劣量化光度系数的情况下。 熵编码:与根据所涉及的数据类型提供多个静态 VLC 表的先前标准不同,H.264 针对变换系数采用上下文自适应 VLC,同时针对所有其他符号采用统一的 VLC (Universal VLC) 方法。主类还支持新的上下文自适应二进制算术编码器 (CABAC)。CAVLC 优于以前的 VLC 实施,不过成本却比VLC高。 CABAC利用编码器和译码器的机率模型来处理所有语法元素 (syntax elements),包括:变换系数和运动矢量。为了提高算术编码的编码效率,基本概率模型通过一种称为上下文建模的方法对视频帧内不断变换的统计进行适应。上下文建模分析提供编码符号的条件概率估计值。只要利用适当的上下文模型,就能根据待编码符号周围的已编码符号,在不同的概率模型间进行切换,进而充份利用符号间的冗余性。每个语法元素都可以保持不同的模型(例如,运动矢量和变换系数具有不同的模型)。相较于 VLC 熵编码方法 (UVLC/CAVLC),CABAC 能多节省 10 % bit速率。 加权预测:它利用前向和后向预测的加权总和建立对双向内插宏模块的预测,这样可以提高场景变化时的编码效率,尤其是在衰落情况下。 保真度范围扩展 2004 年 7 月,H.264 标准增加了称为保真度范围扩展 (FRExt) [11]的新修订。这次扩展在H.264 中添加了一整套工具,而且允许采用附加的色域、视频格式和位深度。另外还增加了对无损帧间编码与立体显示视频的支持。FRExt 修订版在 H.264 中引入了 4 种新类,即: * High Profile (HP):用于标准 4:2:0 色度采样,每分量 8 位彩色。此类引入了新的工具 —— 随后详述。 * High 10 Profile (Hi10P):用于更高清晰度视频显示的标准 4:2:0 色度采样,10 位彩色。 * High 4:2:2 10 bit color profile (H422P):用于源编辑功能,如:( 混合。 * High 4:4:4 12 bit color profile (H444P):最高品质的源编辑与色彩保真度,支持视频区域的无损编码以及与新的整数色域变换(从 RGB 到 YUV 及黑色)。 在新的应用领域中,H.264 HP 对广播与 DVD 尤为有利。某些试验显示出 H.264 HP 的性能比MPEG2 提高了 3 倍。下面介绍 H.264 HP 中引入的主要附加工具。 自适应残差块大小与整数 8(8 变换:用于变换编码的残差块可以在 8(8 与 4(4 之间切换。引入了用于 8(8 块的新 16 位整数变换。较小的块仍然可以采用以前的 4(4 变换。 8(8 亮度帧内预测:增加了 8 种模式,除之前的 16(16 和 4(4 块以外,使亮度内部宏模块还能够对 8(8 块进行帧内预测。 量化加权:用于量化 8(8 变换系数的新量化加权矩阵。 单色:支持黑/白视频编码。 8. Windows Media Video 9 / VC-1 Windows Media 是提供网上音乐与视频预订服务与视频流的主要格式。微软公司于 2002 年推出了 Windows Media Video 9 系列编解码器,实现了视频压缩效率的显著提高。WMV9 另外还作为 VC-1 在 SMPTE 中实现了标准化[12]。 与 H.264 类似,它包含许多高级编码工具,不过种类有所不同。除了支持半象素双线性插值之外,WMV9 的 ME 还允许 1/4 象素双立方插值(采用 4 抽头近似双立方滤波器)。另外它还包含与 H.264 类似的环内去块滤波器,不过滤波器和决策细节不同。其他部分功能包括: 多个 VLC 表:WMV9 主类包含多套针对不同类型内容进行优化的 VLC 表。这些表可以在帧级切换,以适应输入视频的特征。 DCT/IDCT 变换切换:WMV9 支持多种 DCT 块大小,包括:8(8、8(4、4(8 和 4(4。其采用专用的 16 位整数变换与逆变换。 量化:采用一般基于步长的量化和死区量化。死区量化可以在低比特率时实现显著节省。 另一个有趣的功能是能够在涉及衰落的情况下采用明确的衰落补偿。它可以提高这些情况下运动补偿的质量。 WMV9/VC-1 在性能方面与 MPEG-2 和 MPEG-4 简化类相比有显著提高,相对于 H.264,其知觉质量感受也非常优秀[13]。不过,在提供相似压缩效率情况下,WMV9/VC-1 与 H.264 主类相比复杂性要求较低。WMV9 广泛应用于个人电脑环境,而且已经成为互联网消费设备中的重要技术。WMV9/VC-1 在好莱坞和独立制片业正日益受宠,多部电影的发行开始采用WMV9/VC-1 进行编码,以实现 PC DVD 上的高清晰播放。此外,WMV9 已经作为新兴的 HD-DVD 格式压缩选项实现了标准化。 9. AVS 2002 年,中国信息产业部成立的音视频技术标准 (AVS) 工作组宣布准备针对移动多媒体、广播、DVD等应用编写一份国家标准。该视频标准称为 AVS [14],由两个相关部分组成 - 针对移动视频应用的 AVS-M 和针对广播与 DVD 的 AVS1.0。AVS 标准与 H.264 相似。 AVS1.0 同时支持隔行和逐行扫描模式。AVS 中 P 帧可以利用 2 帧的前向参考帧,同时允许 B 帧采用前后各一个帧。在隔行模式下,4 个场可以用作参考。可以仅在帧级执行隔行模式中的帧/场编码,这一点与 H.264 不同,其中允许此选项的 MB 级自适应。AVS 具有与 H.264相似的环路滤波器,可以在帧级关闭。另外,B 帧还无需环路滤波器。帧内预测是以 8(8 块为单位进行。MC 允许对亮度块进行 1/4 象素补偿。ME 的块大小可以是 16(16、16(8、8(16 或 8(8。变换方式是基于 16 位的 8(8 整数变换(与 WMV9 相似)。VLC 是基于上下文自适应 2D 运行/级别编码。采用 4 个不同的 Exp-Golomb 编码。用于每个已量化系数的编码自适应到相同 8(8 块中前面的符号。由于 Exp-Golomb 表是参数化的表,因此表较小。用于逐行视频序列的 AVS 1.0 的视频质量在相同比特率时稍逊于 H.264 主类。 AVS-M 主要针对移动视频应用,与 H.264 基本规范存在交叉。它仅支持逐行视频、I 与 P 帧,不支持 B 帧。主要 AVS-M 编码工具包括基于 4(4 块的帧内预测、1/4象素运动补偿、整数变换与量化、上下文自适应 VLC 以及高度简化的环路滤波器。与 H.264 基本规范相似,AVS-M 中的运动矢量块大小降至 4(4,因此 MB 可拥有多达 16 个运动矢量。采用多帧预测,但仅支持 2 个参考帧。此外,AVS-M 中还定义了 H.264 HRD/SEI 消息的子集。AVS-M的编码频率约为 0.3dB,在相同设置下稍逊于 H.264 基本规范,而解码器的复杂性却降低了大约20%。 10. 各编解码器的功能与工具对比 表1概述我们介绍的视频标准采用的主要压缩功能与工具。
11. 市场趋势与应用 视频压缩正在市场中催生数量日益增长的数字视频产品。采用数字视频压缩技术的终端设备范围广泛,从电池驱动的便携设备到高性能基础设备。表 2 概述部分应用、主要需求、采用的典型视频编解码器及其在这些应用中的发展趋势。
12. 实时实现 数字视频的最佳处理器解决方案取决于具体的目标应用。TI 拥有可支持多种标准并满足主要设计及系统约束需求的各种 DSP。TI 的解决方案范围广泛,其中包括低功耗 c5000 DSP 与移动OMAP 应用处理器、高性能 c6000 DSP 与视频优化的高性能 DM64x 和 DM644x 数字媒体处理器。目前倍受关注的处理器之一是未面世的 DM6446,我们将在本节中进行介绍。 德州仪器 (TI) 的 DM 系列处理器专门针对高端视频系统的需求而设计。该系列的最新处理器是功能强大的 DM6446[15],其采用了 TI 的达芬奇 (DaVinci) 技术[16]。DM6446 的双内核架构兼具 DSP 和 RISC 技术优势,集成了时钟频率达 594MHz 的 c64x+ DSP 内核与 ARM926EJ-S内核。新一代 c64x+ DSP 是 TMS320C6000(tm) DSP 平台中性能最高的定点 DSP,并建立在 TI 开发的第二代高性能高级 VLIW 架构的增强版之上。c64x+ 与前代 C6000 DSP 平台代码兼容。DM644x 等可编程数字媒体处理器可以支持所有的现有业界标准以及采用单个可编程数字媒体处理器的专有视频格式。DM6446 还具有片上内存,包括一个 2 级高速缓存和众多具有视频专用功能的外设。DM6446 还包含一种视频/影像协处理器 (VICP),用于减轻相关算法(如:JPEG、H.264、MPEG4 与 VC-1)的 DSP 内核繁重的视频与影像处理负担,从而使更多的 DSP MIPS 能够用于视频后处理或者其他并行运行等功能。 表3说明 DM6446 在各种标准下保持 D1 (720(480) 分辨率大约所需要的频率。
表解码器性能数据是针对最差情况下的比特流。解码器性能随所采用功能组合的变化而变化。上述例子中假定为高品质的编码。DM6446 上的 c64x+ 可达到 594MHz 的时钟频率。 请注意:所显示的编码频率数据是根据现有/计划实施而得出的典型测试数据。另外,编码器负载随目标应用不同而存在显著差异。压缩标准规定需要的语法与可用的工具,不过许多算法结果取决于具体实施情况。主要变量包括:比特率控制算法、单通道与多通道编码、I/B/P 帧比率、运动搜索范围、运动搜索算法、以及选用的个别工具与模式。这种灵活性允许我们在计算负载和改进质量之间做出不同取舍。显然所有编码器都可以采用或高或低的频率实现不同的视频质量水平。 13. 结论 越来越多的视频压缩标准可以针对具体最终应用提供越来越高的压缩效率和越来越丰富的工具。另外,向网络化连接发展的趋势意味着许多产品越来越需要支持多种标准。多种标准和专有算法的流行也使我们难以选择单个标准,尤其是在硬件决策经常超前于产品部署的情况下。不仅如此,每个视频编码算法都提供丰富的工具与功能选择,以平衡压缩效率的复杂性。工具和功能的选择是与特定应用和用例息息相关的重复过程。由于必须支持的编解码器数量的增多以及针对具体解决方案和应用而对编解码器进行优化的选择范围更为广泛,因此在数字视频系统中采用灵活的媒体处理器是大势所趋。DM6446 等数字媒体处理器可充分满足性能处理需求同时架构灵活,从而能够快速把新标准实施推向市场,其中包括:H.264、AVS 与 WMV9。我们可以在标准定义阶段实施算法并且保持软件算法与工具的更新,从而紧随标准大大小小的修改并且满足应用不断变化的质量需求。 |
|
JVT(Joint Video Team,视频联合工作组)于2001年12月在泰国Pattaya成立。它由ITU-T和ISO两个国际标准化组织的有关视频编码的专家联合组成。JVT的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前JVT的工作已被ITU-T接纳,新的视频压缩编码标准称为H.264标准,该标准也被ISO接纳,称为AVC(Advanced Video Coding)标准,是MPEG-4的第10部分。H.264标准可分为三档: 基本档次(其简单版本,应用面广) 主要档次(采用了多项提高图像质量和增加压缩比的技术措施,可用于SDTV、HDTV和DVD等) 扩展档次(可用于各种网络的视频流传输) H.264不仅比H.263和MPEG-4节约了50%的码率,而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输,从而获得平稳的图像质量。H.264能适应于不同网络中的视频传输,网络亲和性好。 一、H.264视频压缩系统 H.264标准压缩系统由视频编码层(VCL)和网络提取层(Network Abstraction Layer,NAL)两部分组成。VCL中包括VCL编码器与VCL解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元。NAL则用于为VCL提供一个与网络无关的统一接口,它负责对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。 VCL可以传输按当前的网络情况调整的编码参数。 二、H.264的特点 H.264和H.261、H.263一样,也是采用DCT变换编码加DPCM的差分编码,即混合编码结构。同时,H.264在混合编码的框架下引入了新的编码方式,提高了编码效率,更贴近实际应用。 H.264没有繁琐的选项,而是力求简洁的“回归基本”,它具有比H.263++更好的压缩性能,又具有适应多种信道的能力。 H.264的应用目标广泛,可满足各种不同速率、不同场合的视频应用,具有较好的抗误码和抗丢包的处理能力。 H.264的基本系统无需使用版权,具有开放的性质,能很好地适应IP和无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。 尽管H.264编码基本结构与H.261、H.263是类似的,但它在很多环节做了改进,现列举如下: 1.多种更好的运动估计 高精度估计 在H.263中采用了半像素估计,在H.264中则进一步采用1/4像素甚至1/8像素的运动估计。即真正的运动矢量的位移可能是以1/4甚至1/8像素为基本单位的。显然,运动矢量位移的精度越高,则帧间剩余误差越小,传输码率越低,即压缩比越高。 在H.264中采用了6阶FIR滤波器的内插获得1/2像素位置的值。当1/2像素值获得后, 1/4像素值可通过线性内插获得, 对于4:1:1的视频格式,亮度信号的1/4 像素精度对应于色度部分的1/8像素的运动矢量,因此需要对色度信号进行1/8像素的内插运算。理论上,如果将运动补偿的精度增加一倍(例如从整像素精度提高到1/2像素精度),可有0.5bit/Sample的编码增益,但实际验证发现在运动矢量精度超过1/8像素后,系统基本上就没有明显增益了,因此,在H.264中,只采用了1/4像素精度的运动矢量模式,而不是采用1/8像素的精度。 多宏块划分模式估计 在H.264的预测模式中,一个宏块(MB)可划分成7种不同模式的尺寸,这种多模式的灵活、细微的宏块划分,更切合图像中的实际运动物体的形状,于是,在每个宏块中可包含有1、2、4、8或16个运动矢量。 多参数帧估计 在H.264中,可采用多个参数帧的运动估计,即在编码器的缓存中存有多个刚刚编码好的参数帧,编码器从其中选择一个给出更好的编码效果的作为参数帧,并指出是哪个帧被用于预测,这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。 2.小尺寸4×4的整数变换 视频压缩编码中以往的常用单位为8×8块。在H.264中却采用小尺寸的4×4块,由于变换块的尺寸变小了,运动物体的划分就更为精确。这种情况下,图像变换过程中的计算量小了,而且在运动物体边缘的衔接误差也大为减少。 当图像中有较大面积的平滑区域时,为了不产生因小尺寸变换带来的块间灰度差异,H.264可对帧内宏块亮度数据的16个4?4块的DCT系数进行第二次4×4块的变换,对色度数据的4个4×4块的DC系数(每个小块一个,共4个DC系数)进行2×2块的变换。 H.263不仅使图像变换块尺寸变小,而且这个变换是整数操作,而不是实数运算,即编码器和解码器的变换和反变换的精度相同,没有“反变换误差”。 3.更精确的帧内预测 在H.264中,每个4?4块中的每个像素都可用17个最接近先前已编码的像素的不同加权和来进行帧内预测。 4.统一的VLC H.264中关于熵编码有两种方法。 统一的VLC(即UVLC:Universal VLC)。UVLC使用一个相同的码表进行编码,而解码器很容易识别码字的前缀,UVLC在发生比特错误时能快速获得重同步。 内容自适应二进制算术编码(CABAC:Context Adaptive Binary Arithmetic Coding)。其编码性能比UVLC稍好,但复杂度较高。 三、性能优势 H.264与MPEG-4、H.263++编码性能对比采用了以下6个测试速率:32kbit/s、10F/s和QCIF;64kbit/s、15F/s和QCIF;128kbit/s、15F/s和CIF;256kbit/s、15F/s和QCIF;512kbit/s、30F/s和CIF;1024kbit/s、30F/s和CIF。测试结果标明,H.264具有比MPEG和H.263++更优秀的PSNR性能。 H.264的 PSNR比MPEG-4平均要高2dB,比H.263++平均要高3dB。 四、新的快速运动估值算法 新的快速运动估值算法UMHexagonS(中国专利)是一种运算量相对于H.264中原有的快速全搜索算法可节约90%以上的新算法,全名叫“非对称十字型多层次六边形格点搜索算法”(Unsymmetrical-Cross Muti-Hexagon Search)”,这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时,在保持较好率失真性能的条件下,运算量十分低,已被H.264标准正式采纳。 ITU和 ISO合作发展的 H.264(MPEG-4 Part 10)有可能被广播、通信和存储媒体(CD DVD)接受成为统一的标准,最有可能成为宽带交互新媒体的标准。我国的信源编码标准尚未制定,密切关注H.264的发展,制定我国的信源编码标准的工作正在加紧进行。 H264标准使运动图像压缩技术上升到了一个更高的阶段,在较低带宽上提供高质量的图像传输是H.264的应用亮点。H.264的推广应用对视频终端、网守、网关、MCU等系统的要求较高,将有力地推动视频会议软、硬件设备在各个方面的不断完善。 H.264压缩性能和应用分析 摘要:随着ITU-T、MPEG标准组织分别批准了H.264标准,具有较好压缩性能的H.264标准得到了业界的广泛关注,其应用前景非常广阔。本文主要介绍、分析H.264标准的压缩性能比较和应用情况。 一、概述 视频压缩国际标准主要有由ITU-T制定的H.261、H.262、H.263、H.264和由MPEG制定的MPEG-1、MPEG-2、MPEG-4,其中H.262/MPEG-2和H.264/MPEG-4 AVC由ITU-T与MPEG联合制定。 视频压缩系列标准H.26x主要用于视频通信应用中,例如,基于ISDN网络的H.320框架标准的视频标准为H.261、H.262和H.263,基于LAN网络的H.323和基于PSTN网络H.324框架标准中的视频标准为H.261和H.263。视频压缩系列标准MPEGx主要用于视频存储播放应用中,例如,VCD中的视频压缩标准为MPEG-1,DVD中的视频压缩标准为MPEG-2。MPEG-4和H.264标准则可以广泛应用于多种领域中,MPEG-4标准已在无线视频通信和流媒体应用中得到采用,由于H.264在压缩性能方面所具有的优势,H.264将会在实时视频通信、广播电视、视频存储播放等领域中得到应用。本文将主要介绍、分析H.264标准的压缩性能比较和应用情况. 二、H.264压缩性能 与以前的视频压缩标准H.261、H.263、MPEG-1、MPEG-2、MPEG-4类似,H.264也是采用帧间预测和帧内变换的混合编码方法来消除或减少图像中的信息冗余。 但是,H.264采用了许多新技术以提高压缩效率,其主要技术特点包括: (1)4?4类DCT整数变换以及相应的量化方法; (2)7种宏块预测模式:16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4,运动估计和补偿更加精确; (3)多参考帧; (4)帧内预测; (5)改进的去块效应滤波器(Deblocking filter); (6)增强的熵编码方法UVLC(Universal VLC)、CAVLC(Context adaptive VLC)和CABAC; (7)1/4像素插值; (8)宏块级逐行、隔行自适应编码MBAFF。 正是采用了这样一些切实有效的技术方法,H.264才具有了前所未有的高压缩效率,在相同的图像质量下所许的码流量更低. 在相同的图像质量下,H.264所需码率约为MPEG-2的36%、H.263的51%、MPEG-4的61%,并且随着今后实现优化性工作做得更好,其压缩性能方面的优势将更为突出。这种高压缩效率可以给视频实时通信、数字广播电视、视频存储等应用带来很多好处,提高人们的视频欣赏质量。当然,与这种高压缩效率相伴的是H.264需要较高的实现复杂度。与MPEG-2相比,虽然H.264的压缩性能提高一倍以上,H.264的计算复杂度也要提高两倍以上。 三、H.264应用情况 在H.264标准中增加了一个网络提取层NAL(Network Abstraction Layer),考虑到了与具体应用网络的连接和接口问题。下面将分3个方面分别简单介绍H.264在视频通信领域、数字广播电视领域和视频存储播放领域的应用情况。 1.在视频通信领域中的应用 由于H.264是在H.26L的已有成果基础上由JVT完成标准最后制定的,而H.26L首先就是针对视频实时通信应用的,例如,会议电视、可视电话等应用,因此,H.264在视频实时通信领域首先得到了应用,到2004年2月为止,国外声称已经可以提供基于H.264的会议电视产品的公司有POLYCOM、TANDBERG、VCON、SONY等。 2.在数字广播电视领域中的应用 MPEG已经完成了基于MPEG-2系统兼容H.264码流内容的标准“Amendment 3: Transport of AVC video data over ITU-T Rec. H.222.0|ISO/IEC 13818-1 streams”的制定,这就为H.264标准在数字广播电视领域和视频存储播放领域中的应用打下了基础。据数字视频广播(DVB)标准组AV编码组主席Ken McCann说,欧洲已经考虑修订当前的数字视频广播标准,将MPEG-4音频和H.264视频同时列为基于IP视频传输的候选选项,而专注于数字电视的独立技术咨询公司ZetaCast公司董事McCann指出,DVB的AV编码组已经考虑用于DVB广播应用的H.264实施指南问题。可以预计,随着H.264将来在数字广播特别是高清电视领域中的应用,用户可以看到更高质量的视频图像节目、可以选择更多的电视节目频道。 3.在视频存储播放领域中的应用 在2003年11月19日于日本千叶县幕张Messe会展中心开幕的“2003年国际广播电视设备展(Inter BEE 2003)”上,不少公司利用H.264/MPEG-4 AVC编解码器进行了录像播放演示,编解码器的形态各种各样,从FPGA等芯片到电脑软件应有尽有。在DVD等视频存储播放领域应用中,H.264将是最好的选择,并且对于高清晰度DVD(HD DVD)应用来说,更加需要具有高压缩效率的视频压缩标准。 四、结论 由于H.264的压缩性能比之前的视频压缩标准H.261、H.263、MPEG-2、MPEG-4等都较优,因此,在ITU-T、MPEG标准组织分别批准了H.264标准,基于H.264标准的产品纷纷面世,并且,其应用前景非常广阔。 |
最新评论
文档管理