直播软件开发过程中遇到的音视频技术问题总结（四）

Mpeg系列——AAC音频

AAC在MPEG2和MPEG4中定义。

扩展名：.m4a, .m4b, .m4p, .m4v, .m4r, .3gp, .mp4, .aac
互联网媒体类型：audio/aac, audio/aacp, audio/3gpp, audio/3gpp2, audio/mp4, audio/MP4A-LATM, audio/mpeg4-generic
格式：有损数据压缩
延伸自：MPEG-2 音频
标准：ISO/IEC 13818-7（MPEG-2第7部）, ISO/IEC 14496-3（MPEG-4第3部）

　　AAC（Advanced Audio Coding），中文称为“高级音频编码”，出现于1997年，基于 MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony（索尼）等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC 重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。

AAC格式的主要扩展名有三种：

AAC - 使用MPEG-2 Audio Transport Stream( ADTS，参见MPEG-2 )容器，区别于使用MPEG-4容器的MP4/M4A格式，属于传统的AAC编码（FAAC默认的封装，但FAAC亦可输出 MPEG-4 封装的AAC）
MP4 - 使用了MPEG-4 Part 14（第14部分）的简化版即3GPP Media Release 6 Basic (3gp6，参见3GP ) 进行封装的AAC编码（Nero AAC 编码器仅能输出MPEG-4封装的AAC）；
M4A - 为了区别纯音频MP4文件和包含视频的MP4文件而由苹果(Apple)公司使用的扩展名，Apple iTunes 对纯音频MP4文件采用了".M4A"命名。M4A的本质和音频MP4相同，故音频MP4文件亦可直接更改扩展名为M4A。

　　作为一种高压缩比的音频压缩算法，AAC压缩比通常为18：1，也有资料说为 20：1，远胜mp3；在音质方面，由于采用多声道，和使用低复杂性的描述方式，使其比几乎所有的传统编码方式在同规格的情况下更胜一筹。不过直到2006年，使用这一格式储存音乐的并不多，可以播放该格式的mp3播放器更是少之又少，目前所知仅有苹果iPod、Sony Walkman（NWZ- A、NWZ-S、NWZ-E、NWZ-X系列）、任天堂NDSi。魅族 M8，此外计算机上很多音乐播放软体都支持AAC（前提是安装过AAC解码器），如苹果iTunes。但在移动电话领域，AAC的支持度已很普遍，Nokia、Sony Ericsson、Motorola 等品牌均在其中高端产品中支持 AAC（一开始主要是LC-AAC，随着移动电话性能的发展，HE-AAC的支持也已广泛）。

　　AAC可以支持多达48个音轨，15个低频（LFE）音轨，5.1多声道支持，更高的采样率（最高可达96kHz，音频CD为44.1kHz）和更高的采样精度（支持8bit、16bit、24bit、32bit，音频CD为 16bit）以及有多种语言的兼容能力，更高的解码效率，一般来说，AAC可以在对比MP3文件缩小30%的前题下提供更好的音质。

相对于传统的LC-AAC，High Efficiency AAC（HE-AAC或写为 AAC-HE）又称为 "aacPlus v1" 或 "AAC+" - 结合了 SBR (Spectral Band Replication) and AAC技术；适用于低比特率（64kbps以下）；
HE-AAC v2，又称为 "aacPlus v2" - 结合了 Parametric Stereo(参数化立体声，PS)和 HE-AAC 中的SBR技术。

　　因为"AAC"是一个大家族，他们共分为 9 种规格，以适应不同场合的需要，也正是由于 AAC 的规格（Profile）繁多，导致普通电脑用户感觉十分困扰：

MPEG-2 AAC LC 低复杂度规格（Low Complexity）
MPEG-2 AAC Main 主规格
MPEG-2 AAC SSR 可变采样率规格（Scaleable Sample Rate）
MPEG-4 AAC LC 低复杂度规格（Low Complexity），现在的手机比较常见的 MP4 文件中的音频部份就包括了该规格音频文件
MPEG-4 AAC Main 主规格
MPEG-4 AAC SSR 可变采样率规格（Scaleable Sample Rate）
MPEG-4 AAC LTP 长时期预测规格（Long Term Predicition）
MPEG-4 AAC LD 低延迟规格（Low Delay）
MPEG-4 AAC HE 高效率规格（High Efficiency）

　　上述的规格中，主规格（Main）包含了除增益控制之外的全部功能，其音质最好，而低复杂度规格（LC）则是比较简单，没有了增益控制，但提高了编码效率，至‘SSR’对‘LC’规格大体是相同，但是多了增益的控制功能，另外，MPEG-4 AAC/LTP/LD/HE，都是用在低比特率下编码，特别是‘HE’是有 Nero ACC 编码器支持，是近来常用的一种编码器，不过通常来说，Main 规格和 LC 规格的音质相差不大，因此目前使用最多的 AAC 规格多数是‘LC’规格，因为要考虑手机目前的存储器能力未达合理水准。

H.26x系列

H.26x有H.261,H.262， H.263, H.263v2以及H.264，H.261基本上已经不再使用。其中H.262和H.264已经在MPEG系列中介绍，他们分别对应MPEG2的第2部和MPEG-4的第10部。不在整理这方面的资料。

H.261

H.261其速率为64kbps的整数倍（1～30倍）。它最初是针对在ISDN(综合业务数字网,Integrated Services Digital Network)上双向声像业务(特别是可视电话、视频会议)而设计的。

H.261是最早的运动图像压缩标准，它只对CIF和QCIF两种图像格式进行处理，每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block)层来处理；并详细制定了视频编码的各个部分，包括运动补偿的帧间预测、DCT(离散余弦变换)、量化、熵编码，以及与固定速率的信道相适配的速率控制等部分。实际的编码算法类似于MPEG算法，但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多，此算法为了优化带宽占用量，引进了在图像质量与运动幅度之间的平衡折衷机制。也就是说，剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码。

H.261是第一个实用的数字视频编码标准。H.261的设计相当成功，之后的视频编码国际标准基本上都是基于H.261相同的设计框架，包括MPEG- 1，MPEG-2／H.262，H.263，甚至 H.264。同样，H.261开发委员会（由Sakae Okubo领导，他的日文姓名是大久保荣）的基本的运作方式也被之后的视频编码标准开发组织所继承。H.261使用了混合编码框架，包括了基于运动补偿的帧间预测，基于离散余弦变换的空域变换编码，量化，zig-zag扫描和熵编码。

实际上H.261标准仅仅规定了如何进行视频的解码（后继的各个视频编码标准也继承了这种做法）。这样的话，实际上开发者在编码器的设计上拥有相当的自由来设计编码算法，只要他们的编码器产生的码流能够被所有按照H.261规范制造的解码器解码就可以了。编码器可以按照自己的需要对输入的视频进行任何预处理，解码器也有自由对输出的视频在显示之前进行任何后处理。去块效应滤波器是一个有效的后处理技术，它能明显的减轻因为使用分块运动补偿编码造成的块效应（马赛克）--在观看低码率视频（例如网站上的视频新闻）的时候我们都会注意到这种讨厌的效应。因此，在之后的视频编码标准如H.264中就把去块效应滤波器加为标准的一部分（即使在使用H.264 的时候，再完成解码后再增加一个标准外的去块效应滤波器也能提高主观视频质量）。

后来的视频编码标准都可以说是在H.261的基础上进行逐步改进，引入新功能得到的。现在的视频编码标准比起H.261来在各性能方面都有了很大的提高，这使得H.261成为了过时的标准，除了在一些视频会议系统和网络视频中为了向后兼容还支持H.261，已经基本上看不到使用H.261的产品了。但是这并不妨碍H.261成为视频编码领域一个重要的里程碑式的标准。

H.263

H.263最初设计为基于H.324的系统进行传输（即基于公共交换电话网和其它基于电路交换的网络进行视频会议和视频电话）。后来发现H.263也可以成功的应用与H.323（基于RTP／IP网络的视频会议系统），H.320（基于综合业务数字网的视频会议系统），RTSP（流式媒体传输系统）和SIP（基于因特网的视频会议）。

基于之前的视频编码国际标准（H.261，MPEG-1和H.262／MPEG-2），H.263的性能有了革命性的提高。它的第一版于1995年完成，在所有码率下都优于之前的H.261。之后还有在1998 年增加了新的功能的第二版H.263+，或者叫H.263v2，以及在2000年完成的第三版H.263++，即H.263v3。

H.263v2（通常也叫做H.263+或者1998年版H.263）是ITU-T H.263 视频编码标准第二版的非正式名称。它保持了原先版本H.263的所有技术，但是通过增加了几个附录显著的提高了编码效率并提供了其它的一些能力，例如增强了抵抗传输信道的数据丢失的能力（Robustness）。H.263+ 项目于1997年底／1998年初完成（这取决于我们怎么定义"完成"）。

H.263v3：接下来一个被称为"H.263++" 的项目被随即推出，在H.263+的基础上增加了更多的新的功能。H.263++于2000年底完成。增加了下面的附录：

Annex A - Inverse transform accuracy specification
Annex B - Hypothetical Reference Decoder
Annex C - Considerations for Multipoint
Annex D - Unrestricted Motion Vector mode
Annex E - Syntax-based Arithmetic Coding mode
Annex F - Advanced Prediction mode
Annex G - PB-frames mode
Annex H - Forward Error Correction for coded video signal

在H.263之后，ITU-T（在与MPEG的合作下）的下一代视频编解码器是H.264，或者叫AVC以及MPEG-4第 10部分。由于H.264在性能上超越了H.263很多，现在通常认为H.263是一个过时的标准（虽然它的开发完成并不是很久以前的事情）。大多数新的视频会议产品都已经支持了H.264视频编解码器，就像以前支持H.263和H.261一样。

话虽然如此，H.263在3GPP中仍然占有很高的地位，后继修订的版本，包括运营商的标准一直保留着H.263，作为必选的要求，地位远远高于H.264，这是个奇怪的现象。一个重要的可能原因是H.263的编码比H.264的要轻载，在手机的modem中提供H.263的编解码能力，不提供H.264的编解码能力，或者只提供H.264的解码能力不提供编码能力，如果不是智能手机不能在主板的其他芯片（例如CPU）提供H.264的编解码能力，开发者就没什么办法，H.263可以通过软件来提供，H.264对处理能力的要求很高，目前需要依赖硬件能力提供。因此H.263仍然具有很大的市场，尤其对于小尺寸的手持设备，屏幕分辨率有限，高清无意义。

H.264

H.264等同于MPEG-4的第10部，在这里仍然收集资料进行学习记录。

H.264／AVC可工作于多种速率，广泛应用于Internet／intranet上的多媒体流服务、视频点播、可视游戏、低码率移动多媒体通信(视频手机等)、交互式多媒体应用、实时多媒体监控、数字电视与演播电视和虚拟视频会议等，大有在上述领域一统天下的趋势，有非常广泛的开发和应用前景。

H.264是一种视频高压缩技术，同时称为MPEG-4 AVC，或MPEG-4 Part10。ITU-T从1998年就H.26L的H.26S两个分组，H.26L研制节目时间较长的高压缩编码技术，H.26S则指短节目标准制订部门。前面的H.263就是H.26S标准化技术，而H.264标准是在H.26L基础上发展而来的。为了不引起误解，ITU-T推荐使用H.264作为这一标准的正式名称。H.264集中体现了当今国际视频编码解码技术的最新成果。在相同的重建图像质量下，H.264比其他视频压缩编码具有更高的压缩比、更好的IP和无线网络信道适应性。

首先，H.264具备超高压缩率，其压缩率为MPEG-2的2 倍，MPEG-4的1.5倍。这样的高压缩率是以编码的大运算量来换取的，H.264的编码处理计算量有MPEG-2的十多倍。不过其解码的运算量并没有上升很多。从CPU频率和内存的高速发展的角度来看，1995年推出MPEG-2时，主流的CPU是奔腾100，内存更是小的可怜。而如今主流CPU的工作频率比那个时候快了30倍，内存扩大了50多倍。所以H.264编码的大运算现在也不算什么大问题了。

高压缩率使图像的数据量减少，给存储和传输带来了方便。加上基本规格公开的国际标准和公正的许可制度，所以，电视广播、家电和通信三大行业都进入到 H.264的实际运用研发中心。美国高等电视系统会议和日本无线电工业和事务协会都准备把H.264作为地面便携式数字电视广播的编码方式。欧洲数字电视广播标准化团体也正在将H.264作为数字电视的一种编码方式来采用。

家电行业中的视频存储设备厂商也看中了H.264。东芝和NEC推出的下一代采用蓝色激光的光碟HD DVD-ROM，因为容量小于Sony等九大公司的蓝光碟，故将视频压缩编码改用H.264，从而使最终的节目录制时长能与蓝光碟相近。H.264也能使 HDTV节目录像和 SDTV的长时间录像成为可能。因而，生产LSI芯片的厂商也十分重视H.264。D9型DVD碟只有8.5GB，不足以存放2小时的HDTV节目，如用 H.264来压缩就变得有可能。同时，在通讯领域，互联网工程任务已开始将H.264作为实时传输协议流的格式进行标准化。互联网和手机的视频传送也会有 H.264作为编码方式。

相对于MPEG压缩编码H.264的变化之一是在帧内编码I画面中，又加入了帧内预测编码技术，即解码时可用周围数据的差分值来重构画面。在运动预测块中，H.264采用全面运动预测和I画面帧内预测后，编码量得到减少，但LSI的运算处理量增大。为此，H.264引入了DCT的简化处理技术，来减轻LSI的负担，画质也有所改善。H.264与MPEG-2和MPEG-4的不同还存在于熵编码块中，H.264的熵编码CAVLC（内容自适应可变长度码）和CABAC（内容自适应二进制算法编码）能提高纠错能力。而MPEG-2和MPEG-4是霍夫曼编码。另外，还加入了解锁滤波器（Deblocking Filter），有降低噪声的效果。H.264的整数变换以4×4像素块为单位，已比原来的8×8像素块的块噪声少，再次降低，画质得到了进一步提高。

H.264标准分为三档：基本档次；主要档次（可用于SDTV、HDTV和DVD等）；以及扩展档次（用于网络的视频流）。其中H.264的基本档次是免费，用户可以无偿使用，现得到美国苹果公司和美国Cisco系统公司、中国联想公司、诺基亚、美国On2技术公司、德国西门子、TI公司等的支持；其许可体系要比MPEG-4单纯，公正无差别对待用户和专利持有者。H.264替代MPEG-4的呼声很高，除了其高性能外，低额专利费和公正的无差别许可制度也至关重要。由于技术的日益成熟，半导体厂商已在进行H.264的编码/解码LSI的开发。特别是HDD录像机和DVD录像机等设备中，采用 H.264的实例已很多，更引起了半导体厂商的关心。加之，H.264采用的动画编码方式和音频编码方式具有多样化特性，今后几乎将会是全部厂商的主要规格之一。

编码效率比较

Codec	MPEG-4	H.263	MPEG-2
H.264	39%	49%	64%
MPEG-4	--	17%	43%
H.263	--	--	31%

微软Windows Media系列

Microsoft 公司主导的音频视频编码系列，它的出现主要是为了进行网络视频传输，现在已经向 HDTV 方面进军，开发了 WMV HD 应用。WMV（Windows Media Video）是微软公司开发的一组数字视频编解码格式的通称，它是Windows Media架构下的一部分。它最初是为低速率流媒体应用作为专有编解码开发出来的，但是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE 421M被正式批准，这样Windows Media Video 9编解码就不再是一个专有的技术。早期的变解码版本（7和8）仍然被认为是专有技术，因为它们不在SMPTE 421M标准的涵盖范围内。

微软媒体系列分为WMV（Windows Media Video）和WMA（Windows Media Audio），说白了就是微软的视频和音频。

容器

视频流通常与Windows Media Audio音频流组合在一起并且使用扩展名为.wmv或者.asf的Advanced Streaming Format的文件进行封装。WMV通常使用Advanced Streaming Format（ASF）封装，它也可以使用AVI或者Matroska格式封装。如果是AVI封装的文件结果文件可以是.avi，如果是ASF封装的话则是.wmv或者.asf，如果是MKV封装的话则是.mkv。当使用VirtualDub编码器编码和WMV9 VCM编解码实现的时候WMV可以存储在AVI文件中。用于Mac的微软公司媒体播放器不支持所有的WMV编码的文件，因为它只支持ASF文件封装，Flip4Mac和QuickTime或者用于MacOSX的MPlayer可以播放更多的文件。

WMV

扩展名：     .wmv
互联网媒体类型：     video/x-ms-wmv
统一类型标识：    com.microsoft.windows-?media-wmv
开发者：     微软公司
格式：     数字视频

WMV（Windows Media Video）是微软公司开发的一组数字视频编解码格式的通称，它是Windows Media架构下的一部分。它最初是为低速率流媒体应用作为专有编解码开发出来的，但是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范并且提交给SMPTE申请作为标准。这个标准在2006年3月作为SMPTE 421M被正式批准，这样Windows Media Video 9编解码就不再是一个专有的技术。早期的变解码版本（7和8）仍然被认为是专有技术，因为它们不在SMPTE 421M标准的涵盖范围内。

WMV不是仅仅基于微软公司的自有技术开发的。从第七版（WMV1）开始，微软公司开始使用它自己非标准MPEG-4 Part 2。但是，由于WMV第九版已经是SMPTE的一个独立标准（421M，也称为VC- 1），有理由相信WMV的发展已经不像之前那样是一个它自己专有的编解码技术。现在VC-1专利共享的企业有16家（2006年4月），微软公司也是 MPEG-4 AVC/H.264专利共享企业中的一家。

正式名称	FourCC	Codec版本	描述
Windows Media Video v7	WMV1	0
Microsoft MPEG-4 Video Codec v3	MP43	1
Windows Media Video v8	WMV2	2
Microsoft MPEG-4 Video Codec v2	MP42	3
Microsoft ISO MPEG-4 Video Codec v1	MP4S	4
Windows Media Video v9	WMV3	5
Windows Media Video v9 Advanced Profile	WMVA	6	deprecated as not VC-1不完全兼容。
Windows Media Video v9 Advanced Profile	WVC1	7	VC-1完整支持

FourCC全称Four-Character Codes，是由4个字符（4 bytes）组成，是一种独立标示视频数据流格式的四字节，在wav、avi档案之中会有一段FourCC来描述这个AVI档案，是利用何种codec来编码的。因此wav、avi大量存在等于“IDP3”的FourCC。

Microsoft MPEG-4 v1/v2/v3

常见的有1.0、2.0、3.0三种版本，是基于MPEG-4技术的，其中3.0并不能用于AVI的编码，只能用于生成支持“视频流”技术的ASF文件。

Microsoft MPEG-4 version 1
是微软基础的视频编码，是非标准的MPEG-4，与MPEG-4 Part2不兼容。FourCC:MPG4

Microsoft MPEG-4 version 2
VFW的基础编解码。与V与MPEG-4 Part2不兼容。VFW（Video for Windows），是微软推出的关于数字视频的一个软件开发包，VFW的核心是AVI文件标准。AVI(Audio Video Interleave)文件中的音、视频数据帧交错存放。围绕AVI文件，VFW推出了一整套完整的视频采集、压缩、解压缩、回放和编辑的应用程序接口 (API)。由于AVI文件格式推出较早且在数字视频技术中有广泛的应用，所以VFW仍然有很大的实用价值，而且进一步发展的趋势。在VC++开发环境中调用VFW和使用其它开发包没有什么不同，只是需要将VFW32.lib 文件加入工程中，但在开放视频捕捉与压缩管理程序时需要其它软件硬件设置。VFW为AVI文件提供了丰富的处理函数和宏定义，AVI文件的特点在于它是典型的数据流文件，它由视频流、音频流、文本流组成。所以对AVI文件的处理主要是处理文件流。FourCC：MP42

Microsoft MPEG-4 version 3
VFW的基础编解码。与V与MPEG-4 Part2不兼容。最终只用于ASF文件。FourCC：MP43

除此之外：
Microsoft ISO MPEG-4 version 1
基于DirectX Media Objects (DMO)-based编解码，与MPEG-4 SP（Simple Profile）兼容。FourCC：MP4S。

Microsoft ISO MPEG-4 version 1.1
与MPEG-4 ASP（Advanced Simple Profile）兼容。FourCC：M4S2

目前在Windows平台上比较实用的MPEG-4视频编解码器主要有：由微软公司开发的Microsoft MPEG-4 Codec v1/v2 /v3，主要是配合微软公司的流媒体技术使用；在Microsoft MPEG-4 v3的基础上，由DivXNetworks公司开发的 DivX Codec；在OpenDivX的基础，遵循GPL开发的开源XviD Codec。
这些codec在windows中以dll方式呈现。

Windows Media Video 7

是DirectX Media Objects (DMO)-based codec。Microsoft 正式开发的第一个 Windows Media Video，开始脱离了MPEG-4，和MPEG-4 不兼容，从这一点上可见微软的野心（微软公司开始使用它自己非标准MPEG-4 Part 2）。可惜这个版本压缩效果非常烂，打破了微软一飞冲天的美梦，不过它在压缩速度上非常快，现在网络上有很多采用这种格式压缩的 WMV。FourCC：WMV1

Windows Media Video ８

在 WMV7 基础上改进的版本，质量上面进不了不少。是DMO-based codec。FourCC：WMV2.

Windows Media Video 9

微软的重头戏，不光是这一个编码，V9 系列更是一个平台，让微软有足够的能力挑战 MPEG，ITU 等标准化组织。虽然这个版本并没有微软吹得那么厉害，特别是低码率下比较差，不过跟以前版本相比进步还是非常多的。特别是 WMV HD 的应用，让微软也跻身视频标准领域。
DMO-based codec. Video for Windows (VfW/VCM) version also available. FourCC：WMV3

Windows Media Video 9 Advanced Profile

在WMV4的Simple和Main profile levels与VC-1标准中的是相同的。VC-1中的Advanced Profile采用一个新的WMV编解码，称为Windows Media Video 9 Advanced Profile。它提高隔行扫描的内容压缩，并与传输无关，使得他可以封装在MPEG的传输流（TS）中或者采用RTP传输。它与之前的WMV9的 codec是不兼容的。

随着 Windows Media Player 10 推出的编码器，能够更进一步控制 WMV9 的质量。但是不能在老版本的 WMP9 上播放，也就是不兼容老版本的 WMP9，真不知微软在搞什么？

FourCC：WVC1，VC-1兼容。FourCC：WMVA，不推荐使用非VC-1兼容方式。我们可以认为WMV9与VC-1兼容。

Windows Media Video 9 Screen

静态屏幕无损压缩编码，质量非常好，压缩率高，只针对如屏幕等变化非常小的环境。WMV Screen是一个screencast编解码器，它可以捕抓动态的屏幕内容，将第三方抓屏程序转换到WMV9 Screen文件中。用于之一是计算机的step-by*step演示视频，第一版本是WMV7 Screen，第二个版本也就是当前的版本是WMV9 Screen，支持CBR和VBR。

Windows Media Video 9 Image

静态图像压缩编码。WMV Image是一个视频幻灯片的编码器，播放多个画面时可根据时间进行平移和过度效果展现。与WMV9相比，具有高压缩率和高态图像质量。由于编解码依赖解码器（播放器）生成实施视频帧，播放WMV Image文件（即使在普通的1024×768，30fps）要求很高的处理能力。在最新的版本，WMV9.1 Image，使用Photo Story3提高转换效果，耽于原来的WMV9 Image不兼容。

视频质量

微软宣称WMV9提供的压缩率为MPEG-4的2倍，MPEG-2的3倍。微软还宣称WMV9的压缩效率笔WMV8高15%～50%。但是在2005年的一个测试报告中，显示WMV9的压缩效率比WMV8要差。

Windows Media Player 10 Mobile

在wiki上，我们注意到“Windows Media Player 10 Mobile”，显示WMV10将用于移动，可能是Windows Mobile。但是我们没有查到进一步的资料。

WMA

扩展名     .wma
互联网媒体类型     audio/x-ms-wma
统一类型标识     com.microsoft.windows-?media-wma
开发者     微软
格式     数字音频

WMA（Windows Media Audio）是微软公司开发的一种数字音频压缩格式。一些使用Windows Media Audio编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。WMA格式为微软公司私有，但是随着苹果公司的iTunes对它的支持，这个格式正在成为MP3格式的竞争对手。它兼容MP3的ID3元数据标签，同时支持额外的标签。

WMA可以用于多种格式的编码文件中。应用程序可以使用Windows Media Format SDK进行WMA格式的编码和解码。一些常见的支持WMA的应用程序包括Windows Media Player、Windows Media Encoder、RealPlayer、Winamp等等。其它一些平台，例如Linux和移动设备中的软硬件也支持此格式。

WMA 7之后的WMA支持证书加密，未经许可（即未获得许可证书），即使是非法拷贝到本地，也是无法收听的。同时，微软公司开始时宣称的：同文件比MP3体积小一倍而音质不变，这也得到了兑现。另外，微软公司在WMA 9大幅改进了其引擎，实际上几乎可以在同文件同音质下比MP3体积少1/3左右，因此非常适合用于网络流媒体。

跟MP3相比，WMA在高位的音质渲染力明显不足，甚至还比MP3更差;与MP3相同，通常的WMA也是有损数据压缩的文件格式，对于有更高要求的用户来说WMA并不是一个适合的格式。但在WMA9版本开始支持无损压缩——Windows Media Audio 9 Lossless（在安装WMP11或Windows Media Format 11之后升级至9.1，无损压缩版本最高支持5.1声道编码）。此外WMA也与MP3一样同为有专利版权的文件格式。支持的设备需要购买使用版权。

Windows Media Audio v1/v2

微软最早的音频编码技术，用于 ASF 中，后来被**也用在 DivX Audio 中，质量比较差。

Windows Media Audio 7/8/9

随着各种不同的 WMV 而推出的相应的音频编码，质量节节提升，不过还没有达到 64kbps CD音质的神化。

Windows Media Audio 9 Professional

WMA9 中出现的新编码，主要用于多声道编码和高采样率音频的编码，质量不错。

Windows Media Audio 9 Voice

针对语音的编码，最高 20kbps ，不过和 AMR 相比，效果就太差了。

Windows Media Audio 9 Lossless

无损音频编码，可以完美保留CD原质量，是CD备份的不错选择，不过代价是体积过大。

VC-1

VC-1，全名VC-1视讯编解码器（Video Codec 1），是基于微软WMV9，并推广为工业标准。2003年提出标准化申请，最早名字是VC-9。2006年4月正式通过成为标准。VC-1是SMPTE 421M视频编解码标准的正式名称。HD DVD 和蓝光光碟（Blu-ray Disc）都支援VC-1。微软表示Windows Vista将支援VC-1影像压缩技术的HD DVD规格。电影及电视学会（SMPTE）已采用VC-1为视讯压缩标准。

VC-1是基于Windows Media Video 9压缩技术的影像压缩标准，由三大编解码元件所组成，每一个编解码元件都具有其独自的FourCC编码。

WMV3：

即WMV 9。VC-1的Simple和Main这两种Profile就是WMV3应用，使得与WMV 9兼容，支持逐行扫描编解码。隔行扫描的编解码也提供，但在很快地，在微软推出WMV Advanced profile后，不推荐采用。逐行扫描编解码用于YUV4:2:0，隔行的（不推荐）用于YUV4:1:1。

WMV3用于高质量的视频和流媒体。同样的质量，它只是MPEG-2的带宽的1/2～1/3。在商业上用于高清电影和视频的WMV HD，编码为WMV3 Main Profile @ High Level ([email protected])。

WMVA：

它是在WMV Advanced Profile被SMPTE吸收为作为VC-1草案之间出现的。它与WVC1之间细微的差役，因此解码器也不一样，2006年起，WMVA被认为是个过时的编码，因为与VC-1不完全兼容。

WVC1：

也就是WMV 9 Advanced Profile，实现了个更新的，完全符合的Advanced Profile的VC-1编码标准。它支持隔行扫描内容，与底层传输无关。

压缩技术整合了MPEG及H.264之优点，采用Biliner和Bicubic方式，次像素（Sub-Pixel）最小可达4分之1像素。VC-1只有4种动作补偿（motion composition），压缩比无法胜过H.264。VC-1在压缩时间上，明显比H.264短了许多，复杂度约只有H.264的50%，对特效电影有很杰出的效能表现。由于H.264 使用较小尺寸的转换公式与无法调整的量化矩阵，造成不能完整保留影像的高频细节资讯。

wiki上有一篇VC-1和H.264比较的文章，很值得看一看。我看到这样的一个段：

VC-1：需付费。Reference decoder 并非免费，不过附赠外部文件

H.264：免费.Reference encoder 和 decoder 也是免费。此外，核查小组及M4IF邮寄名单可在一个可能会收到回答了AVC的有关问题。

除此之外，我们在Google上search H.264 license中也看到了说free的字样。但是，果真如此吗？

版权问题

我一直认为H.264是需要付费的，因此我对上面的表述不确定是否正确。我上网查了一下：也看到“H.264的基本系统无需使用版权，具有开放的性质，能很好地适应IP和无线网络的使用，”的字样。基于这些疑问，我上网查了一下。IP总是个麻烦的问题，最好向Andriod那样，提供平台，版权，产品维护都是手机生产厂家的事情。

MPEG LA公司是世界领先的替代技术特许服务提供商，它使用户能够通过单笔交易从多个专利持有人那里购买某项技术标准或平台所必须的全球专利权，而不必分别洽谈各项特许权。只要独立管理的一站式专利特许权能够开启方便之门、帮助用户推广某项技术， MPEG LA公司率先采用的特许模式就能提供解决方案。MPEG LA公司的特许权之一就是MPEG-2数字视频压缩，这一技术帮助产生了消费电子历史上应用最为广泛的标准。包括57个国家逾870个MPEG-2基本专利的MPEG-2专利组合特许权拥有至少1500家被许可人，覆盖目前全球市场上的大多数MPEG-2产品，包括机顶盒、DVD播放器、数字电视机、个人电脑和DVD视频光盘。作为独立特许经营管理人，MPEG LA公司不与任何标准管理机构相关联，也不是任何专利权持有人的关联人。欲了解更多信息，请登录http://www.mpegla.com。（http://www.dvbcn.com/2010-01/28-44547.html）

我去MEPG-LA网上查阅，发现有AVC/H.264，也就是说这个是需要付费的。在资料中有下面的一张PPT。：

直播软件开发过程中遇到的音视频技术问题总结（四）

我不是很看得的懂，比如一个H.264的片子，是提供下载片子的内容供应商付钱，还是提供解码器的终端设备商需要付费？又例如使用H.264进行视频电话，小于12分钟不收费，大于12分钟收费？混乱啊。因此知识产权这摊事，还是留个专业的法律人士来负责。

Real系列

Real系列是RealNetworks提供的，分为RealVideo和RealAudio。

RealVideo

RealVideo是一种影片格式由RealNetworks于 1997年所开发，至2006年时已到RealVideo版本10。它从开发伊始就定位为应用为网络上视频播放上的格式。支持多种播放的平台，包含 Windows、Mac、Linux、Solaris以及某些移动电话。相较于其它的视频编解码器，RealVideo通常可以将视频数据压缩得更小。因此它可以在用56Kbps MODEM拨号上网的条件实现不间断的视频播放。

一般的文件扩展名为.rm/.rvm，现在广泛流行的是rmvb格式，即动态编码率的real video。

RealVideo早期使用H.263，在RealVideo8及之后公司采用私有或者不公开的视频格式。官方的的播放器是RealNetworks RealPlayer SP，最新的版本是v12，在多个平台，包括Windows，Macintosh，和Linux中提供。RealNetworks公司同时也开发了开源的 Helix播放器，但是在Helix项目中没有提供RealVideo，因为Real系列的编解码仍是不公开的。

RealMedia文件可以通过RTSP在网络上传输，但是RTSP只用于建立和管理连接，真正的视频数据是通过Real自己私有的RDT（Real Data Transport）协议传输。这种方式引起很大的批评，因为难以在其他播放器和服务器中使用RealVideo，现在一些开源项目，例如MPlayer 已经可以播放RDT流。为了支持实时流，RealVideo和RealAudio通常采用CBR（恒定码速）编码，使得每秒传递的数据相等。后来，公司开发了可变码速，成为RealMedia Variable Bitrate（RMVB），提供更高的水平资料，但是这种格式不适合作为流，因为难以预测某个特定的媒体流需要多少网络资源。带有快速移动和场景变化的视频需要更高的码流，如果码流超出网络所能提供的速率，将会引起中断。

RealNetworks公司说RealVideo和RealAudio编解码的源代码不在RPSL的许可内。在许可源代码在不支持的处理器和操作系统的商用移植中许可。虽然公司拥有大多数的知识产权，但是允许第三方为某个特性享有版权。

RealVideo 1.0

RealVideo的第一个版本在1997年释放，是基于H.263格式。在RealPayer5中提供。FourCC为rv10，rv13

RealVideo G2和RealVideo G2+SVT

也是就要H.263，在RealPlayer6中提供。质量比较糟糕。FourCC为rv20

RealVideo 8

随着 RealPlayer 8 推出的视频格式，是现在主流的网络视频编码之一。编码速度较慢，质量也只能算一般。猜测是基于早期的H.264 draft，在RealPlayer 8中提供，FourCC为rv30。

RealVideo 9

RealNetworks 开发的新一代编码，质量进步了很多，特别是在底码率下，而且编码速度很快，做到了速与质的很好统一。
猜测是基于H.264，在RealPlayer9中提供。FourCC为rv40.

RealVideo 10

在 RealVideo 9 基础上加入了一些参数，如 EHQ 等，更加精确控制码率，和 RealVideo 9 兼容。在RealPlayer10中提供，FourCC为rv40（与RealVideo9相同）

RealAudio

文件名扩展： .ra, .ram

Internet media type：audio/vnd.rn-realaudio, audio/x-pn-realaudio

RealAUdio是RealNetwoks公司私有的宾朋编解码格式，最早在1995年释放。它包括一系列的音频编解码，从古老拨号modem的低速率格式到高质量的音乐。可用于媒体流，过去很多的互联网电台使用RealAudio作为他们节目的实时音频流，近年使用得较少，让位与其他流行的格式。

RealAudio文件后缀为.ra。1997年，公司开始提供视频格式成为RealVideo。将音频和视频合并是以哦那个的容器后缀为.rm。然而，最新的版本，使用.ra用于音频文件，使用.rv用于带或不带音频的视频文件，用.rmvb用于可变速率的视频文件。

.ram(Real Audio Metadata)和.smil(Synchronized Multimedia Integration Language)文件格式用于流媒体中的链接。在很多情况下，网络并不直接链接一个RealAudio文件，而是链接.ram和.smil文件。这是一个很小的文本文件，包括音频流的链接。当用户点击一个链接，网络浏览器下载.ram和.smil文件，并加载用户的媒体播放器，媒体播放器从文件中读取 pnm或者rtsp的URL，并开始播放流。

RealAudio文件包括多种音频编解码，每个编解码都是用FourCC（Four Character Code）来表示，介绍如下：

lpcJ: IS-54 VSELP (RealAudio 1)
28_8: G.728 LD-CELP (RealAudio 2)
dnet: Dolby AC3 (RealAudio 3)
sipr: Sipro Lab Telecom ACELP-NET (RealAudio 4/5)
cook: G2/Cook Codec (RealAudio 6)
atrc: Sony ATRAC3 (RealAudio 8)
raac: MPEG-4 LC-AAC (RealAudio 9)
racp: MPEG-4 HE-AAC (RealAudio 10)
ralf: RealAudio Lossless Format (RealAudio 10)