MP3是利用人耳對(duì)高頻聲音信號(hào)不敏感的特性,將時(shí)域波形信號(hào)轉(zhuǎn)換成頻域信號(hào),并劃分成多個(gè)頻段,對(duì)不同的頻段使用不同的壓縮率,對(duì)高頻加大壓縮比(甚至忽略信號(hào))對(duì)低頻信號(hào)使用小壓縮比,保證信號(hào)不失真。這樣一來(lái)就相當(dāng)于拋棄人耳基本聽不到的高頻聲音,只保留能聽到的低頻部分,從而將聲音用1∶10甚至1∶12的壓縮率壓縮。由于這種壓縮方式的全稱叫MPEG Audio Player3,所以人們把它簡(jiǎn)稱為MP3。
根據(jù)MPEG規(guī)范的說(shuō)法,MPEG-4中的AAC(Advanced audio coding)將是MP3格式的下一代。
最高參數(shù)的MP3(320Kbps)的音質(zhì)較之CD的,FLAC和APE無(wú)損壓縮格式的差別不多,其優(yōu)點(diǎn)是壓縮后占用空間小,適用于移動(dòng)設(shè)備的存儲(chǔ)和使用。
MP3播放器正在走向消亡
剛剛問(wèn)世時(shí),MP3播放器是數(shù)字革命的先鋒。然而隨著消費(fèi)者轉(zhuǎn)向智能手機(jī)等其他數(shù)碼產(chǎn)品,2012年英國(guó)市場(chǎng)iPod和其他MP3播放器的銷量大幅下降。
根據(jù)市場(chǎng)研究公司Mintel的數(shù)據(jù),2012年,英國(guó)市場(chǎng)MP3播放器的銷售額為1.1億英鎊(約合1.78億美元),僅為2011年3.81億英鎊的29%。Mintel預(yù)計(jì),到2017年,英國(guó)市場(chǎng)MP3播放器的總銷售額還將下降一半。而在最壞的情況下,5年后英國(guó)市場(chǎng)MP3播放器總銷售額將僅為2500萬(wàn)美元。
1、MP3是一個(gè)數(shù)據(jù)壓縮格式;
2、它丟棄掉脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中對(duì)人類聽覺(jué)不重要的數(shù)據(jù)(類似于JPEG是一個(gè)有損圖像壓縮),從而達(dá)到了小得多的文件大??;
3、MP3音頻可以按照不同的位速進(jìn)行壓縮,提供了在數(shù)據(jù)大小和聲音質(zhì)量之間進(jìn)行權(quán)衡的一個(gè)范圍,MP3格式使用了混合的轉(zhuǎn)換機(jī)制將時(shí)域信號(hào)轉(zhuǎn)換成頻域信號(hào);
4、32波段多相積分濾波器(PQF);
5、36或者12 tap 改良離散余弦濾波器(MDCT);每個(gè)子波段大小可以在0...1和2...31之間獨(dú)立選擇;
6、MP3不僅有廣泛的用戶端軟件支持,還有很多的硬件支持比如便攜式媒體播放器(指MP3播放器)DVD和CD播放器,去電
1、MPEG-1 Audio Layer 2編碼開始時(shí)是德國(guó)Deutsche Forschungs- und Versuchsanstalt für Luft- und Raumfahrt(后來(lái)稱為Deutsches Zentrum für Luft- und Raumfahrt, 德國(guó)太空中心)Egon Meier-Engelen管理的數(shù)字音頻廣播(DAB)項(xiàng)目。這個(gè)項(xiàng)目是歐盟作為EUREKA研究項(xiàng)目資助的,它的名字通常稱為EU-147。EU-147 的研究期間是1987年到1994年。
2、到了1991年,就已經(jīng)出現(xiàn)了兩個(gè)提案:Musicam(稱為L(zhǎng)ayer 2)和ASPEC(自適應(yīng)頻譜感知熵編碼)。荷蘭飛利浦公司、法國(guó)CCETT和德國(guó)Institut für Rundfunktechnik提出的Musicam方法由于它的簡(jiǎn)單、出錯(cuò)時(shí)的健壯性以及在高質(zhì)量壓縮時(shí)較少的計(jì)算量而被選中?;谧訋Ь幋a的Musicam 格式是確定MPEG音頻壓縮格式(采樣率、幀結(jié)構(gòu)、數(shù)據(jù)頭、每幀采樣點(diǎn))的一個(gè)關(guān)鍵因素。這項(xiàng)技術(shù)和它的設(shè)計(jì)思路完全融合到了ISO MPEG Audio Layer I、II 以及后來(lái)的Layer III(MP3)格式的定義中。在Mussmann教授(University of Hannover)的主持下,標(biāo)準(zhǔn)的制定由Leon van de Kerkhof(Layer I)和Gerhard Stoll(Layer II)完成。
3、一個(gè)由荷蘭Leon Van de Kerkhof、德國(guó)Gerhard Stoll、法國(guó)Yves-François Dehery和德國(guó)Karlheinz Brandenburg 組成的工作小組吸收了Musicam和ASPEC的設(shè)計(jì)思想,并添加了他們自己的設(shè)計(jì)思想從而開發(fā)出了MP3,MP3能夠在128kbit/s達(dá)到MP2 192kbit/s 音質(zhì)。
4、所有這些算法最終都在1992年成為了MPEG的第一個(gè)標(biāo)準(zhǔn)組MPEG-1的一部分,并且生成了1993年公布的國(guó)際標(biāo)準(zhǔn)ISO/IEC 11172-3。MPEG音頻上的更進(jìn)一步的工作最終成為了1994年制定的第二個(gè)MPEG標(biāo)準(zhǔn)組MPEG-2標(biāo)準(zhǔn)的一部分,這個(gè)標(biāo)準(zhǔn)正式的稱呼是1995年首次公布的ISO/IEC 13818-3。
5、編碼器的壓縮效率通常由位速定義,因?yàn)閴嚎s率依賴于位數(shù)(:en:bit depth)和輸入信號(hào)的采樣率。然而,經(jīng)常有產(chǎn)品使用CD參數(shù)(44.1kHz、兩個(gè)通道、每通道16位或者稱為2x16位)作為壓縮率參考,使用這個(gè)參考的壓縮率通常較高,這也說(shuō)明了壓縮率對(duì)于有損壓縮存在的問(wèn)題。
6、Karlheinz Brandenburg使用CD介質(zhì)的Suzanne Vega的歌曲Tom’s Diner來(lái)評(píng)價(jià)MP3壓縮算法。使用這首歌是因?yàn)檫@首歌的柔和、簡(jiǎn)單旋律使得在回放時(shí)更容易聽到壓縮格式中的缺陷。一些人開玩笑地將Suzanne Vega稱為“MP3之母”。來(lái)自于EBU V3/SQAM參考CD的更多一些嚴(yán)肅和critical 音頻選段(glockenspiel,triangle,accordion...)被專業(yè)音頻工程師用來(lái)評(píng)價(jià)MPEG音頻格式的主觀感受質(zhì)量。
為了生成位兼容的MPEGAudio文件(Layer 1.Layer 2.Layer 3),ISO MPEG Audio委員會(huì)成員用C語(yǔ)言開發(fā)的一個(gè)稱為ISO 11172-5的參考模擬軟件。在一些非實(shí)時(shí)操作系統(tǒng)上它能夠演示第一款壓縮音頻基于DSP的實(shí)時(shí)硬件解碼。一些其它的MPEG Audio實(shí)時(shí)開發(fā)出來(lái)用于面向消費(fèi)接收機(jī)和機(jī)頂盒的數(shù)字廣播(無(wú)線電DAB和電視DVB)。
后來(lái),1994年7月7日Fraunhofer-Gesellschaft發(fā)布了第一個(gè)稱為l3enc的MP3編碼器。
Fraunhofer開發(fā)組在1995年7月14日選定擴(kuò)展名.mp3(以前擴(kuò)展名是.bit)。使用第一款實(shí)時(shí)軟件MP3播放器Winplay3(1995年9月9日發(fā)布)許多人能夠在自己的個(gè)人電腦上編碼和回放MP3文件。由于當(dāng)時(shí)的硬盤相對(duì)較?。ㄈ?00MB),這項(xiàng)技術(shù)對(duì)于在計(jì)算機(jī)上存儲(chǔ)娛樂(lè)音樂(lè)來(lái)說(shuō)是至關(guān)重要的。
1993年10月,MP2(MPEG-1 Audio Layer 2)文件在因特網(wǎng)上出現(xiàn),它們經(jīng)常使用Xing MPEG Audio Player播放,后來(lái)又出現(xiàn)了Tobias Bading為Unix開發(fā)的MAPlay。MAPlay于1994年2月22日首次發(fā)布,已經(jīng)移植到微軟視窗平臺(tái)上。
剛開始僅有的MP2編碼器產(chǎn)品是Xing Encoder和CDDA2WAV,CDDA2WAV是一個(gè)將CD音軌轉(zhuǎn)換成WAV格式的CD抓取器。
Internet Underground Music Archive(IUMA)通常被認(rèn)為是在線音樂(lè)革命的鼻祖,IUMA是因特網(wǎng)上第一個(gè)高保真音樂(lè)網(wǎng)站,在MP3和網(wǎng)絡(luò)流行之前它有數(shù)千首授權(quán)的MP2錄音。
從1995年上半年開始直到整個(gè)九十年代后期,MP3開始在因特網(wǎng)上蓬勃發(fā)展。MP3的流行主要得益于如Nullsoft于1997年發(fā)布的Winamp和Napster于1999年發(fā)布的Napster這樣的公司和軟件包的成功,并且它們相互促進(jìn)發(fā)展。這些程序使得普通用戶很容易地播放、制作、共享和收集MP3文件。
關(guān)于MP3文件的點(diǎn)對(duì)點(diǎn)技術(shù)文件共享的爭(zhēng)論在最近幾年迅速蔓延—這主要是由于壓縮使得文件共享成為可能,未經(jīng)壓縮的文件過(guò)于龐大難于共享。由于MP3文件通過(guò)因特網(wǎng)大量傳播一些主要唱片廠商通過(guò)法律起訴Napster來(lái)保護(hù)它們的版權(quán)(參見(jiàn)知識(shí)產(chǎn)權(quán))。
如iTunes Music Store這樣的商業(yè)在線音樂(lè)發(fā)行服務(wù)通常選擇其它或者專有的支持?jǐn)?shù)字版權(quán)管理(DRM)的音樂(lè)文件格式以控制和限制數(shù)字音樂(lè)的使用。支持DRM的格式的使用是為了防止受版權(quán)保護(hù)的素材免被侵犯版權(quán),但是大多數(shù)的保護(hù)機(jī)制都能被一些方法破解。這些方法能夠被計(jì)算機(jī)高手用來(lái)生成能夠自由復(fù)制的解鎖文件。一個(gè)顯著的例外是微軟公司的Windows Media Audio 10格式,它還沒(méi)有被破解。如果希望得到一個(gè)壓縮的音頻文件,這個(gè)錄制的音頻流必須進(jìn)行壓縮并且?guī)?lái)音質(zhì)的降低。
因?yàn)镸P3是一種有損壓縮格式,它提供了多種不同“比特率”(bit rate)的選項(xiàng)—也就是用來(lái)表示每秒音頻所需的編碼數(shù)據(jù)位數(shù)。典型的速度介于128kbps和320kbps(kbit/s)之間。與此對(duì)照的是,CD上未經(jīng)壓縮的音頻比特率是1411.2 kbps(16 位/采樣點(diǎn) × 44100 采樣點(diǎn)/秒 × 2 通道)。
使用較低比特率編碼的MP3文件通?;胤刨|(zhì)量較低。使用過(guò)低的比特率,“壓縮噪聲(compression artifact)”(原始錄音中沒(méi)有的聲音)將會(huì)在回放時(shí)出現(xiàn)。說(shuō)明壓縮噪聲的一個(gè)好例子是:壓縮歡呼的聲音;由于它的隨機(jī)性和急劇變化,所以編碼器的錯(cuò)誤就會(huì)更明顯,并且聽起來(lái)就象回聲。
除了編碼文件的比特率之外;MP3文件的質(zhì)量,也與編碼器的質(zhì)量以及編碼信號(hào)的難度有關(guān)。使用優(yōu)質(zhì)編碼器編碼的普通信號(hào),一些人認(rèn)為128kbit/s的MP3以及44.1kHz的CD采樣的音質(zhì)近似于CD音質(zhì),同時(shí)得到了大約11:1的壓縮率。在這個(gè)比率下正確編碼的MP3只能夠獲得比調(diào)頻廣播更好的音質(zhì),這主要是那些模擬介質(zhì)的帶寬限制、信噪比和其他一些限制。然而,聽力測(cè)試顯示經(jīng)過(guò)簡(jiǎn)單的練習(xí)測(cè)試聽眾能夠可靠地區(qū)分出128kbit/s MP3與原始CD的區(qū)別。在許多情況下他們認(rèn)為MP3音質(zhì)太低是不可接受的,然而其他一些聽眾或者換個(gè)環(huán)境(如在嘈雜的車中或者聚會(huì)上)他們又認(rèn)為音質(zhì)是可接受的。很顯然,MP3編碼的瑕疵在低端聲卡或者揚(yáng)聲器上比較不明顯而在連接到計(jì)算機(jī)的高質(zhì)量立體聲系統(tǒng),尤其是使用高保真音響設(shè)備或者高質(zhì)量的耳機(jī)時(shí)則比較明顯。
Fraunhofer Gesellschaft(FhG)在他們的官方網(wǎng)站上,公布了下面的MPEG-1 Layer 1/2/3的壓縮率和數(shù)據(jù)速率用于比較:
Layer 1: 384 kbit/s,壓縮率 4:1
Layer 2: 192 - 256 kbit/s,壓縮率 8:1-6:1
Layer 3: 112 - 128 kbit/s,壓縮率 12:1-10:1
不同層面之間的差別是因?yàn)樗鼈兪褂昧瞬煌男睦砺晫W(xué)模型導(dǎo)致的;Layer 1的算法相當(dāng)簡(jiǎn)單,所以編碼就需要更高的比特率。然而,由于不同的編碼器使用不同的模型,很難進(jìn)行這樣的完全比較。
許多人認(rèn)為所引用的速率,出于對(duì)Layer 2和Layer 3記錄的偏愛(ài),而出現(xiàn)了嚴(yán)重扭曲。他們爭(zhēng)辯說(shuō)實(shí)際的速率如下所列:
Layer 1: 384 kbit/s 優(yōu)秀
Layer 2: 256 - 384 kbit/s 優(yōu)秀,224 - 256 kbit/s 很好,192 - 224 kbit/s 好
Layer 3: 224 - 320 kbit/s 優(yōu)秀,192 - 224 kbit/s 很好,128 - 192 kbit/s 好
當(dāng)比較壓縮機(jī)制時(shí),很重要的是要使用同等音質(zhì)的編碼器。將新編碼器與基于過(guò)時(shí)技術(shù)甚至是帶有缺陷的舊編碼器比較可能會(huì)產(chǎn)生對(duì)于舊格式不利的結(jié)果。由于有損編碼會(huì)丟失信息這樣一個(gè)現(xiàn)實(shí),MP3算法通過(guò)創(chuàng)建人類聽覺(jué)總體特征的模型盡量保證丟棄的部分不被人耳識(shí)別出來(lái)(例如,由于noise masking),不同的編碼器能夠在不同程度上實(shí)現(xiàn)這一點(diǎn)。
一些可能的編碼器:
Mike Cheng在1998年早些時(shí)候首次開發(fā)的LAME。 與其他相比,它是一個(gè)完全遵循LGPL的MP3編碼器,它有良好的速度和音質(zhì),甚至對(duì)MP3技術(shù)的后繼版本形成了挑戰(zhàn)。
Fraunhofer Gesellschaft:有些編碼器不錯(cuò),有些有缺陷。
許多的早期編碼器已經(jīng)不再?gòu)V泛使用:
ISO dist10
BladeEnc
ACM Producer Pro.
好的編碼器能夠在128到160kbit/s下達(dá)到可接受的音質(zhì),在160到192kbit/s下達(dá)到優(yōu)良的音質(zhì)。所以不在特定編碼器或者最好的編碼器話題內(nèi)說(shuō)128kbit/s或者192kbit/s下的音質(zhì)是容易引起誤解的。一個(gè)好的編碼器在128kbit/s下生成的MP3有可能比一個(gè)不好的編碼器在192kbit/s下生成的MP3音質(zhì)更好。另外,即使是同樣的編碼器同樣的文件大小,一個(gè)不變比特率的MP3可能比一個(gè)變比特率的MP3音質(zhì)要差很多。
需要注意的一個(gè)重要問(wèn)題是音頻信號(hào)的質(zhì)量是一個(gè)主觀判斷。安慰效果 (Placebo effect) 是很嚴(yán)重的。許多用戶在A/B測(cè)試中都沒(méi)有通過(guò),他們無(wú)法在更低的比特率下區(qū)分文件。一個(gè)特定的比特率對(duì)于有些用戶來(lái)說(shuō)是足夠的,對(duì)于另外一些用戶來(lái)說(shuō)是不夠的。每個(gè)人的聲音感知可能有所不同,所以一個(gè)能夠滿足所有人的特定心理聲學(xué)模型并不明顯存在。僅僅改變?cè)嚶牠h(huán)境,如音頻播放系統(tǒng)或者環(huán)境可能就會(huì)顯現(xiàn)出有損壓縮所產(chǎn)生的音質(zhì)降低。上面給出的數(shù)字只是大多數(shù)人的一個(gè)大致有效參考,但是在有損壓縮領(lǐng)域真正有效的壓縮過(guò)程質(zhì)量測(cè)試手段就是試聽音頻結(jié)果。
如果你的目標(biāo)是實(shí)現(xiàn)沒(méi)有質(zhì)量損失的音頻文件或者用在演播室中的音頻文件,就應(yīng)該使用無(wú)損壓縮(Lossless)算法,能夠?qū)?6位PCM音頻數(shù)據(jù)壓縮到38%并且聲音沒(méi)有任何損失,這樣的無(wú)損壓縮編碼有LA 、Sony ATRAC Advanced Lossless、Dolby TrueHD、DTS Master Lossless Audio、MLP、Sony Reality Audio、WavPack、Apple Lossless、TTA、FLAC、Windows Media Audio 9 Lossless (WMA) 和APE (Monkey's Audio)等等。
對(duì)于需要進(jìn)行編輯、混合處理的音頻文件要盡量使用無(wú)損格式,否則有損壓縮產(chǎn)生的誤差可能在處理后無(wú)法預(yù)測(cè),多次編碼產(chǎn)生的損失將會(huì)混雜在一起,在處理之后進(jìn)行編碼這些損失將會(huì)變得更加明顯。無(wú)損壓縮在降低壓縮率的代價(jià)下能夠達(dá)到最好的結(jié)果。
一些簡(jiǎn)單的編輯操作,如切掉音頻的部分片段,可以直接在MP3數(shù)據(jù)上操作而不需要重新編碼。對(duì)于這些操作來(lái)說(shuō),只要使用合適的軟件("mp3DirectCut"和"MP3Gain"),上面提到的問(wèn)題可以不必考慮,
Thomson Consumer Electronics在認(rèn)可軟件專利的國(guó)家控制著MPEG-/2 Layer 3 專利的授權(quán),這些國(guó)家包括美國(guó)和日本,歐盟國(guó)家不包括在內(nèi)。Thomson積極地加強(qiáng)這些專利的保護(hù)。Thomson已經(jīng)在歐盟國(guó)家被歐洲專利局授予軟件專利,但是還不清楚它們是否會(huì)被那里的司法所加強(qiáng)。參見(jiàn)歐洲專利協(xié)定中的軟件專利。
關(guān)于Thomson專利文件、授權(quán)協(xié)議和費(fèi)用的最新信息請(qǐng)參考它們的網(wǎng)站。
在1998年9月,F(xiàn)raunhoferInstitute向幾個(gè)MP3軟件開發(fā)者發(fā)去了一封信聲明“發(fā)布或者銷售編碼器或者解碼器”需要授權(quán)。這封信宣稱非經(jīng)授權(quán)的產(chǎn)品“觸犯了 Fraunhofer和Thomson的專利權(quán)。制造、銷售或者發(fā)布使用[MPEG Layer-3]標(biāo)準(zhǔn)或者我們專利的產(chǎn)品,你們需要從我們這里獲得這些專利的授權(quán)協(xié)議?!?/p>
這些專利問(wèn)題極大地減慢了未經(jīng)授權(quán)的MP3軟件開發(fā)并且導(dǎo)致人們的注意力轉(zhuǎn)向開發(fā)和歡迎其它如WMA和Ogg Vorbis這樣的替代品。Windows開發(fā)系統(tǒng)的制造商微軟公司從MP3專向它們自有的Windows Media格式以避免與專利相關(guān)的授權(quán)問(wèn)題。直到那些關(guān)鍵的專利過(guò)期之前,未經(jīng)授權(quán)的編碼器和播放器在認(rèn)可軟件專利的國(guó)家看起來(lái)都是非法的。
盡管有這些專利限制,永恒的MP3格式繼續(xù)向前發(fā)展;這種現(xiàn)象的原因看起來(lái)是由如下因素帶來(lái)的網(wǎng)絡(luò)效應(yīng):
* 熟悉這種格式,不知道有其它可選格式存在,
* 這些可選格式?jīng)]有普遍地明顯超過(guò)MP3的優(yōu)勢(shì)這樣一個(gè)現(xiàn)實(shí),
* 大量的MP3格式音樂(lè),
* 大量的使用這種格式的不同軟件和硬件,
* 沒(méi)有DRM保護(hù)技術(shù),這使得MP3文件可以很容易地修改、復(fù)制和通過(guò)網(wǎng)絡(luò)重新發(fā)布,
* 大多數(shù)家庭用戶不知道或者不關(guān)心軟件專利爭(zhēng)端,通常這些爭(zhēng)端與他們個(gè)人用途而選用MP3格式無(wú)關(guān)。
另外,專利持有人不愿對(duì)于開源解碼器加強(qiáng)授權(quán)費(fèi)用的征收,這也帶來(lái)了許多免費(fèi)MP3解碼器的發(fā)展。另外,盡管他們?cè)噲D阻止發(fā)布編碼器的二進(jìn)制代碼, Thomson已經(jīng)宣布使用免費(fèi)MP3編碼器的個(gè)人用戶將不需要支付費(fèi)用。盡管專利費(fèi)是許多公司打算使用MP3格式時(shí)需要考慮的問(wèn)題,對(duì)于用戶來(lái)說(shuō)并沒(méi)有什么影響,這就帶來(lái)了這種格式的廣受歡迎的效應(yīng)。
Sisvel S.p.A. 和它的美國(guó)子公司Audio MPEG,Inc. 以前曾經(jīng)以侵犯MP3技術(shù)專利為由起訴Thomson,但是那些爭(zhēng)端在2005年11月最終以Sisvel給Thomson MP3授權(quán)而結(jié)束,Motorola也與Audio MPEG簽署了MP3的授權(quán)協(xié)議。由于Thomson和Sisvel都擁有他們聲稱編解碼器必需的單獨(dú)的專利,MP3專利的法律狀態(tài)還不清晰。
Fraunhofer的專利在2010年4月已經(jīng)到期,MP3算法不受專利保護(hù)。