私とマルチメディアVIDEO-ITを取り巻く市場と技術MXFラボ

TOP
TOP > MPEGラボ > 第22回

WinPCLabs Webの動画を速く、きれいに!“コーデック”

2004年11月号掲載

第22回
アップルの「iPod」で一躍有名に AACオーディオ圧縮規格を解剖する

アップルコンピュータのiPodが普及したことにより市民権を得た「AACオーディオ圧縮規格」。BSデジタル放送や地上デジタル放送、NTTドコモの「FOMA」やauの「CDMA 1X WIN」といった第3世代携帯電話も採用する高音質なMPEGの音声圧縮規格だ。今回はこのAACに焦点を当て、その内容と将来について考えたい。

アップルコンピュータの携帯音楽プレーヤー「iPod」が採用したことですっかり身近になった音声圧縮規格
「AAC(Advanced Audio Coding)」。日本では、BSデジタル放送、地上デジタル放送、NTTドコモの「FOMA」なども音声圧縮技術の1つとしてAACを採用している。対応機器の数で言えばMP3をしのぐ普及度だ。

AACはMPEGの音声圧縮規格の1つ

AACは、MPEGの音声圧縮規格の1つで、1997年に「MPEG-2 AAC」として規格化された(図1)。MPEG-1の登場後、MPEG-2が開発されたが、MPEG-2では互換性が重視された。MPEG-2オーディオはMPEG-1オーディオと基本的に同一の技術で、用途拡大のためにいくつかの機能が拡張されている。具体的には、低いビットレートで音質を改善するための低いサンプリング周波数の設定、サラウンド再生を可能とする多チャンネルオーディオなどが挙げられる。ただし、MPEG-1との互換性を重視したために制約が多く、音質改善には限界があった。

この問題を解消するため、従来規格との互換性に縛られない音声圧縮技術として開発されたのがMPEG-2 AACだ。AACは5チャンネルの音声信号を320kbpsに圧縮した場合でも圧縮前の音声と違いが聞き分けられない音質の良さを目標に開発された。もちろんモノラルやステレオでも利用が可能だ。音質面では、96kbpsのAACが128kbpsのMP3と同等とされている。

AACはMPEG-4規格にも採用された。より低いビットレートでの圧縮率を改善するため、MPEG-4ではさまざまな音声圧縮技術が導入された。その中で「楽音」と呼ばれる音楽を含む高品位な音声圧縮のための技術として、AACと「TwinVQ」が採用された。MPEG-4 AACはMPEG-2 AACと基本は同一で、音質を改善するためにいくつかの点が強化されている。

AACでは音量に合わせて雑音の量を調整する

MPEGオーディオは、一部の例外を除いて「聴覚心理」を利用して圧縮率を高めている。聴覚心理とは、例えば大きな音があるとその周辺の周波数の小さな音の有無が知覚できない、というような人間の耳が持ついくつかの特性のことだ。この特性を利用して、圧縮により発生する雑音を、聞こえない領域に集めるように圧縮することで、音質を改善できる。

具体的には、まず入力信号を周波数帯域ごとに分割する。分割した周波数帯域ごとに音声の大きさを比較し、小さな音にはあまりデータを割り当てないようにする。

MP3とAACのエンコード時の処理の流れを比較してみる。図2の通り、両者の基本技術はほとんど同じだ。ここではAACの処理内容を簡単に追ってみよう。まず、入力された音声信号は、フィルタバンクで周波数帯域ごとに分割される。これをMDCT計算でさらに細かなスペクトルに分解する。その後「TNS(Temporal Noise Shaping:時間領域雑音整形)」処理で、圧縮処理に伴う雑音のレベルを、音の大きさに合わせて変化させ、音が小さな部分では雑音も小さくして聴感を向上させる。

その後の後方予測処理で、直前のデータと比較し差分を取ることで、データ量を削減する。非線形量子化処理でビットレートを意識しつつビット列に変換し、さらにハフマン符号化でビット列をハフマン符号に置き換え、圧縮する。AACならではの処理は、TNSと後方予測だ。そのほかの処理もMP3から具体的な内容が変更されている。

AAC規格では、デコーダの回線規模やソフト規模を制限しやすいように、3つのプロファイルを規定している。LC(Low Complexity)、メイン、SSR(Scalable Sampling Rate)の3種類だ。メインプロファイルは圧縮率が良いが、メモリーやCPUパワーを消費する。LCプロファイルはTNS処理を簡単にし、後方予測を使わない。SSRプロファイルはLCプロファイルと同様な制限があるが、入力された周波数帯域の1/4〜1/2の帯域のみを符号化でき、低いサンプリングレートと低いビットレートの組み合わせに有効だ。ちなみに、iPodはLCプロファイルのようだ。携帯電話、デジタル放送のAACもLCプロファイルである。

AACのさらなる進化形 SBR技術を使った「HE-AAC」

AACを拡張し、音質を大きく改善する技術がMPEG規格に新しく取り入れられた。2003年3月のことだ。スウェーデンのCoding Technologiesが開発した「SBR(Spectral Band Replication:スペクトル帯域複製)」という技術で、これを取り入れたAACは「HE(High Efficiency)-AAC」や「aacPlus」と呼ばれる。aacPlusはCoding Technologiesの商標なので、最近はHE-AACと呼ぶことが多い。

SBR技術を使うと、AACの音質を30%程度改善できる。同社のデモでは48kbpsでオーディオCD相当のステレオ2ch、128kbpsで5.1chサラウンドを実現している。

SBR技術を採用したHE-AACのエンコード処理、デコード処理の概要を図3にまとめた。エンコーダ、デコーダはほぼ従来通り。ポイントは、エンコード時の前処理と、デコード時の後処理にある。

SBR技術は、高い周波数成分の楽音は低い周波数成分と強い相関関係にあることを利用している。図3のHE-AACエンコーダでは、サンプリング周波数が44.1kHzのソースなら、半分の22.05kHzでエンコードする。高い周波数成分の情報は前処理で抜き出し、低い周波数成分のエンコード結果のAACストリームに多重化して格納する。逆にHE-AACをデコードする場合は、低い周波数成分(この場合は22.05kHz)のAACデータのデコード結果に、後処理で高い周波数成分のデータを合成する。ここでは、高い周波数成分のデータ作成に低い周波数成分の情報を利用する。

HE-AACは、MPEG-2 AACとMPEG-4 Audio AACの両方で、追加規格として採用された。SBR技術で、ほかのオーディオ圧縮技術にも適用でき、MP3に適用したものが「mp3PRO」としてリリースされている。

●MPEG音声圧縮規格開発の経緯

図1 MPEGで規格化されたさまざまな音声圧縮規格の関係と進化の道筋を図解した。MPEG-1の音声圧縮規格である「Audio Layer3」の別名がMP3だ。AACはそのMP3の流れを汲んでいる。

●MP3エンコーダ、AACエンコーダの内部処理

図2 MP3エンコーダとAACエンコーダの内部処理は、かなり似ているが、さまざまな箇所で改良されている。太線がデータの流れ、細線が制御の流れを示す。

●HE-AACの内部処理

図3 HE-AAC(High Efficiency-AAC)のエンコーダとデコーダの内部処理。既存のAACエンコーダ、AACデコーダにそれぞれ前処理と後処理を追加する。同じ技術でMP3の音質を改善する技術が「mp3PRO」だ。

 

(文/ 竹松 昇、(株)朋栄アイ・ビー・イー) ※編集の関係上、雑誌掲載内容と少し異なる個所があります。
このテーマを製品化すると Multi Video Processor Pro
Internet Video Processor Publish Edition
製品・システム・技術に関するお問い合わせ