情報処理のWeb教科書―IPA情報処理試験対策のお供に!

音声処理―標本化⇒量子化⇒符号化の原理、ファイルの仕組みと形式

トップ 情報処理の知識体系 テクノロジ系 技術要素 マルチメディア マルチメディア技術 音声処理

アナログな音声は標本化⇒量子化⇒符号化の処理によりデジタル化されます。ここでは音声処理をテーマに音声データのディジタル化の原理、音声ファイルの仕組み、代表的な音声ファイル形式の特徴をまとめています。

▲記事トップへ

目次

このページの目次です。

1. 音声処理とは

2. 音声データのデジタル化の原理

3. 音声データのデジタル化の計算の例

4. 音声ファイルの仕組みと形式

音声処理に関連したIPA情報処理試験の過去問

もっと知識を広げるための参考

更新履歴

1. 音声処理とは

人間の声などの音声をデジタル化するためには、アナログ信号をデジタル形式に変換する必要があります。

アナログ信号のデジタル化は、①アナログ信号の標本化、②アナログ信号の量子化、③アナログ信号の符号化、を行ってデジタル化します。

以下では、音声データのデジタル化の原理、音声ファイルの仕組み、代表的な音声ファイル形式をまとめていきます。

2. 音声データのデジタル化の原理

音声データのデジタル化の原理について見ていきます。

PCM

PCMとは、Pulse Code Modulationの略で、パルス符号変調のことで、アナログ音声信号をデジタル化する技術です。 適切な間隔でサンプリングし、その結果を量子化します。

ADPCM

PCMの改良版に、ADPCMがあります。 ADPCMは、adaptive differential pulse code modulationの略で、過去に復号された信号標本と現在の信号標本との差分信号を符号化する差分パルス符号変調(DPCM、差分PCM)を改良し、量子化幅を適応的に変化させます。 PCMと同様に実時間で圧縮記録、展開が行え、かつ整数演算のみで高性能な制御回路も必要としない為、様々な音声装置に採用されている方式です。

標本化周波数

標本化周波数(サンプリング周波数)とは、1秒間にサンプリングする回数で単位はHzで表します。 Hzの単位は1000回で1kHzとなります。たとえば、1秒間に10,000回サンプリングする場合は10kHzと表します。 音声をサンプリングするときの周波数は標本化定理に従います。

標本化定理

標本化定理とは、最大周波数の2倍でサンプリングすれば、原音を復元できるという定理です。

量子化ビット数

量子化とは、1つのサンプリング時の音圧をビット表現にすることです。 8ビットでビット表現にする場合、1サンプリングの値は256段階で表現できます。 なお、ビットは8ビットで1バイトになります。

サンプリング

サンプリングとは、標本化の別の言い方です。アナログ信号の値を特定の時間間隔で取り出すことをいいます。

3. 音声データのデジタル化の計算の例

音声データのデジタル化の計算の例をいくつか見ていきます。

音声データのデジタル化の計算の例1

3分間の演奏をサンプリング周波数48kHz、量子化ビット数24ビット、ステレオでサンプリングしたデジタルデータを求めてみます。 サンプリング周波数48kHz、量子化ビット数24ビット、ステレオの場合、3分間の演奏のデジタルデータは以下の計算で求められます。

  1. 1秒当たり
    48kHz×24ビット×2ch=2,304kビット
  2. ビット⇒バイトに直すと
    2,304kビット÷8=288kバイト
  3. 3分間のデータ量は
    288kバイト×180秒=51,840kバイト
  4. kバイト⇒Mバイトに直すと
    51,840kバイト÷1000=51.84Mバイト(およそ52Mバイト)

音声データのデジタル化の計算の例2

音声を標本化周波数10kHz、量子化ビット数16ビットで4秒間サンプリングして音声データを取得し、 音声データを、圧縮率1/4のADPCMを用いて圧縮した場合のデータ量は何kバイトかデータ量を計算していきます。 簡単にするため、1kバイトは1000バイトとして計算していきます。

量子化ビット数16ビットで標本化周波数10kHzですので、データ化した場合1秒当たりのデータ量は「16ビット×10kHz=160kHz」になります。

kHzは、1秒間に1000回サンプリングする意味ですから、1秒間に「160×1000=160,000ビット」のデータ量となります。

この単位を8ビットで1バイトのバイトに単位を変換すると「160,000/8=20,000バイト」となります。 これは1kバイト1000バイトとすると「20,000/1,000=20kバイト」です。

これを4秒間記録して、圧縮率1/4のADPCMを利用して圧縮した場合は「20kバイト×4秒×1/4=20kバイト」となります。 よってデータ量は20kバイトとなります。

音声データのデジタル化の計算の例3

アナログの音響を4kHzでサンプリング(標本化)し、1標本を8ビットでデジタル化する場合、1秒間に生成されるデジタルデータは32kビットになります。

4,000(1秒間に4,000回の標本化)×8(1回の量子化で生成されるデータ量)=32,000ビット=32kビット

4. 音声ファイルの仕組みと形式

音声ファイルの仕組み、代表的な音声ファイル形式の特徴について見ていきます。

MIDI

MIDIは、シンセサイザーを搭載する電子楽器の演奏情報のデータ形式、プロトコル、物理的インターフェイスの規格です。

MIDIの読み方

MIDIの読み方は一般的に「ミディ」といいます。

MIDIファイル

MIDIのデータフォーマットで保存されたファイルのことをMIDIファイルといいます。拡張子は「.mid」です。

MIDIファイルからMP3への変換

MIDIファイルからMP3への変換するには、専用ソフトが必要です。 iTunesなどのソフトで変換できます。

音声処理に関連したIPA情報処理試験の過去問

以下では音声処理に関連したIPA情報処理試験の過去問とその解説をまとめています。

もっと知識を広げるための参考

更新履歴

戻る

スポンサーリンク

情報処理の知識体系

各試験の問題と解説

ランダム出題・採点アプリ

プログラミング

スポンサーリンク