- Q. 「動画音声加工」の各専門用語の意味は?
A. 動画音声加工の動画変換設定画面では専門用語がいくつも出てきます。ここでは初心者向けにそれらの用語の意味・役割を解説します。
- コーデック
- コーデックとはデータを圧縮・伸張するソフトウェアや方式のことです。一般的に動画データは大容量となるため、記憶媒体(ハードディスクやSDカード等)の領域の節約のためには一定の規格に則りそのデータサイズを小さく圧縮しておく必要があります。そのための規格(方式)のことをコーデックといいます。例えば携帯電話の動画ではコーデックとして主にMPEG-4やH.264が使用されています。通常はMPEG-4が低画質、H.264が高画質となります。
- 画面のアスペクト比
- 画面のアスペクト比とは、画面の幅と高さの比率のことです。一般的に、ノーマルサイズが4:3、ワイドサイズが16:9です。
元動画の画面のアスペクト比を維持する設定でワイドサイズの動画をノーマルサイズに変換すると、画面の横縦比率が維持されるよう上下に黒枠が付加されます。一方、元動画の画面のアスペクト比を維持しない設定でワイドサイズの動画をノーマルサイズに変換すると、余白ができないよう画面が上下に引き伸ばされます。
- 動画ビットレート
- 動画ビットレートとは、動画ファイルの映像を再生する際に1秒間に何ビットのデータが処理されるかを表す単位のことです。その単位は通常はbps(bit per secondの略)で表記されます。ただし、動画の場合は単位時間あたりに処理されるデータ量が非常に大きいため、ほとんどの場合その単位としてbpsではなくkbpsが用いられます。これは1秒間に何キロビット(キロビットはビットの1024倍)のデータが処理されるかを表す単位です。
例えば256kbpsの動画ファイルの映像データは秒間256キロビット分の画像データで構成されていることになります。そのため、動画ビットレートの値が大きい動画ファイルほどよりファイルサイズが大きくなりますが、その分画質が良くなります。
これはファイルサイズに大きく影響を与える重要な設定値なので、動画や端末に合わせた最適な値を慎重に選びましょう。
- 動画のフレームレート
- 動画はパラパラ漫画のように多数の画像が1コマずつ素早く入れ替わっていくことによって動きのある映像となるわけですが、フレームレートとは各コマ(フレーム)を1秒間あたりに何コマ見せるかを表す単位のことです。その単位はfps(frames per second)で表されます。よって、フレームレートの値が大きい動画ほど滑らかな動きを見せ、逆にフレームレートの値が小さい動画はカクカクしたぎこちない動きになります。
この設定値は作成されるファイルサイズに直接的に影響を与えることはありませんが、間接的にファイルサイズに影響を与えることがあります。例えば、フレームレートの値を大きくすると単位時間あたりに処理すべき画像枚数(コマ数)がその分増えてしまうため、同じ画質を維持したければ動画ビットレートも大きくしてファイルサイズを増やさなければならなくなるということです。逆に言えば、動画ビットレートを変更せずに(ファイルサイズを一定に保ちつつ)フレームレートがより大きい動画(より滑らかな動きの動画)を作成したい場合は、どうしても画質が下がってしまうということです。したがって、動画を作成する際は動画のビットレートとフレームレートをバランス良く調整しなければなりません。欲張って両方の値を大きくしてしまうとファイルサイズがより大きくなってしまいます。
また、動画の仕組みは基本的にパラパラ漫画と同じなので、変換設定の際は動きの激しい動画ほどフレームレートの値を大きくし、逆に動きの少ない動画ほどフレームレートの値を小さくすることをお薦めします。
- 音声再生方式
- 音声再生方式としてステレオとモノラルを選択できます。それらの意味は一般的に知られている通り、左右で独立した異なる音を再生する方式と左右で同じ音を再生する方式です。音声再生方式としてステレオを選択した場合はモノラルの場合よりも音声のデータ量が倍になるため、基本的にステレオの方がモノラルよりもファイルサイズが大きくなります。
なお、元のファイルの音声がモノラルの場合には、音声再生方式としてステレオを選択したとしても変換後のファイルの音声は強制的にモノラルになります。
- 音声ビットレート
- 音声ビットレートとは、音声を含むメディアファイルにおいて音声を再生する際に1秒間に何ビットのデータが処理されるかを表す単位のことです。その概念は処理対象(動画か音声か)の違いを除けば動画ビットレートと全く同じなので、ビットレートについては動画ビットレートの項目を参照して下さい。
なお、音声ビットレートの値を非常に低く設定する場合は音声サンプリング周波数の値も低めに設定するようにして下さい。
- 音声サンプリング周波数
- 音声データが波形で表されることは一般によく知られています。この音声データの波形が写った画像を想像してみて下さい。もしそれが写真のようなアナログの画像であれば、虫眼鏡等で拡大して見ても非常に滑らかな波形を描いているはずです。しかし、もしそれがデジタルの画像であるなら、どんなに解像度が高くても拡大していけばいずれカクカクした粗い波形に見えてきます。このようなアナログとデジタルの違いは画像だけでなく音声についても同じように当てはまります。
画像や音声のデータをアナログからデジタルに変換する際は、一定間隔ごとにデータを細切れにして採取(サンプリング)していき、その間隔が狭ければ狭いほどよりオリジナルに近いデータを再現できることになります。音声の場合、1秒間あたりのサンプリング回数によってデジタル化(または圧縮)した際の音質を数値で表現できることになります(実際には音質は音声ビットレートにもよります)。まさにその単位が音声サンプリング周波数なのです。つまり、音声サンプリング周波数とは、1秒間あたりに音声波形データを採取(サンプリング)する回数のことです。イメージとしてはフレームレートの音声版のようなものです。その単位はHz(ヘルツ)で表されます。ただし、通常の音声をある程度自然に再現するためには秒間のサンプリング回数は1000回を大きく超えることになるため、通常は音声サンプリング周波数の単位としてHzではなくkHz(キロヘルツ)が用いられます。
例えば、音楽CDは44.1kHzで録音されています。これはつまり音楽CDの音声データはデジタル化の際に1秒間あたり44100回サンプリングされているということです。