2016.12.27

第268回 (A) 携帯電話の音声は造られた声!?

取締役 プロダクトソリューション事業本部長 竹村 弘樹

音というのは物質の振動が空気などの物質の中を伝わり、音の大きさや高さは振動の波の大きさや速さが変わることで変わります。

この音を携帯電話ではどのように伝送しているのでしょうか。

携帯電話での音声伝送はアナログ方式からはじまりました。アナログ方式の携帯電話は音声を無段階にアナログ電圧信号に変換し、相手の携帯電話に伝送していましたが、デジタル携帯電話に代わり音声の強さを、決められた強さの単位のデジタル信号に変換して伝送する方式へ変わっていきました。
このデジタル伝送は波形符号化方式と呼ばれますが、多くの方が「造られた声」と回答されたイメージはこのデジタル化技術のことでした。

しかし、携帯電話が爆発的に普及したなかで波形符号化方式だと1つの音声を送るのに毎秒64kビットという比較的大きなデータ量の伝送が必要で、音質を下げずにデータ量を小さくする技術が必要になりました。
そこで人間の発声メカニズムである声帯と声道をモデル化したCELP(Code Excited Linear Prediction、符号励振線形予測)という方式が開発され、現在の携帯電話の伝送方式の基礎となっています。
そもそも発声のメカニズムですが、「声帯が振動」し音源となる波を作り出し、その振動が「声道で音は共振しのどや口の形態に応じて変化」して声に特徴づけられ人の声となります。

携帯電話では、音声を分析し声帯部分にあたる音の波形だけを取り出して2 の 32 乗程度の組み合わせがあるコードブックというあらかじめ準備されている音源辞書と、実際の声を比較し、もっとも近い情報辞書を選択し、声帯の動きをコードブック番号として信号化します。
さらにのどや口の形態による声道部分の特徴情報を信号化したうえで、この2つの情報を伝送しています。
携帯電話の受信側では、これらコードブック番号と声道にあたる特徴情報の2つ(毎秒8kビット)から人工音を合成することで音声が届けられています。
このように携帯電話の音声は受信機側の携帯電話で合成された音声なのです。
カーナビやSiriなど明らかに合成音声とわかるものとは違い、多くの人が相手の実際の声だと思わせる音質を実現しているところは驚愕します。

さて、この技術進歩は音声の発声機構をモデル化したことにより大きな進展をもたらしていますが、経営分析の領域においても意思決定をするため、経験豊富なコンサルタントが収益及び原価構造を分析し、ビジネス構造をモデル化、そしてシステム化することでスピーディーかつ正確な分析や将来予測シミュレーション等を実現し経営を支えています。(興味のある方は、ぜひ弊社までご相談ください。)

しかし、近年の人工知能技術の発達で経験豊富な専門人材にしかできなかったモデル化の領域が変わろうとしています。

人間は特徴をつかむことに長けており、何か同じ対象を見つづけていると、自然にそこに内在する特徴に気づくことができます。そして特徴をつかみさえすれば、複雑にみえる事象も整理され、簡単に理解することができるのです。例えば、ある道の先人が驚くほどシンプルにものごとを語るのを聞いたことがあるかもしれませんが、それがこれにあたります。コンサルティングも先人のようなものですね。

これまでの人工知能は、機械が自らの判断のために必要な特徴を見つけ出すのは極めて難しく、人工知能の技術職人が判断のための特徴とその量を適切に設計しプログラミングしなければ、人工知能はうまく学習できなかったところが、近年の人工知能では機械が判断のための特徴を自ら発見し、かつその判断量の設計自体も機械自らが行いはじめたところに、60年の人工知能研究の歴史の中での大きな革新となっています。

現在の人工知能と呼ばれる技術ですが、次の4段階に分類することができます。
出典:人工知能は人間を超えるか 松尾豊

現時点、人工知能そのものが開発されたわけではありませんが、機械自らが判断基準を学習し始めた点で大きな飛躍の可能性を感じます。

近い将来、経営分析の領域でも、コンサルタントではなく、人工知能が学習しビジネス構造をモデル化している日が来るかもしれません。

MAIL MAGAZINE

メールマガジン

NEWS

ニュース

SEMINAR / EVENT

セミナー / イベント

セミナー/イベント一覧を見る

お問い合わせ