AI技術のひとつ、音声認識とは?

AI(人工知能)の技術のひとつ、音声認識について解説します。コンピュータは音声を認識するのが苦手ですが、コンピュータが音声を理解すると、人はより簡単にコンピュータを操作できるようになります。音声認識技術の基本的な仕組みについて解説します。

AI(人工知能)の技術のひとつ、音声認識は、音声を文章に変えることができます。
例えばスマートスピーカーは、ユーザーがそれに話しかけるだけで、現在の時刻や明日の天気を答えます。このように回答できるのは、ユーザーが発した「今の時間は?」「明日の天気は?」といった音声を、コンピュータが、時間や天気を調べる「命令文」として理解できたからです。
音声認識技術が進化すると、人はより簡単にコンピュータを操作できるようになります。
音声認識技術の基本的な仕組みについて解説します。

音声認識とは

コンピュータの音声認識のメカニズムと、人が音声を認識するメカニズムは、かなり異なります。

人は音声のほうが得意

人は音声のほうが、文字より早くかつ正しく認識することができます。「はやくかつただしくにんしきできる」という文字を読み、「早くかつ正しく認識できる」であると理解するのには一定の時間が必要ですが、音声だけで「はやくかつただしくにんしきできる」と言われれば、瞬時に意味を理解できます。

コンピュータは「音声→文字」変換が必要

一方、コンピュータは音声認識が苦手です。コンピュータには、キーボードを使って文字で指示したほうが、早くかつ正確に動くことができます。
なぜ音声認識が苦手かという、コンピュータは文字しか理解できないからです。音声でコンピュータを動かすには、コンピュータに「音声を文字に変換させる」機能を持たせる必要があります。

なぜ「音声→文字」変換は難しいのか

音声を文字に変えることは簡単なことではありません。
人間でも、例えば「ま」が聞こえてくると期待しているときに「あ」が聞こえてきても、「ま」に間違えてしまいます。
「あさか、そんなことないよね」と言われても「まさか、そんなことないよね」と聞こえることがあります。
このような間違いが起きるのは、文字の「ま」と音声の「ま」が、まったくの別物だからです。そして、音声の「ま」と音声の「あ」が、とても似ているからです。
人は知識として、文字の「ま」と音声の「ま」が同じものであると知っているだけです。
コンピュータに音声認識をさせるには、コンピュータにも、文字の「ま」と音声の「ま」が同じものであることを教えなければなりません。さらに、音声の「ま」と音声の「あ」が別物であることも教える必要があります。

音声認識技術の仕組み

コンピュータに、文字の「ま」と音声の「ま」が同じものであること教えるには、音声の「ま」をデータ化する必要があります。
音声には、周波数や高低や強弱があるので、データにすることができます。データになれば、コンピュータは「今の音声は、文字の『ま』である」と理解できるようになります。これを音声認識のうち、音響分析技術といいます。

音響分析には、一字ずつ分析しなければ、音声による文章を理解できないという欠点があります。そこで、「おはよう」という音声を「おはよう」ごと認識する技術が開発されました。それが、音響モデル技術です。

音声認識技術の精度

音声認識技術の精度をさらに高めるのが、言語モデル技術です。
AIを使って、ある音声の次に現れる音声を予測できるようにしました。例えば、「おはよう」の音声の次に「ございます」の音声が現れる確率は90%で、「いいあさ」の音声が現れる確率は10%、といったように予測します。
これにより、「あさか、そんなことないよね」という音声をAIに聞かせても、「この場合の『あさか』は『まさか』である確率が高い」と判断できるようになり、「まさか、そんなことないよね」と文字にできるようになります。

なぜ音声認識の精度を高める必要があるのか

音声認識の精度を高めることは、AI開発のなかでも優先度が高い課題です。なぜなら、AIの音声認識能力が高まると、コンピュータがこれまで以上に使いやすくなるからです。

文字でコンピュータに仕事をさせるには、高いスキルが必要です。文書作成ソフトの「ワード」を使いこなすだけでも、キーボード配置を覚えたり、シフトキーやエンターキーやスペースキーの機能を覚えたりしなければなりません。ましてコンピュータに直に指示を出すためには、コンピュータ言語を覚えなければならず、そのスキル獲得には年単位の学習が必要になります。

音声認識技術を搭載していないコンピュータは、フレンドリーではないのです。
コンピュータが音声を認識できるようになれば、ユーザーである人は「喋るだけ」でコンピュータを動かすことができます。
コンピュータに「音声→文字」変換をさせれば、人が「音声→文字」変換しなくて済みます。
音声認識技術は、人とコンピュータの垣根を低くする効果をもたらします。

コンピュータは文字を好む

親が生まれたばかりの赤ちゃんに文字を見せないのは、文字によるコミュニケーションが難しいからです。
そして、親が生まれたばかりの赤ちゃんに頻繁に声をかけるのは、音声のほうが物事を理解させやすいからです。
つまり幼い子供は、先に音声で概念を学んでから、あとから文字を習って、音声と文字を紐づけます。それくらい、人にとって音声は、なじみやすいコミュニケーションツールなのです。

一方、コンピュータは、文字を好みます。それは、文字のほうが、記録性と正確性において、音声より優れているからです。
音声になじんでいる人と、文字を好むコンピュータの間にある「ギャップ」を埋めるのが、音声認識技術です。