音声認識技術を用いたシステム開発

この記事では、AI(人工知能)の音声認識技術を用いたシステム開発について解説します。音声認識技術を使って何ができ、実際にどのように使われているかも併せて紹介します。

スマートスピーカーが世の中に登場してから大分年月が経ちますが、いまだに、使うたびに「不思議な感覚」を覚える人も多いでしょう。それは、コンピュータと会話できているように感じることが大きな理由といえます。コミュニケーションが取れないはずの対象とコミュニケーションが取れたとき、感動が生まれることも多いものです。

この疑似会話を実現しているのは、AI(人工知能)の音声認識技術です。そこでこの記事では、音声認識技術を用いたシステム開発について解説したうえで、音声認識技術を使って何ができ、実際にどのように使われているかも併せて紹介します。

音声認識技術のシステム開発においてはAIが大きな役割を果たしている

音声認識技術はすでにシステムとして開発されていて、たとえば、Googleは「クラウド・スピーチ・トゥ・テキスト」という音声を文章に変換するサービスを販売しています。

音声認識技術をシステムにするには、音声の「おはよう」と文字の「おはよう」を紐づける必要があります。音声の「おはよう」には、周波数や高低や強弱といった特徴があり、これをデータ化することで、コンピュータは「ohayou」という音が朝のあいさつの「おはよう」であると認識できるようになります。

音声認識技術のうち、音声を文字に変える技術は、AIが登場する前から完成していました。ただし、文字変換の正解率はそれほど高くありませんでした。AIによって言葉の予測ができるようになり、文字変換が正しく行われるようになったのです。

たとえば、音声を学習したAIは、「彼女は昨日、会社に」という音声を聞いたら、次に「『行った』か『行かなかった』がくる」と予測できるようになります。予測ができると、音声があいまいでも正しく文字変換できる確率が上がります。

音声認識技術によってできる2つのこと

音声認識技術はコンピュータの可能性を広げます。ここでは、音声認識技術によってできる大きな2つのことを紹介します。

1.疑似会話ができるようになった

文字を音声にする技術はすでに存在していたので、音声認識技術が確立したことで、人とコンピュータが「会話」できるようになりました。

コンピュータは、ユーザーの音声を、コンピュータ言語を文字入力されたときと同じように命令として処理します。そして、その命令のアウトプットを音声化して、コンピュータのスピーカーから発します。

もちろんこの「会話」はまだ疑似であり、人と人が交わす本物の会話のレベルには達していません。本物の会話にするには、コンピュータに思考を与えなければなりません。

しかし疑似会話とはいえ、最新の音声認識技術を体験した人は、その自然さに「コンピュータと話している」と錯覚するでしょう。

2.音声の書き起こしができるようになった

人の作業のうち、音声の書き起こしは、重要な仕事でありながら徒労感がつきまといます。それは、書き起こそうとしている「音声」と、音声を書き起こした「文章」がまったく同じ情報を持っているからです。同じ仕事を繰り返すなら、コンピュータにさせてもよいはずです。

音声認識技術が発達したことで、ようやくそれが可能になりました。日本においては、国会や市議会でAIが会議録を作成したり、議員の発言を瞬時に文字化してモニターに映し出したりしています。聴覚障害があっても議場のやり取りを把握できるようにもなりました。

AIによる音声認識技術の2つの活用例

音声認識技術を搭載したAIは、国会や議会以外の日常生活でも活用されています。

1.Googleのシステムはコールセンターで活躍

先ほど触れたGoogleの「クラウド・スピーチ・トゥ・テキスト」は、すでに販売を開始しています。Googleは、このシステムをコールセンターで使うことなどを想定しています。コールセンターの担当者と顧客の音声をリアルタイムで文字変換できます。

また、120の言語と方言を認識します。固有名詞にも強く、名前、地名を正確に文字化できるのです。イギリスの有名な辞典「オックスフォード英語辞典(Oxford English Dictionary)」に掲載されている固有名詞の10倍以上の固有名詞を認識できるとされています。

2.電通は音声認識カーナビで「営業」を代行

日本勢も負けていません。電通が開発したAI日本語自然対話プラットフォーム「Kiku-Hana」は、日本語の意味を解析して、音声認識や音声発話、適切な会話や情報提供を可能にしたシステムです。

電通は、Kiku-Hanaとカーナビを組み合わせたシステムを開発して、自動車販売店の試乗車のカーナビに搭載しました。自動車販売店での試乗は、通常、顧客が運転席に座り、営業担当者が助手席に座ります。新車は新しい機能や新しいボタンがたくさんあるので、営業担当者が説明しなければならないからです。

しかし、Kiku-Hanaカーナビを搭載した試乗車なら、顧客が1人で試乗することができます。顧客が操作に困ったら、Kiku-Hanaカーナビに音声で問い合わせるだけで、AIが適切に回答します。

さらに、「安全を確認したうえで、少しアクセルを踏み込んでみませんか。自慢の加速性能をお楽しみください」といった営業トークまでこなすのです。ドライバーに試乗ルートを指示することもできます。

Kiku-Hanaカーナビは、顧客が口にした疑問点をデータ化できるので、営業担当者が商談の参考にすることもできるのです。

音声処理技術によって声の力を最大限活かせる

チャットや電子メールにより、日常生活でもビジネスシーンでも、文字や文章でコミュニケーションを取ることが増えました。

しかし、重要な話をするときは電話をしたり、実際に会ったりするはずです。それは「最後は、言葉を口に出してもらわないとわからない」からです。声には特別な力があるといえるでしょう。

AI研究者が音声認識技術の開発に力を入れるのは、この音声の力をコンピュータに持たせたいからです。音声の力を手にしたコンピュータは、その利便性をさらに高めるでしょう。