AI音声処理技術とは?音声処理の基礎から解説
AIME-Soundのご紹介

AI、人工知能、音声解析、音声認識、感情分析、外国語発音判定

外にいながらエアコンなどを操作したりできる最近話題のIoT家電。その最たるものといえば、スマートスピーカーではないでしょうか?Google・Amazon・Line・Appleなど大手企業がそれぞれのサービスに親和性のある機能を特化したモデルを発売しています。話しかけるだけで様々な操作を行ってくれるサービスの仕組みなどをご紹介していきます。


AIを用いた音声処理とは?

 

まず、技術の根底にある音声処理・音声認識からご紹介します。

人は聞いた言葉を理解し、そのまま反応することが出来ますが、コンピューターはそのような対応が出来ないため、人が話した言葉である音声データをコンピューターのシステムに掛け、テキストのデータに変換し、テキストデータを理解することで、初めて反応することができます。この一連の流れを音声処理・音声認識技術といいます。

 

音声処理の仕組み

音声処理では、【音響分析】【音響モデル】【発音辞書】【言語モデル】の過程を経て、音声を処理・認識して行きます。

【音響分析】

人の言葉は発する人の性別・年齢・声質などによってさまざまです。その”人の言葉”をコンピューターが分析しやすいデータに変換するのが音響分析です。「アナログ信号」のような波の形状をした”人の言葉”を、音の強弱・周波数・音と音の間隔などの特徴によって0か1で現される「デジタル信号」に変換します。

【音響モデル】

変換した「デジタル信号」から人間が発する最小単位である[母音][子音][撥音]の音素を特定します。

例)「ありがとう」は[A-R-I-G-A-T-O-U]になります。

発音辞書】

特定した音素を意味が通るような組み合わせになるように膨大なデータベースを参照し、単語として認識させます。

例)[A-R-I-G-A-T-O-U]は[A-RI-GA-TO-U](ありがとう)

【言語モデル】

単語として認識させた物を音声パターンにあわせた単語の並びに変換し文章化を行い、テキストに出力を行います。その際、あらかじめ蓄積したデータを参考にしながら、単語毎の出現率を算出し、文章化において、文脈の整合性を高めています。


音声認識と自然言語処理

音声認識と自然言語処理はセットで活用されることが多くあります。

上記において、音声処理・音声認識の流れをご紹介しましたが、実際のところ音声処理・音声認識分野は音声データからテキストを作成するところまでであり、そのあとの意味・内容を読み取り、目的に応じた対応が行われるのは、別の技術である「自然言語処理」になります。

AIの音声処理の精度

前述の音声認識と自然言語処理によって、スマートフォンを操作出来るようになりました。あなたのスマートフォンにも音声アシストが搭載され、一度は使ったことがあるのではないでしょうか?

それでは、現在のAIの音声認識の精度はどのくらいなのでしょうか。

MicrosoftとIBMは2017年電話会話音声認識で95%の認識率を達成し「人間と同等の認識精度を実現した」。と発表しています。「雑音が少ない環境で、明瞭に発音をした。」という状況下における結果ではありますが、日々進歩しているAI技術においては、完全理解も近いという事をあらわしているのではないでしょうか。


音声処理・音声認識技術の活用例

そんな音声処理・認識技術はどのような場面で活用されているかを最後にご紹介します。

AIスピーカー

音声認識の活用事例として、外せないのが「AIスピーカー」です。

ウェイクワードを言い、何かを話すと、AIスピーカーは人と話すように答えを教えてくれたりします。

使い方はさまざまで、明日の天気を教えてくれたり、レシピを教えてくれたり、対応する家電を揃えれば、カーテンの開閉やエアコンのオンオフもできます。

発音判定

日本人にとって、英語の発音は馴染みがなくネイティブのような発音の習得は難しいと言われております。実際に英会話の上達の近道は実際にネイティブの方と話すこと・聞くことと言われています。そんな英会話で注目されているのが、AIによる発音判定です。AIシステムに自分の発音を読み取らせることで、自分の発音を判定してもらい発音に対する総合評価をしてくたり、ネイティブに近づくようにアドバイスもしてくれるシステムも開発されています。

感情判定

日本のエンパスという企業が「音声感情解析AI」というオリジナル製品を発表しています。

根底技術の詳細については公表していませんが、数万人分の音声を解析し、独自アルゴリズム組み上げることで、音声の特徴から喜び・平常・怒り・悲しみの4つの感情を判定しています。

相手の感情を読みとることは、マーケティングのチャンスを掴むことやメンタルヘルスのケアにつなげることもでき、「ICTスプリング」というIT・AIコンテストで世界一位に輝いています。

音声処理・音声認識について、基礎的な部分から事例までご紹介いたしました。先述したエンパス社の幹部は【AIや音声認識に関するビジネスでは、「So What?(それで?)」に対する答えが重要】と話しています。このような音声処理・音声認識技術をどのように自社サービスに活かせるかはあなたのアイデア次第です。


「声を見える化」「声で効率化」音声認識システムAIME-SOUND

3つのPOINT

①お客様の課題に合わせた最適な音声ソリューション

②PoCだけに留まらず、ビジネス成果につながる

③リーズナブルかつ高精度なAI音声モデル

どのような業務上の課題を解決してくれますか?

・音声入力によるテキスト化

ビジネス現場では業務報告や議事録作成などは欠かせない業務ですが、大きな負担がかかります。音声認識の技術を活用することによって音声からの文字起こしが可能となり、業務の効率化に大きく貢献できます。

・声紋認証システム

IDやパスワードなどを使う従来の認証には発行や再発行などの手続きや管理に伴う課題が存在します。「声紋」を利用する声紋認証システムによって個人を特定した認証、管理が可能となります。

・外国語発音判定システム

ネイティブのような発音を目指しても独学では限界があるでしょう。AIが学習者の発音の正確さを判断し、自動評価や矯正のレコメンドによって学習過程を見える化できるだけではなく、学習者のモチベーションアップにもつながります。

・音声感情認識

お客様の声から満足度や不満といった感情を分析し可視化します。商品やサービスの改善、スタッフ応対の品質の向上に役立てることができます。

AIME-Soundについてのご相談・お問い合わせを承ります。

https://www.aimenext.com/contact