音声を文字化する音声認識技術とは？歴史や仕組み、導入事例をご紹介！

iPhoneのSiri機能や、Google Home・Alexaといったスマートスピーカーなど、音声認識技術を身近に感じる機会は多いのではないでしょうか。
最近ではAIを活用した文字起こしアプリなども登場。

ビジネスにおいても将来に向けてロボットやAIとの対話技術開発が進められている昨今、音声認識技術は今後大きな役割を担うことになるでしょう。
今回は、音声認識技術の仕組みや事例についてご紹介します。

高単価案件をお探しですか？

Contact EARTH matchingでは、フリーランスITエンジニア向けの高単価案件を多く取り扱っています。
Webサービス開発に興味のある方や、プログラミングの実績がある方は無料エキスパート登録から案件にアサインしてみてください。

完全リモートのDX案件が探せる

コンタクトアースマッチングはもう使っていますか？

案件を無料で見てみる

音声認識技術とは

音声認識技術とは、声の情報と言語の情報を密接に組合せながら人の音声をデジタルデータに変換し、それを活用する技術のことを指します。

単なるテキスト化に留まらず、話し手の特定や感情の解析なども可能とします。
文字認識や画像認識と同じくパターン認識の一分野であり、その中でも音声認識は「複数入力複数出力のパターン認識問題」であるため、最も難しい問題と言われています。

音声認識技術の歴史

音声認識の歴史は古く、遡ると約50年以上になります。
初期の音声認識プロジェクトとして、1970年代に行われていた米国で人間の音声を数式モデルで表す研究が知られています。

1990年代、音声認識を利用した製品が販売されるようになり、一部で利用が開始されます。

そして2011年にiPhone®にSiri®機能が標準搭載されたことがきっかけで、音声認識技術の知名度は瞬く間に上昇します。
多くの企業でサービスが展開されることになり、音声認識技術は人々にとってより身近な存在となりました。

音声認識の仕組み

音声認識は一般に前処理部、特徴抽出部、識別部から構成されています。

前処理部

音声は元々アナログ信号であるため、これをコンピュータが取り扱うことのできるデジタル信号に変換する必要があります。
音声認識を実行しやすくするためのデータ変換を行う工程が前処理部です。

特徴抽出部

前処理部でデジタル化された音声から、その音独自の特徴を抽出するのが特徴抽出部です。
データ処理を行う際に必要な音声の、構成、波形、音間の時間、などの要素が音声認識では重要です。

また、識別情報によって、取り出すべき情報は異なってきます。

音響モデル

音響モデルは周波数成分や時間変化の分析を使ってその声が何かを判別する際に用います。
一般的な音響モデルは、数千人、数千時間の音声を統計的に処理したものを基盤としています。

音響モデルを作成するためには、まず波形を切り出し、特徴量を調べ、音響モデルの元となる音素モデルを作成します。

そして実際に発話された音声が、どの音素モデルにどれ程近いのか照合を行い、整合率を計算します。
例えば、「おはよう」という音声を入力した場合、音声分析により抽出された特徴量を用いて「O-H-A-Y-O-U」という音素になるように、音声を文字に正しく適応させます。

識別部

識別部では、一音一音を組み合わせ、単語にし、文章として成り立たせる作業が行われます。

言語モデル

参照 :
・「成長する音声認識」三井情報（MKI）

文章内の品詞や単語と単語、文章と文章の関係性に着目して予測を行い、正確な文章を組み立てるものが言語モデルです。

言語モデルでは膨大な量のデータが必要となり、それらを形態素解析することにより文章を名詞や助詞など単語単位に分割し、単語同士のつながりを確率で表現します。
言語モデルが正しく機能することで、文脈的にもより適切な文章を構成することを可能とします。

ちなみに、言語モデルでは、隠れマルコフモデルと呼ばれる確率過程が非常によく利用されます。
これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義しています。

この隠れマルコフモデルを利用することで、状態の推定を行うことができ、音素をつなげて文章を成立させる音声認識に作用しやすくなるため、今でも多くの音声認識技術の基幹モデルとして活躍しています。

発音辞書

音声の最小単位の「音素」ごとにモデル化されている膨大なデータベースの中から音の組み合わせをピックアップし、単語として認識する役割を担っているものが発音辞書です。

言語モデルの単語と音響モデルを結びつけるために使用されます。
単語のみの出現率だけを基にすると日本語として不自然な文章になってしまうため、前後の単語同士のつながりを考慮しながら、最も自然な文章になるような候補を選んで行くために必要となります。

参照 :
・「音声認識とは」アドバンスト・メディア

音声認識導入のメリット

業務効率化

音声認識による文字のタイピングは、音声を発するだけで自動的に文字を判定・漢字変換まで行うことができます。

人の手でタイピングするよりも格段に速く、加えてタイピングと漢字変換の行程を削減できるため、入力スピードを圧倒的に上げることができます。
また、長時間のタイピング作業による腱鞘炎など、肉体的負担も軽減できるため、総じて業務効率化を図ることが可能であると言えるでしょう。

精度向上・ミス軽減

従来キーボードでのタイピング入力はミスが発生しやすいという問題がありました。

これを音声によるテキスト化に変えることでミスを減らすことができ、またタイピングの作業がない分ミスが発生したとしてもそれを発見することが容易になります。
ミスの削減、ミスの発見しやすさは作業時間の削減にも繋がるでしょう。

操作性が高い

話すだけでテキスト入力を可能とするシステムもあるため、PCに不慣れである高齢者の方やIT技術の使用に苦手意識を持っている方など、どなたでも簡単にサービスを利用することができます。

また手を使わずに操作できるため、リモコン操作やキーボードなどの物理的な入力インターフェースの使用が困難な方でも、問題なく操作可能となります。

音声認識導入の課題

近年、IBMとMicrosoftが「電話の音声認識で95パーセントの認識率を記録した」と発表するなど、音声認識のレベルは飛躍的に向上したとされています。
しかし音声認識技術は、一定の条件下でないと高精度を出すことができずにいます。

●　記載音量が大きく、発音が明瞭
●　雑音やノイズが少ない
●　少人数での対話
●　方言やスラングなどを使わない

上記の条件下では、音声認識技術の精度は格段に悪化します。

人間は文脈や相手の表情を分析して脳が補完しているため、どのような状況下においても会話することが可能ですが、音声認識システムの補完機能は未だ発展途上です。
これらを解消し、認識精度の向上を追求することが今後の課題と言えるでしょう。

音声認識の導入事例

通話データのリアルタイムテキスト化

今まで使用していた全通話録音は音を聞くことしか出来なかったため、テキストデータが必要な場合、実際に自分の耳で音声データを全て聞いて書き起こしをする必要がありました。
音声認識をリアルタイムで行えることに加えて、認識率の高さを維持しており、人が行っていた作業の手間と時間の削減を実現しました。

【参考事例】
導入先企業 : 株式会社JALカード
業種 : クレジットカード事業
課題 : データ書き起こしの時間・手間の削減
活用技術 : 音声認識
成果 : 業務の効率化

参照：
「株式会社JALカード様」アドバンスト・メディア

電話応対の自動化

三菱電機インフォメーションシステムズ株式会社では、社内施設やPC、携帯などに関する問い合わせ対応のために社内コールセンターを設置していましたが、定型的な問い合わせの対応に多くの時間を割かれていました。
定型的な対応を自動化することで、オペレーターが対応すべき問題に対応できるようにとボイスチャットを導入しました。

社内向けコールセンターで「AmiVoice ISR Studio」を活用したところ、問い合わせの20%以上にあたる定型的な応対を自動化が可能となり、オペレーター対応が必要な問い合わせに集中することができ、業務効率化と受電率の向上を実現しました。
また、SMS送信機能やメール通知機能も活用することで利用者に迅速に情報を提供することもでき、自動応対が可能な問い合わせについては、24時間365日対応ができるのもメリットとなっています。

【参考事例】
導入先企業：三菱電機インフォメーションシステムズ株式会社
業種：通信・IT
課題：
・定型的な問い合わせ対応に時間を割かれる
活用技術：ボイスボット
成果：
・応対品質向上
・業務効率化

参照：
・「三菱電機インフォメーションシステムズ株式会社様」アドバンスト・メディア