AmiVoice Techblog

AmiVoiceの音声認識に関する技術情報・活用方法・組み込み方などを発信するアドバンスト・メディアのテックブログです

AmiVoiceの領域特化エンジンの音声認識精度を比べてみた(汎用 vs 電子カルテ)


f:id:amivoice_techblog:20210115094116p:plain 安藤章悟

みなさま こんにちは。

音声認識を使うシーンはさまざまです。どんなシーンでどんなことを喋っても正確に音声認識できるエンジンが作れれば最高なのですが、現実問題としてそれは困難だったりします。特に専門用語がバシバシ飛び出すような特殊な利用シーンではどうしても誤認識をしやすくなってしまい、せっかくの音声認識技術をうまく活用できないケースが出てきます。

そこで、利用シーンごとにいろいろな種類の音声認識エンジンを作って対応しよう!というアプローチをAmiVoiceではとっています。AmiVoiceの社内にはたくさんの人数のエンジン開発エンジニアがいて、ものすごくたくさんの種類の音声認識エンジンが存在しますが、その中のいくつかは開発者向けサービスのAmiVoice Cloud Platformで使用することができます。具体的なラインナップは下記から確認することができます。

acp.amivoice.com

今回はこれらのエンジンの種類についての概略と、実際に音声認識精度がどのくらい違うのか?を電子カルテ入力音声を例に説明します。

なお、現在、AmiVoice Cloud Platformでは日本語と、英語、中国語の3ヶ国語を提供していますが、今回は日本語を前提として説明をします。
また、2021年8月時点のラインナップを前提として説明します。

「会話」と「音声入力」の違い

まず、上記ページのラインナップには「会話」と「音声入力」という2種類がありますが、これらは音声認識エンジンが対応する喋り方の違いです。 違いは下記となります。

  • 会話
    会議や音声通話など、人と人の会話の音声を中心に学習しています。活舌のよくないモゴモゴした喋り方にもある程度対応しています。

  • 音声入力
    音声操作や文字入力など、人がPCやスマホに対して音声入力する音声を中心に学習しています。アナウンサーが発声するような活舌の良い音声をイメージしてもらえるとよいと思います。

想定する用途に合った音声認識エンジンを選んだ方が音声認識精度が上がりやすくなります。 使い方や利用シーンによってはあまり差が出ないこともありますので、できれば両方を試して比較するといいでしょう。

領域特化型エンジンとは?

上記の「会話」と「音声入力」のどちらもリストの一番上に「会話_汎用」「音声入力_汎用」とありますが、 この2つを "汎用エンジン" と呼び、この2つ以外のエンジンすべてを"領域特化型エンジン"と呼んでいます。

主な違いは下記となります。

  • 汎用エンジン
    一般的な単語・フレーズを中心とした言語データを広く学習させています。さまざまな用途に対してなんでもだいたい対応できる音声認識エンジンです。

  • 領域特化型エンジン
    領域ごとにその専門用語・フレーズを中心に学習させています。またその領域で不要となる単語・フレーズをあえて学習していません。各領域ごとに特化した音声認識エンジンです。 

 

領域特化型エンジンは汎用エンジンよりもどのくらい優れているのか?

汎用エンジンと領域特化型エンジンでは価格が異なり、基本的には領域特化エンジンの方が少し高めの金額設定になっています。

ここで気になるのは「汎用エンジンと領域特化型エンジンでどの程度性能に差があるか?」というところではないでしょうか。

それを調べるために下記のような実験をやってみました。

実験内容

下記の条件で、音声認識精度を計測しました。

  • 病院やクリニックなどのお客さまからご提供頂いた電子カルテのデータ(個人情報や顧客情報その他重要な情報は含みません。)をベースに原稿を作成し、その原稿を当社スタッフが読み上げた音声を使用しました。また、この原稿の内容や音声は音声認識エンジンの学習には使用していません。
  • 音声データ量は、526発話、音声区間約1990秒です。*1
  • 話者は男性話者10名、女性話者9名です。話者ごとに発話内容は異なります。
  • 音声認識エンジンは AmiVoice Cloud Platform の「音声入力_汎用」と「音声入力_電子カルテ」の2種類を使用しました。
  • 表記ゆれを原因とする誤認識は、正解となるよう正解文の修正をしました。*2
  • フィラー(不要語)は音声認識精度の計測に含めません。
  • 音声中に句読点を「てん」や「まる」と発話している箇所がありますが、そこは音声認識精度の計測に含めません。

なお、音声認識精度の計算方法は下記の記事で扱っています。

amivoice-tech.hatenablog.com

実験結果

結果は以下となりました。 

音声認識精度(総合)

エンジン 音声認識精度
音声入力_汎用 87.41%
音声入力_電子カルテ 97.61%

 汎用エンジンに比べて、領域特化型エンジンである「音声入力_電子カルテ」が非常に高い精度となりました。

 

音声認識精度(話者ごと)

参考に話者別の音声認識精度もリストにしました。

話者 音声入力_汎用 音声入力_電子カルテ
女性1(50発話 約150秒) 82.00% 95.41%
女性2(27発話 約90秒) 97.11% 99.59%
女性3(24発話 約80秒) 92.99% 97.22%
女性4(25発話 約90秒) 89.20% 98.08%
女性5(25発話 約80秒) 82.94% 98.85%
女性6(17発話 約60秒) 91.30% 98.55%
女性7(25発話 約80秒) 93.16% 98.41%
女性8(26発話 約170秒) 90.33% 99.63%
女性9(26発話 約110秒) 88.21% 98.13%
男性1(54発話 約200秒) 79.08% 94.98%
男性2(25発話 約90秒) 91.28% 98.96%
男性3(24発話 約80秒) 91.63% 99.06%
男性4(24発話 約130秒) 78.74% 95.38%
男性5(26発話 約90秒) 81.51% 98.52%
男性6(25発話 約90秒) 92.49% 98.66%
男性7(25発話 約90秒) 82.06% 96.93%
男性8(26発話 約100秒) 90.09% 96.96%
男性9(26発話 約100秒) 87.97% 98.73%
男性10(26発話 約110秒) 87.41% 97.47%

 

こちらでもすべての話者において汎用エンジンよりも領域特化型エンジンの方が精度が高いことが分かります。(ただし話者1人あたりの発話回数・音声時間が短いことには注意が必要です)

なお、認識精度97.61%という数値は当社社内でも高い部類です。これだけ高い数値が出た理由としては下記のようなものが考えられます。

  • 音声認識エンジンと、入力音声の内容がマッチしている(電子カルテのための領域特化型エンジンを使い、当社が想定した内容の電子カルテ入力音声を処理しています)
  • 音声入力を目的とした音声のため、発音が明瞭(会議などの人と人との会話の音声だと発音が不明瞭になりやすいです)
  • マイクの近くで発声している(マイクと口との距離が離れると雑音が入りやすくなったり、音声の特性が変化することがあります)
  • 静かな室内環境で発声している

 

具体的にどのような認識結果の違いがあるか?

いくつか音声認識精度に差のある個所をピックアップしました。

 

■誤認識の比較

  • 正解:腎エコー・尿生化学
  • 汎用エンジン:腎エコー・行政改革
  • 特化型エンジン:腎エコー・尿生化学
  • 正解:パクリタキセル療法を週1回
  • 汎用エンジン:パクリキセル両方種類書い
  • 特化型エンジン:パクリタキセル療法を週1回
  • 正解:腫瘤内部へ流入する血流シグナルが検出され
  • 汎用エンジン:主流なイベ流入する血流シグナルが検出され
  • 特化型エンジン:腫瘤内部へ流入する血流シグナルが検出され
  • 正解:テガフールウラシル配合
  • 汎用エンジン:手がHuluらしく配合
  • 特化型エンジン:テガフールウラシル配合

 

全体として、特化型エンジンは専門用語に強いことが分かります。また、汎用エンジンでは、尿生化学→行政改革、のように発音が近い一般的な単語に誤認識していることが分かります。

 

さいごに

今回は、電子カルテへの音声入力のテストセットを使って、汎用エンジンと領域特化型エンジンにどのくらいの性能差があるのか計測してみました。専門的な内容になるほど、領域特化型エンジンの効果は大きくなるので、是非検討していただければ幸いです。

また、領域特化型エンジンは2021年8月現在「医療」「製薬」「保険」「金融」「電子カルテ」などがありますが、「こういう特化型エンジンが欲しい」のようなご意見ご要望があれば是非コメントからいただければと思います。ご対応をお約束はできませんが、新エンジン開発への貴重なご意見とさせていただきます。

この記事を書いた人


  • 安藤章悟

    音声認識の研究をしていたら、近所に音声認識屋を見つけてしまい入社。今に至る。

    趣味は海外旅行と美味しいものを食べることとサウナ。

     

*1:通常の社内評価ではもっと多くの音声を使用しますが、今回は簡易的な実験のため少量のデータで行いました。

*2:ただし、これは私の目視確認によるもののため、どうしても一部表記ゆれによる誤認識が残っている可能性があります。