安藤章悟
みなさま、こんにちは。
以前の記事で、AmiVoiceの汎用エンジンと領域特化型エンジンの音声認識精度(音声認識率)の比較をしたところ、AmiVoice VS Google が気になるというご意見を多方面から頂きました。
というわけで、今回は AmiVoice Cloud Platform と Google Speech to Text の音声認識率を比較してみました。
以前の記事はこちらです。
音声認識精度計測の条件
下記の条件で比較しました。
- 病院やクリニックなどのお客さまからご提供頂いた電子カルテのデータ(個人情報や顧客情報その他重要な情報は含みません)をベースに原稿を作成し、その原稿を当社スタッフが読み上げた音声を使用しました。*1*2
- 上記の原稿・音声は音声認識エンジンの学習には使っておりません。
- 計測に使用した音声データ量は2933発話、音声区間長約2時間40分です。
- 話者数は男性13名・女性17名です。話者ごとに発話内容は異なります。
- 音声認識エンジンは、AmiVoice Cloud Platform の「音声入力_汎用」「音声入力_電子カルテ」、Google Speech to Textの「default」の3種類を使用しました。設定値などはすべてデフォルトを使用しています。
- 表記ゆれによる誤認識については、目視でチェックし修正を行いました。*3
- フィラー(不要語)は正解文および音声認識結果から除去して計算するものとしました。*4
- 音声中に句読点を「てん」や「まる」と発話している箇所がありますが、そこは音声認識精度の計測に含めません。*5
- 2021年3月~4月頃に実験をしました。AmiVoiceは(おそらくGoogleも)日々改善しているので、現在は同一の結果にはならない可能性があることをご了承ください。
音声認識精度の計算方法は下記の記事で扱っています。
AmiVoiceとGoogleの音声認識精度比較結果
結果は下記となりました。
■音声認識精度
エンジン | 音声認識精度 |
---|---|
AmiVoice(音声入力_電子カルテ) | 97.33% |
AmiVoice(音声入力_汎用) | 84.63% |
Google(default) | 87.19% |
結果はAmiVoice(音声入力_電子カルテ)の圧勝でした。電子カルテ入力の音声なので当然といえば当然ですが、かなり大きな差が出ることが分かります。
せっかくですので、エラー率でも比較してみましょう。エラー率というのは誤認識がどのくらいの割合で含まれるかの値で、下記で計算されます。
エラー率 = 1 - 認識精度
詳しくはこちらの記事でも説明しています。
エラー率は下記となりました。
■エラー率
エンジン | エラー率 |
---|---|
AmiVoice(音声入力_電子カルテ) | 2.67% |
AmiVoice(音声入力_汎用) | 15.37% |
Google(default) | 12.81% |
エラー率で見ると、AmiVoice(音声入力_電子カルテ)は、AmiVoice(音声入力_汎用)やGoogleに比べてエラー(誤認識)がおよそ1/5程度しか発生していないということが分かります。それだけ大きな性能差があるということです。
音声認識結果の詳細
さて、それでは次に音声認識結果の詳細をいくつかピックアップして見ていきましょう。例えば、下記のような、電子カルテならではの専門用語が多く含まれる文章ではAmiVoice(音声入力_電子カルテ)の性能が発揮されていることが分かります。
- 正解文
「今後霧視や充血などの症状が出現しましたら再診してください」 - AmiVoice(音声入力_電子カルテ):音声認識精度100.00%
「今後霧視や充血などの症状が出現しましたら再診してください」 - AmiVoice(音声入力_汎用):音声認識精度96.43%
「今後虫や充血などの症状が出現しましたら再診してください」 - Google(default):音声認識精度78.57%
「今後無視しや充血などの症状が失言しましたら最新してください」
また、汎用用途である「AmiVoice(音声入力_汎用)」と「Google(default)」の2つの音声認識精度を比べると若干Googleの方が良い結果となりました。どうやらGoogleはある程度医療業界の専門用語にも対応しているようで、例えば下記ではGoogleは「臼歯部(きゅうしぶ)」「舌側(ぜっそく)」などの歯科用語を正しく音声認識していることが分かります。
- 正解文
「下顎の臼歯部舌側において」 - AmiVoice(音声入力_電子カルテ):音声認識精度100.00%
「下顎の臼歯部舌側において」 - AmiVoice(音声入力_汎用):音声認識精度50.00%
「科学の旧支部部喘息において」 - Google(default):音声認識精度83.33%
「科学の臼歯部舌側において」
AmiVoiceにはさまざまな領域特化エンジンがあり*6、エンジンごとに得意とする領域を分担することによって高い音声認識精度を実現しています。
例えばAmiVoiceの「音声入力_電子カルテ」のエンジンは電子カルテの領域を得意としていますが、その代わりに「音声入力_汎用」エンジンでは電子カルテに関するデータはあえて学習していないため電子カルテの領域には弱いです。電子カルテの入力には専用のエンジンを使ってね、というスタンスです。
一方Googleは、これはあくまで私の想像ですが、1つの巨大なエンジンにさまざまなデータを学習していると思われますので、電子カルテに関係するデータも学習しているだろうと思います。表にするとこうなります。
エンジン | 電子カルテのデータ | 日常会話等の さまざまなデータ |
---|---|---|
AmiVoice (音声入力_電子カルテ) |
学習している | 学習していない |
AmiVoice (音声入力_汎用) |
学習していない | 学習している |
Google (default) |
学習している | 学習している |
Googleは単一のエンジンで広い範囲をカバーしていると思われますが、そのせいで余計な単語の出現や誤認識の原因になる場合もあると考えられます。
ちなみに、AmiVoiceの「音声入力_電子カルテ」と「音声入力_汎用」は学習データが全く異なるものですが、下記のようなどちらでも使われそうな(境界に位置するような)内容は、どちらのエンジンでも問題なく音声認識できます。
- 正解文
「ランニング訓練では介助が不要となり見守りにて行えるようになってきている」 - AmiVoice(音声入力_電子カルテ):音声認識精度100.00%
「ランニング訓練では介助が不要となり見守りにて行えるようになってきている」 - AmiVoice(音声入力_汎用):音声認識精度100.00%
「ランニング訓練では介助が不要となり見守りにて行えるようになってきている」 - Google(default):音声認識精度94.29%
「ランニング訓練では解除が不要となり見守りにて行えるようになってきている」
さいごに
今回は、電子カルテのテストセット(弊社スタッフによるダミーデータ)を使い、AmiVoice(音声入力_電子カルテ)、AmiVoice(音声入力_汎用)、Google(default)の3つの音声認識精度の比較を行いました。
結果はAmiVoice(音声入力_電子カルテ)が他を大きく引き離して勝利、次いでGoogle(default)、AmiVoice(音声入力_汎用)の順番になりました。
今回の実験はあくまで、電子カルテの入力音声に限った場合の精度比較です。音声認識エンジンには得手不得手、適材適所がありますので、用途に応じて最適なものを選択することが重要になります。
AmiVoiceの領域特化型エンジンには2021年9月現在「医療」「製薬」「保険」「金融」「電子カルテ」などがありますが、「こういう特化型エンジンが欲しい」のようなご意見ご要望があれば是非コメントからいただければと思います。ご対応をお約束はできませんが、新エンジン開発への貴重なご意見とさせていただきます。
おまけ:おもしろ誤認識コレクション
今回、電子カルテをテーマとして音声認識精度を計測しましたが、専門用語が多く登場するせいか、おかしな誤認識がたくさん出て来ました。
せっかくですのでいくつかご紹介しましょう*7。
エンジン | 音声認識結果 |
---|---|
正解文 | 鈍痛を自覚している |
Google(default) | Don ' t You を自覚している |
「どんちゅー」じゃなくて「どんつー」です。
エンジン | 音声認識結果 |
---|---|
正解文 | 下顎前歯は唇側傾斜を示す |
Google(default) | 覚醒シヴァ神速傾斜を示す |
神速の覚醒シヴァ・・強そう。
エンジン | 音声認識結果 |
---|---|
正解文 | 根面は歯石も多量に付着してます |
AmiVoice(音声入力_汎用) | こんばんは歯石も多量に付着してます |
突然の挨拶。
エンジン | 音声認識結果 |
---|---|
正解文 | 咬合支持に参加している歯には |
AmiVoice(音声入力_汎用) | 神々しい時に参加している埴輪 |
よくわからない場面が出てきたのでイラストにしてみました。
神々しい時に参加している埴輪のイラスト
見上げた空、雲間に光差す神聖な時に参加している埴輪のイラストです。
*1:音声認識精度計測用のデータ(テストセット)は、なるべく現場で使用されたリアルなものが好ましいため、お客さまからご提供頂いたデータをお客さまの承諾のもと計測に使用するケースもあります。今回の実験ではGoogleの音声認識精度を計測するためにGoogleのサーバーへデータを送信する必要がありますが、このお客さまのデータを送信するわけにはいかないため、ダミー原稿を作成の上、当社スタッフが発話したダミーのデータを使用しました。なお、当社スタッフによる発話音声の場合、お客さまによるご利用音声よりも認識精度が高く計測されることが多いです。(当社スタッフは音声認識しやすい喋り方が身に染みてしまっているのかもしれません)。この点ご了承ください。
*2:今回の計測用データでは、後に例として出てきますが、歯科・眼科・リハビリテーションなどさまざまな診療科のデータを対象に計測をしています。AmiVoice Cloud Platformの「音声入力_電子カルテ」エンジンはこれらさまざまな診療科の内容に広く対応しておりますが、当社製品であるAmiVoice Ex7では診療科ごとにさらに細分化した専用のエンジンを搭載しております。2021年9月現在、AmiVoice Cloud Platformではこの診療科別に細分化されたエンジンを使用することはできませんが、もしもご興味等がございましたらAmiVoice Cloud Platformのお問い合わせフォームからお問い合わせください。
*3:ただし、どうしても人手作業のため抜けやミス等が残る可能性があります。そのため今回計測された音声認識精度は実際の値よりも若干低い数値である可能性があります。
*4:ただしフィラー発話を意味あるものとして認識してしまった誤認識は挿入誤りとして減点対象としました
*5:「てん」「まる」という発話が句読点として認識されたものや、「点」「丸」などのように変換されたものは計測から除外しましたが、「てん」や「まる」の発話が単語やフレーズの一部として認識されてしまった誤認識については判別が難しいため減点対象としました
*6:AmiVoice Cloud Platformで公開しているものはAmiVoiceが持つ領域特化エンジンのごく一部で、他にもさまざまな種類のエンジンがあります
*7:こういった誤認識が少しでも減るように私どもは日々努力しております。これからも頑張って参ります。