2023-01-01から1年間の記事一覧
EdgeとChromeからAmiVoice APIの3種類の音声認識APIを実行するWebページのサンプルとその作り方を紹介します。AmiVoice APIのアカウント作成後、すぐに試せます。
今回は音声入力用エンジンの特徴や合致する利用シーンについて紹介しています。この記事を見れば音声入力用エンジンか会話用エンジンのどちらが適しているかが分かる内容となっています。
ハイブリッド型音声認識とEnd-to-End音声認識の違いや特徴について解説します。また、それぞれの特徴をふまえてアドバンスト・メディアで採用している方式について説明します。
AmiVoice API Privateにて提供している、人名や住所などに特化した音声認識エンジンについてご紹介します。汎用エンジンと精度を比較した検証も行いました。
AmiVoice API Privateで提供している音声認識エンジン「ルールグラマ」について、通常のディクテーション認識との違いや、適した利用シーン、使用するメリット・デメリットなどを解説します。
会議の音声をOpenAIのWhisperとAmiVoiceで音声認識して、それぞれの音声認識精度を比べました。結果としてはAmiVoiceの方が誤認識が大幅に少なく高精度でした。Whisperの誤認識の例など出しながらこの差の要因について解説します。
C#を用いてWindowsアプリでマイク録音を実装します。 録音した音声をAmiVoice APIを使用して音声認識を行い、ストリーミング処理で認識内容を表示する方法について解説します。
AmiVoiceAPIには不要語(フィラー)を自動的に除去する機能があります。しかし音声認識を使う場面によってはフィラーを除去せず表示した方がいいこともあります。今回はフィラーの除去を制御するやり方について解説します。
AmiVoice APIはステレオの音声ファイルを音声認識させると片方のチャネルしか認識されない仕様になっています。ステレオ音声ファイルの右チャンネルと左チャンネルに異なる音が入っている場合を想定して、今回はSoXというツールを使ったステレオ音声ファイル…
音声認識処理した音声をどのように管理しているか、個人情報などが入っている音声データの場合どのプランを選んだらいいのかなど、AmiVoice APIを検討されるお客様からよく頂くセキュリティに関する質問にお答えします。
2022年の9月にOpenAIからWhisperという音声認識エンジンが公開されました。このWhisperとAmiVoiceの音声認識精度を比較してみました。
どのように音声を文字にするのか音声認識の仕組みや種類、それぞれの特長や適切なエンジンの選び方を、音声認識の研究に携わっているエンジニアがざっくりと、かつ分かりやすく解説します。
誤認識を防ぎ、認識率を上げるためには、音声認識に適したマイクを選ぶことが大切です。マイクの選び方や利用方法、発話のポイントについてご紹介します。
コンタクトセンターで音声認識を活用し、通話を自動で文字化する仕組みをご紹介します。SIPプロトコルを利用して通話の音声を取得する方法です。