AmiVoice Techblog

AmiVoiceの音声認識に関する技術情報・活用方法・組み込み方などを発信するアドバンスト・メディアのテックブログです

【初心者向け】EdgeとChromeからAmiVoice APIを実行してみた Webページ編

EdgeとChromeからAmiVoice APIの3種類の音声認識APIを実行するWebページのサンプルとその作り方を紹介します。AmiVoice APIのアカウント作成後、すぐに試せます。

【同じ発話で比較検証】音声入力エンジンと会話エンジンの認識結果の違いとは 

今回は音声入力用エンジンの特徴や合致する利用シーンについて紹介しています。この記事を見れば音声入力用エンジンか会話用エンジンのどちらが適しているかが分かる内容となっています。

ハイブリッド型音声認識とEnd-to-End音声認識の違いと特徴

ハイブリッド型音声認識とEnd-to-End音声認識の違いや特徴について解説します。また、それぞれの特徴をふまえてアドバンスト・メディアで採用している方式について説明します。

精度検証付き!特定用途に特化した音声認識エンジンのご紹介

AmiVoice API Privateにて提供している、人名や住所などに特化した音声認識エンジンについてご紹介します。汎用エンジンと精度を比較した検証も行いました。

AmiVoice API Private・SDKの「ルールグラマ」認識とは?

AmiVoice API Privateで提供している音声認識エンジン「ルールグラマ」について、通常のディクテーション認識との違いや、適した利用シーン、使用するメリット・デメリットなどを解説します。

"会議"の音声でOpenAIのWhisperとAmiVoiceの音声認識率を比較してみた

会議の音声をOpenAIのWhisperとAmiVoiceで音声認識して、それぞれの音声認識精度を比べました。結果としてはAmiVoiceの方が誤認識が大幅に少なく高精度でした。Whisperの誤認識の例など出しながらこの差の要因について解説します。

Windowsアプリにマイク録音を実装してみた。音声認識アプリ開発の第一歩!

C#を用いてWindowsアプリでマイク録音を実装します。 録音した音声をAmiVoice APIを使用して音声認識を行い、ストリーミング処理で認識内容を表示する方法について解説します。

AmiVoice APIで不要語(フィラー)を表示するか除去するか選ぶ方法

AmiVoiceAPIには不要語(フィラー)を自動的に除去する機能があります。しかし音声認識を使う場面によってはフィラーを除去せず表示した方がいいこともあります。今回はフィラーの除去を制御するやり方について解説します。

ステレオ音声ファイルをモノラル音声ファイル×2に変換するやり方

AmiVoice APIはステレオの音声ファイルを音声認識させると片方のチャネルしか認識されない仕様になっています。ステレオ音声ファイルの右チャンネルと左チャンネルに異なる音が入っている場合を想定して、今回はSoXというツールを使ったステレオ音声ファイル…

音声認識処理後の音声データはどこへ行く?

音声認識処理した音声をどのように管理しているか、個人情報などが入っている音声データの場合どのプランを選んだらいいのかなど、AmiVoice APIを検討されるお客様からよく頂くセキュリティに関する質問にお答えします。

OpenAIのWhisperの音声認識率を計測してみた(AmiVoice VS Whisper)

2022年の9月にOpenAIからWhisperという音声認識エンジンが公開されました。このWhisperとAmiVoiceの音声認識精度を比較してみました。

音声認識の仕組みをざっくり解説!

どのように音声を文字にするのか音声認識の仕組みや種類、それぞれの特長や適切なエンジンの選び方を、音声認識の研究に携わっているエンジニアがざっくりと、かつ分かりやすく解説します。

マイク選びが音声認識活用の決め手。マイク利用と発話のポイント

誤認識を防ぎ、認識率を上げるためには、音声認識に適したマイクを選ぶことが大切です。マイクの選び方や利用方法、発話のポイントについてご紹介します。

コンタクトセンターの通話を音声認識で文字化する仕組み SIP編

コンタクトセンターで音声認識を活用し、通話を自動で文字化する仕組みをご紹介します。SIPプロトコルを利用して通話の音声を取得する方法です。

【中級者向け】AmiVoice の単語の読みの自動変換について

日本語では「先生(せんせい)」を時として「せんせー」と発音するケースがあるように、読み仮名と実際の発音が少し変化することがあります。AmiVoiceではその変化に対応するために指定された読みを自動的に変化させていますが、読みを厳密に指定したい時に…

音声認識に必要なサンプリングレートはどのくらいか?

音声認識をする時の最適なサンプリングレートの解説をします。また、AmiVoice APIでのサンプリングレートの扱いについても細かく解説します。

NPCの実現間近!?VRChat 向け音声対話アバター「AIアバターAOI」開発者インタビュー

メタバース空間上での対応を自動化する音声対話アバター「AIアバターAOI」の開発者インタビューです。NPC(ノンプレイヤーキャラクター)が実現するかも!と各所で話題になりました。

AmiVoice APIの単語登録機能で選択可能な「クラス」の解説(汎用エンジン)

AmiVoiceの単語登録では「クラス」を指定することで、より適切な音声認識が出来るようになります。今回はAmiVoice APIで最もよく使われている汎用エンジンの「会話_汎用」と「音声入力_汎用」の2つのエンジンについてどのようなクラスを指定できるかを解説…

【RPA】請求書PDFをPADでテキスト化。JavaScriptと正規表現のハマりポイントも回避。

PADで請求書PDFをテキスト化する方法と、JavaScriptを実行する時のハマりポイントを紹介します!

【Swift】AmiVoice APIとAlamofireでつくる感情解析アプリ

AmiVoice APIを利用して感情解析と音声認識ができるiOSアプリの作り方についてご紹介します。

【OBS】リアルタイム字幕配信の遅延対策してみた時の話

OBSにリアルタイム字幕を付けるためのプラグインをオンラインセミナーでの利用を想定して実際に使ってみたので、どんな感じに仕上がったのかを紹介したいと思います。

AmiVoiceのテレビCMでテックブログのアクセスは増えたのか?

2021年11月末頃にAmiVoiceのテレビCMが放送されました(知ってました?)。テレビCMが放送されるとテックブログのアクセスにどのような影響があるのか調べてみました。

音声認識API 「AmiVoice API」を使ってみよう

ソフトウェア開発のための音声認識APIであるAmiVoiceAPIを使い、音声認識を使ってみる方法について説明します。サンプルプログラムを使って実際に自分の音声で認識結果を表示してみるところまでの手順をまとめました。

7/28(水)、オンラインセミナー「『声に隠れた感情』を可視化する~感情解析活用シーンと音声認識技術の選び方~」を開催

7月28日(水)、AmiVoice Cloud Platform主催のウェビナー「『声に隠れた感情』を可視化する~感情解析活用シーンと音声認識技術の選び方~」を開催します。 人間の感情や気分、気持ちを察する「感情解析」。発話の裏側に隠された感情を可視化する事で、更に幅…

Pythonでマイク入力の音声認識してみた

pythonで音声認識をする方法を記述しました。gitからソースを持ってきて起動できるような簡単なものです。AmiVoiceとpyaudioを使用しています。

非同期HTTP音声認識APIで感情解析が使えるようになりました

2022年6月22日にACPの非同期HTTP音声認識APIで、感情解析が使えるようになりました。利用シーンなどを紹介します。

AmiVoice Cloud Platformのサイトをリニューアルしました!

2022年6月22日にAmiVoice Cloud Platform(ACP)のサイトがリニューアルしました。新しいACPではこれまでのAmiVoice API以外にもいろいろなサービス・開発ツールキットなどを提供していきます。今回はこの新しいACPについて概要を説明します。

【初心者向け】CloudFront経由でファイルをダウンロードしてみた

初心者向けにAWSのCloudFrontの構築方法を書きました。おまけには署名付きURLの作成方法も書かれています。

音声認識における「表記ゆれ」とは?

音声認識では、認識結果と正解文で「表記ゆれ」が起こることがあります。「表記ゆれ」とはどういうものか、実際の音声認識でどの程度起こるのかを中心に解説します。

AmiVoice APIの音声フォーマットのお話

AmiVoice APIでは音声フォーマットを指定する必要があります。この素晴らしく読みやすい記事を読むことにより、あなたは音声認識のフォーマット指定を使いこなすことができるようになるでしょう。