AmiVoice Techblog

AmiVoiceの音声認識に関する技術情報・活用方法・組み込み方などを発信するアドバンスト・メディアのテックブログです

2022-01-01から1年間の記事一覧

【中級者向け】AmiVoice の単語の読みの自動変換について

日本語では「先生(せんせい)」を時として「せんせー」と発音するケースがあるように、読み仮名と実際の発音が少し変化することがあります。AmiVoiceではその変化に対応するために指定された読みを自動的に変化させていますが、読みを厳密に指定したい時に…

音声認識に必要なサンプリングレートはどのくらいか?

音声認識をする時の最適なサンプリングレートの解説をします。また、AmiVoice APIでのサンプリングレートの扱いについても細かく解説します。

NPCの実現間近!?VRChat 向け音声対話アバター「AIアバターAOI」開発者インタビュー

メタバース空間上での対応を自動化する音声対話アバター「AIアバターAOI」の開発者インタビューです。NPC(ノンプレイヤーキャラクター)が実現するかも!と各所で話題になりました。

AmiVoice APIの単語登録機能で選択可能な「クラス」の解説(汎用エンジン)

AmiVoiceの単語登録では「クラス」を指定することで、より適切な音声認識が出来るようになります。今回はAmiVoice APIで最もよく使われている汎用エンジンの「会話_汎用」と「音声入力_汎用」の2つのエンジンについてどのようなクラスを指定できるかを解説…

【RPA】請求書PDFをPADでテキスト化。JavaScriptと正規表現のハマりポイントも回避。

PADで請求書PDFをテキスト化する方法と、JavaScriptを実行する時のハマりポイントを紹介します!

【Swift】AmiVoice APIとAlamofireでつくる感情解析アプリ

AmiVoice APIを利用して感情解析と音声認識ができるiOSアプリの作り方についてご紹介します。

【OBS】リアルタイム字幕配信の遅延対策してみた時の話

OBSにリアルタイム字幕を付けるためのプラグインをオンラインセミナーでの利用を想定して実際に使ってみたので、どんな感じに仕上がったのかを紹介したいと思います。

AmiVoiceのテレビCMでテックブログのアクセスは増えたのか?

2021年11月末頃にAmiVoiceのテレビCMが放送されました(知ってました?)。テレビCMが放送されるとテックブログのアクセスにどのような影響があるのか調べてみました。

音声認識API 「AmiVoice API」を使ってみよう

ソフトウェア開発のための音声認識APIであるAmiVoiceAPIを使い、音声認識を使ってみる方法について説明します。サンプルプログラムを使って実際に自分の音声で認識結果を表示してみるところまでの手順をまとめました。

7/28(水)、オンラインセミナー「『声に隠れた感情』を可視化する~感情解析活用シーンと音声認識技術の選び方~」を開催

7月28日(水)、AmiVoice Cloud Platform主催のウェビナー「『声に隠れた感情』を可視化する~感情解析活用シーンと音声認識技術の選び方~」を開催します。 人間の感情や気分、気持ちを察する「感情解析」。発話の裏側に隠された感情を可視化する事で、更に幅…

Pythonでマイク入力の音声認識してみた

pythonで音声認識をする方法を記述しました。gitからソースを持ってきて起動できるような簡単なものです。AmiVoiceとpyaudioを使用しています。

非同期HTTP音声認識APIで感情解析が使えるようになりました

2022年6月22日にACPの非同期HTTP音声認識APIで、感情解析が使えるようになりました。利用シーンなどを紹介します。

AmiVoice Cloud Platformのサイトをリニューアルしました!

2022年6月22日にAmiVoice Cloud Platform(ACP)のサイトがリニューアルしました。新しいACPではこれまでのAmiVoice API以外にもいろいろなサービス・開発ツールキットなどを提供していきます。今回はこの新しいACPについて概要を説明します。

【初心者向け】CloudFront経由でファイルをダウンロードしてみた

初心者向けにAWSのCloudFrontの構築方法を書きました。おまけには署名付きURLの作成方法も書かれています。

音声認識における「表記ゆれ」とは?

音声認識では、認識結果と正解文で「表記ゆれ」が起こることがあります。「表記ゆれ」とはどういうものか、実際の音声認識でどの程度起こるのかを中心に解説します。

AmiVoice APIの音声フォーマットのお話

AmiVoice APIでは音声フォーマットを指定する必要があります。この素晴らしく読みやすい記事を読むことにより、あなたは音声認識のフォーマット指定を使いこなすことができるようになるでしょう。

開設1周年!音声認識テックブログはどの位見られているのか?

AmiVoiceテックブログは2022年3月で1周年を迎えました。今回はこの1年間でアクセス数がどう変化してきたかを見てみました。

AmiVoice Cloud Platformの認識結果に表示される「confidence(信頼度)」とは?

AmiVoice Cloud Platform(ACP)の認識結果に表示される「confidence(信頼度)」について、その活用例とともに紹介します。

【小ネタ】最速!?音声認識の体感速度を上げる裏技!!

AmiVoice Cloud Platformの体感認識速度を向上させる方法を解説しています。お客さんに出すアプリで音声認識を使うときはUイベントを使っていきましょう。

音声認識率がマイナス(負)になる場合とは?

誤りが多いと音声認識精度は下がりますが、その最小値はいくつなのでしょうか?実は認識精度は0%どころか、マイナスになる場合もあります。そのような例と、それに関連した「誰の声を音声認識したいのか」という視点を紹介します。

AmiVoiceで音声ファイルや動画ファイルから字幕をかんたんに作る方法

AmiVoice Cloud Platformを使って音声ファイルや動画ファイルから字幕を簡単に作るツールのご紹介です。コミュニケーション支援・会話の見える化アプリを開発している Shamrock Records, Inc. さんが開発・公開してくれたものです。

【HttpClient】C#でAmiVoiceの話者ダイアライゼーションを利用する方法

弊社のAmiVocie Cloud Platformの非同期HTTP音声認識APIにおける話者ダイアライゼーションをC#のHttpClientで実装する方法についてご紹介します。

AmiVoice APIで話者ダイアライゼーションが使えるようになりました

音声認識APIで使える話者ダイアライゼーション (Speaker Diarization)の解説です。複数人が話している音声に対して、話者ごとに発話区間を推定する機能です。利用方法や精度向上のヒントを説明します。

Apple WatchでAmiVoiceの非同期APIを試してみた

この記事では、非同期HTTP音声認識APIを利用してバッチ認識ができるWatchOSアプリのご紹介をします。

音声認識されない単語は単語登録!AmiVoiceの単語登録のコツ

音声認識を使っていて、喋った単語がうまく認識されない経験は多くの方にあると思います。AmiVoiceではそういう時のために単語登録機能があります。今回はAmiVoiceの単語登録機能について、仕組みやコツなどを詳しく説明します。音声認識ならではのクセを理…