HTML
音声認識技術 - HTML
音声認識技術(ASR: Automatic Speech Recognition)は、人間の音声をコンピュータが認識し、テキストデータに変換する技術です。深層学習や大規模言語モデルの発展により、精度が飛躍的に向上し、Siri、Google Assistant、Alexaなどの音声アシスタントや、コールセンターでの文字起こし、医療現場でのカルテ作成、自動車のハンズフリー操作など、幅広い分野で活用されています。2025年現在、リアルタイム翻訳や感情認識、マルチモーダル対話など、より高度な機能が実現されています。
音声認識
ASR
AI
音声アシスタント
Siri
Google Assistant
Alexa
自然言語処理
深層学習
スマートスピーカー
<table>
<thead><tr><th>code</th><th>slug</th><th>name</th><th>description</th><th>examples</th></tr></thead>
<tbody><tr><td>01</td><td>virtual-assistant</td><td>音声アシスタント</td><td>音声対話型のAIアシスタントです。</td><td>["Siri","Google Assistant","Amazon Alexa","Cortana","Bixby"]</td></tr>
<tr><td>02</td><td>speech-to-text</td><td>音声文字起こし(STT)</td><td>音声をテキストに変換する技術です。</td><td>["OpenAI Whisper","Google Cloud Speech-to-Text","IBM Watson STT","Azure Speech Services","Nuance Dragon"]</td></tr>
<tr><td>03</td><td>voice-biometrics</td><td>音声生体認証</td><td>声紋による個人認証技術です。</td><td>["Nuance Voice Biometrics","Pindrop","Verint","Auraya","Phonexia"]</td></tr>
<tr><td>04</td><td>real-time-translation</td><td>リアルタイム音声翻訳</td><td>音声を即座に別言語に翻訳する技術です。</td><td>["Google Translate","Microsoft Translator","Pocketalk","ili","Langogo"]</td></tr>
<tr><td>05</td><td>command-control</td><td>音声コマンド制御</td><td>音声による機器操作技術です。</td><td>["Smart Home Control","In-Car Voice Control","TV Voice Remote","Industrial Voice Control","Accessibility Tools"]</td></tr>
<tr><td>06</td><td>emotion-recognition</td><td>音声感情認識</td><td>音声から感情を検出する技術です。</td><td>["Beyond Verbal","Cogito","Empath"," audEERING","Vokaturi"]</td></tr>
<tr><td>07</td><td>speaker-recognition</td><td>話者識別</td><td>複数の話者を識別・分離する技術です。</td><td>["Google Cloud Speaker Diarization","AWS Transcribe","Rev.ai","AssemblyAI","Deepgram"]</td></tr>
<tr><td>08</td><td>wake-word-detection</td><td>ウェイクワード検出</td><td>特定の起動詞を検出する技術です。</td><td>["Porcupine","Snowboy","Amazon Alexa Wake Word","Google Hotword","Sensory TrulyHandsfree"]</td></tr></tbody>
</table>