Skip to main content
友田 陽大

Category

音声・ボイスAI(音声認識 STT / 音声合成 TTS / 音声エージェント)の実装ガイド

音声AIは『耳(STT)→脳(LLM)→口(TTS)』の連鎖で、本番化の勝負どころはモデルの賢さよりも『型安全な境界・回復性・コスト・可観測性・倫理』の設計です。本クラスタは、Whisperによる音声認識、Qwen-TTSによる多言語・方言・クローン対応の音声合成、最初の音までの遅延を縮めるリアルタイム音声エージェント、TTSの選定、そしてアクセシブルな読み上げUIまで——内容ハッシュの冪等キャッシュ・指数バックオフ・生成URLの退避・first_audio_delayの可観測性・ボイスクローンの同意/開示まで、音声を本番で稼がせる設計を扱います。

9 articles in total

Foundational guide

Foundational guide (start here)

音声合成
音声認識
生成AI
Qwen
アーキテクチャ設計

Voice-AI production-implementation guide [2026]: the big picture and tech selection of speech recognition (STT) × speech synthesis (TTS) × voice agents

A big-picture guide to putting voice AI (speech recognition STT, speech synthesis TTS, voice agents) into production. As a map to each deep-dive article, it explains from a practitioner's view the tech selection of each layer — ear (Whisper) → brain (LLM) → mouth (Qwen-TTS) — low-latency design for real-time dialogue, preprocessing (source separation, VAD), idempotent caching, resilience, observability, cost, a11y, and the ethics of voice cloning.

9 min read

Related practical articles