「結局、どのTTSを使えばいいのか」——これは案件で最も多い問いの一つです。そして正解は**「要件による」**としか言えません。音声合成は、料金体系も、得意な言語も、声を複製できるかも、自社サーバーで動かせるかも、製品ごとに大きく違うからです。
この記事は、主要TTSを公式情報ベースで横並びにし、要件から逆算して選ぶフレームワークを提示します。題材は私がAI動画ローカライズ基盤で実際にTTSを選定・実装した経験です。Qwen-TTSの詳細はQwen-TTS 本番運用ガイドを参照してください。なお「API利用 vs 自前ホスティング」をコスト・データ主権から意思決定する観点はTTSの自前ホスティング vs ElevenLabs(コスト・データ主権)で扱います。
この記事のルール:仕様・料金は 各社公式ドキュメント(2026年6月時点) に基づく概算です。TTSの料金・モデルは改定が速く、単位(文字/トークン/分)もバラバラです。実際の見積もりは必ず各社の料金ページで、自分のワークロード(言語・文字数・同時数)に当てて計算してください。本記事は「桁感」と「選定軸」を提供するものです。
0. まず6つの選定軸を持つ
TTS選定で効くのは、次の6軸です。製品の優劣ではなく、自分の要件がどの軸に偏っているかを先に決めます。
- コスト構造:文字課金か、トークン課金か、分課金か。量とスパイクで最適が変わる。
- 多言語・方言:必要な言語をネイティブ品質で出せるか。中国語の方言は?
- セルフホスト可否:重みを所有して自社で動かせるか(=データ主権・無制限・固定費)。
- 声の複製(ボイスクローン):必要か。必要なら、同意ゲートを設計できるか。
- 遅延:対話用途か(最初の音の速さ)、バッチか(速さは二の次)。
- データ所在(residency):原稿・声がどの国/事業者に渡るか。規制・社外秘の制約は?
1. 一覧比較(公式情報ベースの概算)
| Qwen3-TTS | ElevenLabs | OpenAI | Azure | ||
|---|---|---|---|---|---|
| 代表モデル | Qwen3-TTS-Flash | Flash v2.5 | gpt-4o-mini-tts | Chirp 3 HD | Neural / Custom Neural Voice |
| セルフホスト(OSS) | ✅ Apache-2.0 | ❌ | ❌ | ❌ | ❌ |
| 料金の単位 | 文字 | 文字(クレジット) | トークン | 文字 | 文字 |
| 料金の桁感 | ≈ $13 / 100万字 | ≈ $50 / 100万字 | ≈ $15 / 100万字 相当 | $30 / 100万字 | $22 / 100万字(Neural HD) |
| 対応言語 | 10 | 32 | 50+ | 75+ | 100+ |
| 中国語方言 | ✅ 9方言 | △ | △ | △ | △ |
| ボイスクローン | ✅(API/OSS) | ✅(即時+プロ) | ❌(公開なし) | ✅(即時カスタム) | ✅(承認制) |
| 低遅延の目安 | 97ms(OSS公称) | ~75ms(Flash) | 初音 ~300–600ms | ストリーミング対応 | リアルタイム対応 |
| 指示制御(話し方) | ✅ instruct | ✅(v3のタグ等) | ✅ instructions | △ | ✅(スタイル/SSML) |
数値はすべて2026年6月時点の公式・公開情報からの概算。料金は単位も前提も違うため、横並びの金額は「桁感」として読んでください(厳密比較は次章)。
2. 料金:単位が違うから「桁感」で捉える
TTSの料金比較で最も誤解を生むのが単位の違いです。
- 文字課金(Qwen・Google・Azure・ElevenLabsのクレジット):
文字数 × 単価。見積もりやすい。 - トークン課金(OpenAI
gpt-4o-mini-tts):入力テキスト $0.60/100万トークン+音声出力 $12/100万トークン。日本語は1文字が複数トークンになり得るので、実測しないと読みにくい(おおむね $0.015/分相当とされる)。
桁感(100万文字あたりの概算):
- Qwen3-TTS-Flash:最安級(≈ $13)。新規無料枠あり。
- OpenAI gpt-4o-mini-tts:トークン換算で ≈ $15 相当。
- Azure Neural HD:$22(2026年3月に$30から値下げ)。
- Google Chirp 3 HD:$30、月100万字の無料枠。
- ElevenLabs Flash/Turbo:API で 1文字あたり 0.5〜1クレジット(≈ $50/100万字相当)。品質と声の表現力に振った価格帯。
判断の型:少量〜中量ならどれも「運用ゼロのAPI」で十分安い。大量・常時ならセルフホスト(Qwen OSS)の固定費が効く損益分岐が現れる(→推論コストのTCO設計)。**「まずAPIで検証→量が読めたら見直し」**が定石です。
3. 軸別の勝ち筋
3.1 セルフホスト/データ主権 → Qwen3-TTS(唯一のオープンウェイト)
主要TTSの中でApache-2.0で重みを公開し、自社GPUで動かせるのは Qwen3-TTS だけです。原稿や声を外部事業者に送れない案件(医療・行政・社外秘・タレント契約)では、ここが決定打になります。ElevenLabs・OpenAI・Google・Azure はいずれもホスト型APIで、テキストは事業者に送信されます。
3.2 中国語・方言 → Qwen3-TTS
Qwen は9つの中国語方言(北京・上海・四川・広東・天津・南京・陝西・閩南・普通話)に対応。中華圏向けのローカルCM・エンタメ・キャラクターでは差別化になります。他社も中国語は話せますが、方言の作り込みは Qwen が頭一つ抜けます。
3.3 超多言語の網羅 → Google / Azure
純粋な対応言語数では Azure(100+)・Google(75+) が広い。マイナー言語まで広く薄くカバーしたいなら、この2社が候補。Qwen の10言語・OpenAIの50+・ElevenLabsの32と比べ、ロングテール言語で優位です。
3.4 声の複製の手軽さ → ElevenLabs/同意重視なら Azure・OSS
- 手軽さ:ElevenLabs は短い音声から即時クローン、高品質なプロ用クローンも。クローン中心の制作なら強い。
- 同意ゲート重視:**Azure Custom Neural Voice は Microsoft の承認制(限定アクセス)**で、なりすまし対策が制度として組まれている。OSSセルフホストなら同意台帳・開示・来歴を自分で設計できる(→ボイスクローンのガバナンス設計)。エンタープライズの信頼要件では、この「同意の仕組み」が選定理由になります。
- OpenAI:一般提供のボイスクローンは無し(既製ボイス+instructionsで演出)。なりすましリスクを避けたいなら、むしろ安全側。
3.5 対話の低遅延 → ElevenLabs Flash/Qwen realtime
最初の音の速さは ElevenLabs Flash v2.5(~75ms) と Qwen OSS(97ms公称)/Qwen realtime が有力。OpenAIは初音 300–600ms 目安で、対話では一段遅い。リアルタイム音声エージェントの作り込みはQwen-TTS リアルタイム実装ガイドで詳説しています。
3.6 既存エコシステム統合 → OpenAI / 各クラウド
すでに OpenAI(Whisper・GPT)でスタックを組んでいるなら、gpt-4o-mini-tts は同じSDK・課金・instructions で一貫性が高い。AWS中心なら Polly、GCP/Azure 中心なら各社TTSがIAM・課金・監視に乗りやすい。「今あるスタックとの摩擦の少なさ」も立派な選定軸です。
4. 意思決定フレームワーク(要件から逆算)
質問を上から順に当てると、候補が絞れます。
- 原稿/声を外部に出せない? → YES なら Qwen3-TTS OSS(セルフホスト)。NOなら次へ。
- 中国語・方言が主役? → YES なら Qwen3-TTS。NOなら次へ。
- 実在の人物の声を複製する? → YES:同意制度重視なら Azure Custom Neural Voice か OSS、手軽さ重視なら ElevenLabs。NOなら既製ボイスで次へ。
- 対話(低遅延)が要件? → YES:ElevenLabs Flash / Qwen realtime。**NO(バッチ)**なら次へ。
- 超多言語(マイナー言語)? → YES:Google / Azure。NOなら次へ。
- コスト最優先 & 既存スタックは中立? → Qwen3-TTS-Flash(最安級・新規無料枠)。OpenAI中心なら
gpt-4o-mini-tts。
このフローはあくまで初手の絞り込みです。最終決定は、必ず自分の原稿で各候補を実際に鳴らして(PoC)、品質・遅延・コストを実測してから。**TTSは“耳で選ぶ”**のが鉄則です(数値だけで決めない)。
5. よくある誤解(落とし穴)
- 「対応言語数が多い=その言語が高品質」ではない:網羅とネイティブ品質は別。必要な言語だけPoCで確認。
- 「最安=最適」ではない:声の表現力・遅延・運用が要件なら、単価が高くても総合で勝つことがある。
- トークン課金を文字単価のつもりで見積もると外す:OpenAIは必ずトークンで実測。
- クローンの“できる”と“やってよい”は別:同意・開示・来歴の設計が無いクローンは事故のもと(ガバナンス設計)。
- 料金表は古くなる:本記事の数値も含め、発注前に必ず最新の公式料金で再計算。
6. まとめ:選定チートシート
- データを外に出せない/無制限/固定費:Qwen3-TTS OSS(唯一のオープンウェイト)。
- 中国語・方言が主役:Qwen3-TTS。
- 超多言語(ロングテール):Google Chirp 3 HD / Azure。
- 声の複製を手軽に:ElevenLabs。同意制度を重視:Azure Custom Neural Voice / OSS。
- 対話の低遅延:ElevenLabs Flash / Qwen realtime。
- OpenAIスタック統合・コスト:gpt-4o-mini-tts。
- コスト最優先で中立:Qwen3-TTS-Flash(最安級・新規無料枠)。
TTS選定は「製品の優劣」ではなく「要件との適合」を見抜く仕事です。私は多言語吹き替え案件で、品質・遅延・コスト・データ制約を秤にかけてTTSを選定し、本番パイプラインに組み込みました(AI動画ローカライズ基盤)。「自社の要件に最適なTTSを選び、本番に載せる」——ベンダー中立の選定から実装・運用まで伴走します。 要件の整理段階からお気軽にご相談ください。