TTS徹底比較2026：Qwen-TTS / ElevenLabs / OpenAI / Google / Azure を「コスト・多言語・セルフホスト・声の複製・遅延」で選ぶ

「結局、どのTTSを使えばいいのか」——これは案件で最も多い問いの一つです。そして正解は**「要件による」**としか言えません。音声合成は、料金体系も、得意な言語も、声を複製できるかも、自社サーバーで動かせるかも、製品ごとに大きく違うからです。

この記事は、主要TTSを公式情報ベースで横並びにし、要件から逆算して選ぶフレームワークを提示します。題材は私がAI動画ローカライズ基盤で実際にTTSを選定・実装した経験です。Qwen-TTSの詳細はQwen-TTS 本番運用ガイドを参照してください。なお「API利用 vs 自前ホスティング」をコスト・データ主権から意思決定する観点はTTSの自前ホスティング vs ElevenLabs（コスト・データ主権）で扱います。

この記事のルール：仕様・料金は 各社公式ドキュメント（2026年6月時点） に基づく概算です。TTSの料金・モデルは改定が速く、単位（文字／トークン／分）もバラバラです。実際の見積もりは必ず各社の料金ページで、自分のワークロード（言語・文字数・同時数）に当てて計算してください。本記事は「桁感」と「選定軸」を提供するものです。

0. まず6つの選定軸を持つ

TTS選定で効くのは、次の6軸です。製品の優劣ではなく、自分の要件がどの軸に偏っているかを先に決めます。

コスト構造：文字課金か、トークン課金か、分課金か。量とスパイクで最適が変わる。
多言語・方言：必要な言語をネイティブ品質で出せるか。中国語の方言は？
セルフホスト可否：重みを所有して自社で動かせるか（＝データ主権・無制限・固定費）。
声の複製（ボイスクローン）：必要か。必要なら、同意ゲートを設計できるか。
遅延：対話用途か（最初の音の速さ）、バッチか（速さは二の次）。
データ所在（residency）：原稿・声がどの国/事業者に渡るか。規制・社外秘の制約は？

1. 一覧比較（公式情報ベースの概算）

	Qwen3-TTS	ElevenLabs	OpenAI	Google	Azure
代表モデル	Qwen3-TTS-Flash	Flash v2.5	gpt-4o-mini-tts	Chirp 3 HD	Neural / Custom Neural Voice
セルフホスト（OSS）	✅ Apache-2.0	❌	❌	❌	❌
料金の単位	文字	文字（クレジット）	トークン	文字	文字
料金の桁感	≈ $13 / 100万字	≈ $50 / 100万字	≈ $15 / 100万字相当	$30 / 100万字	$22 / 100万字（Neural HD）
対応言語	10	32	50+	75+	100+
中国語方言	✅ 9方言	△	△	△	△
ボイスクローン	✅（API/OSS）	✅（即時＋プロ）	❌（公開なし）	✅（即時カスタム）	✅（承認制）
低遅延の目安	97ms（OSS公称）	~75ms（Flash）	初音 ~300–600ms	ストリーミング対応	リアルタイム対応
指示制御（話し方）	✅ instruct	✅（v3のタグ等）	✅ instructions	△	✅（スタイル/SSML）

数値はすべて2026年6月時点の公式・公開情報からの概算。料金は単位も前提も違うため、横並びの金額は「桁感」として読んでください（厳密比較は次章）。

2. 料金：単位が違うから「桁感」で捉える

TTSの料金比較で最も誤解を生むのが単位の違いです。

文字課金（Qwen・Google・Azure・ElevenLabsのクレジット）：文字数 × 単価。見積もりやすい。
トークン課金（OpenAI gpt-4o-mini-tts）：入力テキスト $0.60/100万トークン＋音声出力 $12/100万トークン。日本語は1文字が複数トークンになり得るので、実測しないと読みにくい（おおむね $0.015/分相当とされる）。

桁感（100万文字あたりの概算）：

Qwen3-TTS-Flash：最安級（≈ $13）。新規無料枠あり。
OpenAI gpt-4o-mini-tts：トークン換算で ≈ $15 相当。
Azure Neural HD：$22（2026年3月に$30から値下げ）。
Google Chirp 3 HD：$30、月100万字の無料枠。
ElevenLabs Flash/Turbo：API で 1文字あたり 0.5〜1クレジット（≈ $50/100万字相当）。品質と声の表現力に振った価格帯。

判断の型：少量〜中量ならどれも「運用ゼロのAPI」で十分安い。大量・常時ならセルフホスト（Qwen OSS）の固定費が効く損益分岐が現れる（→推論コストのTCO設計）。**「まずAPIで検証→量が読めたら見直し」**が定石です。

3. 軸別の勝ち筋

3.1 セルフホスト／データ主権 → Qwen3-TTS（唯一のオープンウェイト）

主要TTSの中でApache-2.0で重みを公開し、自社GPUで動かせるのは Qwen3-TTS だけです。原稿や声を外部事業者に送れない案件（医療・行政・社外秘・タレント契約）では、ここが決定打になります。ElevenLabs・OpenAI・Google・Azure はいずれもホスト型APIで、テキストは事業者に送信されます。

3.2 中国語・方言 → Qwen3-TTS

Qwen は9つの中国語方言（北京・上海・四川・広東・天津・南京・陝西・閩南・普通話）に対応。中華圏向けのローカルCM・エンタメ・キャラクターでは差別化になります。他社も中国語は話せますが、方言の作り込みは Qwen が頭一つ抜けます。

3.3 超多言語の網羅 → Google / Azure

純粋な対応言語数では Azure（100+）・Google（75+） が広い。マイナー言語まで広く薄くカバーしたいなら、この2社が候補。Qwen の10言語・OpenAIの50+・ElevenLabsの32と比べ、ロングテール言語で優位です。

3.4 声の複製の手軽さ → ElevenLabs／同意重視なら Azure・OSS

手軽さ：ElevenLabs は短い音声から即時クローン、高品質なプロ用クローンも。クローン中心の制作なら強い。
同意ゲート重視：**Azure Custom Neural Voice は Microsoft の承認制（限定アクセス）**で、なりすまし対策が制度として組まれている。OSSセルフホストなら同意台帳・開示・来歴を自分で設計できる（→ボイスクローンのガバナンス設計）。エンタープライズの信頼要件では、この「同意の仕組み」が選定理由になります。
OpenAI：一般提供のボイスクローンは無し（既製ボイス＋instructionsで演出）。なりすましリスクを避けたいなら、むしろ安全側。

3.5 対話の低遅延 → ElevenLabs Flash／Qwen realtime

最初の音の速さは ElevenLabs Flash v2.5（~75ms） と Qwen OSS（97ms公称）／Qwen realtime が有力。OpenAIは初音 300–600ms 目安で、対話では一段遅い。リアルタイム音声エージェントの作り込みはQwen-TTS リアルタイム実装ガイドで詳説しています。

3.6 既存エコシステム統合 → OpenAI / 各クラウド

すでに OpenAI（Whisper・GPT）でスタックを組んでいるなら、gpt-4o-mini-tts は同じSDK・課金・instructions で一貫性が高い。AWS中心なら Polly、GCP/Azure 中心なら各社TTSがIAM・課金・監視に乗りやすい。「今あるスタックとの摩擦の少なさ」も立派な選定軸です。

4. 意思決定フレームワーク（要件から逆算）

質問を上から順に当てると、候補が絞れます。

原稿/声を外部に出せない？ → YES なら Qwen3-TTS OSS（セルフホスト）。NOなら次へ。
中国語・方言が主役？ → YES なら Qwen3-TTS。NOなら次へ。
実在の人物の声を複製する？ → YES：同意制度重視なら Azure Custom Neural Voice か OSS、手軽さ重視なら ElevenLabs。NOなら既製ボイスで次へ。
対話（低遅延）が要件？ → YES：ElevenLabs Flash / Qwen realtime。**NO（バッチ）**なら次へ。
超多言語（マイナー言語）？ → YES：Google / Azure。NOなら次へ。
コスト最優先 & 既存スタックは中立？ → Qwen3-TTS-Flash（最安級・新規無料枠）。OpenAI中心なら gpt-4o-mini-tts。

このフローはあくまで初手の絞り込みです。最終決定は、必ず自分の原稿で各候補を実際に鳴らして（PoC）、品質・遅延・コストを実測してから。**TTSは“耳で選ぶ”**のが鉄則です（数値だけで決めない）。

5. よくある誤解（落とし穴）

「対応言語数が多い＝その言語が高品質」ではない：網羅とネイティブ品質は別。必要な言語だけPoCで確認。
「最安＝最適」ではない：声の表現力・遅延・運用が要件なら、単価が高くても総合で勝つことがある。
トークン課金を文字単価のつもりで見積もると外す：OpenAIは必ずトークンで実測。
クローンの“できる”と“やってよい”は別：同意・開示・来歴の設計が無いクローンは事故のもと（ガバナンス設計）。
料金表は古くなる：本記事の数値も含め、発注前に必ず最新の公式料金で再計算。

6. まとめ：選定チートシート

データを外に出せない／無制限／固定費：Qwen3-TTS OSS（唯一のオープンウェイト）。
中国語・方言が主役：Qwen3-TTS。
超多言語（ロングテール）：Google Chirp 3 HD / Azure。
声の複製を手軽に：ElevenLabs。同意制度を重視：Azure Custom Neural Voice / OSS。
対話の低遅延：ElevenLabs Flash / Qwen realtime。
OpenAIスタック統合・コスト：gpt-4o-mini-tts。
コスト最優先で中立：Qwen3-TTS-Flash（最安級・新規無料枠）。

TTS選定は「製品の優劣」ではなく「要件との適合」を見抜く仕事です。私は多言語吹き替え案件で、品質・遅延・コスト・データ制約を秤にかけてTTSを選定し、本番パイプラインに組み込みました（AI動画ローカライズ基盤）。「自社の要件に最適なTTSを選び、本番に載せる」——ベンダー中立の選定から実装・運用まで伴走します。 要件の整理段階からお気軽にご相談ください。

TTS徹底比較2026：Qwen-TTS / ElevenLabs / OpenAI / Google / Azure を「コスト・多言語・セルフホスト・声の複製・遅延」で選ぶ

0. まず6つの選定軸を持つ

1. 一覧比較（公式情報ベースの概算）

2. 料金：単位が違うから「桁感」で捉える

3. 軸別の勝ち筋

3.1 セルフホスト／データ主権 → Qwen3-TTS（唯一のオープンウェイト）

3.2 中国語・方言 → Qwen3-TTS

3.3 超多言語の網羅 → Google / Azure

3.4 声の複製の手軽さ → ElevenLabs／同意重視なら Azure・OSS

3.5 対話の低遅延 → ElevenLabs Flash／Qwen realtime

3.6 既存エコシステム統合 → OpenAI / 各クラウド

4. 意思決定フレームワーク（要件から逆算）

5. よくある誤解（落とし穴）

6. まとめ：選定チートシート

参考（公式ドキュメント）

音声AI 本番実装ガイド【2026】：音声認識(STT)×音声合成(TTS)×音声エージェントの全体像と技術選定

Next.js × Qwen-TTS：アクセシブルな「記事読み上げ」プレイヤーを本番品質で実装する（WCAG 2.2・型安全・キャッシュ）

Qwen-TTS / Qwen3-TTS-Flash 本番運用ガイド：49音色・10言語・中国語方言・ボイスクローンを DashScope API と OSS で使い分ける音声合成設計

Qwen-TTS リアルタイム音声エージェント実装ガイド：WebSocketストリーミング・ブラウザ再生・バージイン（割り込み）まで

0. まず6つの選定軸を持つ

1. 一覧比較（公式情報ベースの概算）

2. 料金：単位が違うから「桁感」で捉える

3. 軸別の勝ち筋

3.1 セルフホスト／データ主権 → Qwen3-TTS（唯一のオープンウェイト）

3.2 中国語・方言 → Qwen3-TTS

3.3 超多言語の網羅 → Google / Azure

3.4 声の複製の手軽さ → ElevenLabs／同意重視なら Azure・OSS

3.5 対話の低遅延 → ElevenLabs Flash／Qwen realtime

3.6 既存エコシステム統合 → OpenAI / 各クラウド

4. 意思決定フレームワーク（要件から逆算）

5. よくある誤解（落とし穴）

6. まとめ：選定チートシート

参考（公式ドキュメント）

関連記事

音声AI 本番実装ガイド【2026】：音声認識(STT)×音声合成(TTS)×音声エージェントの全体像と技術選定

Next.js × Qwen-TTS：アクセシブルな「記事読み上げ」プレイヤーを本番品質で実装する（WCAG 2.2・型安全・キャッシュ）

Qwen-TTS / Qwen3-TTS-Flash 本番運用ガイド：49音色・10言語・中国語方言・ボイスクローンを DashScope API と OSS で使い分ける音声合成設計

Qwen-TTS リアルタイム音声エージェント実装ガイド：WebSocketストリーミング・ブラウザ再生・バージイン（割り込み）まで