# TTS徹底比較2026：Qwen-TTS / ElevenLabs / OpenAI / Google / Azure を「コスト・多言語・セルフホスト・声の複製・遅延」で選ぶ

> 音声合成（TTS）API/モデルの選定ガイド。Qwen3-TTS-Flash・ElevenLabs Flash v2.5・OpenAI gpt-4o-mini-tts・Google Chirp 3 HD・Azure Neural/Custom Neural Voice を、料金（文字課金 vs トークン課金）・対応言語・セルフホスト可否・ボイスクローン・遅延・データ所在の6軸で公式情報ベースに比較。要件から逆算する意思決定フレームワークを提示します。

- 公開日: 2026-06-25
- 著者: 友田 陽大
- タグ: 音声合成, 生成AI, Qwen, アーキテクチャ設計, コスト効率, 技術選定
- URL: https://tomodahinata.com/blog/qwen-tts-vs-elevenlabs-openai-google-azure-tts-comparison

## 要点

- TTS選定は『どれが最強か』ではなく『要件にどれが合うか』。コスト・多言語・セルフホスト・声の複製・遅延・データ所在の6軸で決める
- 唯一オープンウェイト（Apache-2.0）でセルフホストできるのは Qwen3-TTS。データ主権・無制限・固定費が要件なら一択になる
- 料金は単位が違う（文字 vs トークン vs 分）。概算では Qwen が最安級、ElevenLabsは高め、用途次第で逆転する
- 中国語・方言は Qwen、超多言語は Google/Azure、声の複製の手軽さは ElevenLabs、OpenAIエコシステム統合は gpt-4o-mini-tts が強い
- ボイスクローンの『同意ゲート』を重視するなら Azure Custom Neural Voice（承認制）と OSSセルフホストが設計しやすい

---

「結局、どのTTSを使えばいいのか」——これは案件で最も多い問いの一つです。そして正解は**「要件による」**としか言えません。音声合成は、料金体系も、得意な言語も、声を複製できるかも、自社サーバーで動かせるかも、製品ごとに大きく違うからです。

この記事は、主要TTSを**公式情報ベース**で横並びにし、**要件から逆算して選ぶフレームワーク**を提示します。題材は私が[AI動画ローカライズ基盤](/case-studies/ai-video-localization-lipsync)で実際にTTSを選定・実装した経験です。Qwen-TTSの詳細は[Qwen-TTS 本番運用ガイド](/blog/qwen-tts-qwen3-tts-flash-production-guide)を参照してください。なお「API利用 vs 自前ホスティング」をコスト・データ主権から意思決定する観点は[TTSの自前ホスティング vs ElevenLabs（コスト・データ主権）](/blog/tts-self-hosting-vs-elevenlabs-cost-data-sovereignty-guide)で扱います。

> **この記事のルール**：仕様・料金は **各社公式ドキュメント（2026年6月時点）** に基づく**概算**です。**TTSの料金・モデルは改定が速く、単位（文字／トークン／分）もバラバラ**です。実際の見積もりは必ず各社の料金ページで、自分のワークロード（言語・文字数・同時数）に当てて計算してください。本記事は「桁感」と「選定軸」を提供するものです。

---

## 0. まず6つの選定軸を持つ

TTS選定で効くのは、次の6軸です。製品の優劣ではなく、**自分の要件がどの軸に偏っているか**を先に決めます。

1. **コスト構造**：文字課金か、トークン課金か、分課金か。量とスパイクで最適が変わる。
2. **多言語・方言**：必要な言語をネイティブ品質で出せるか。中国語の方言は？
3. **セルフホスト可否**：重みを所有して自社で動かせるか（＝データ主権・無制限・固定費）。
4. **声の複製（ボイスクローン）**：必要か。必要なら、同意ゲートを設計できるか。
5. **遅延**：対話用途か（最初の音の速さ）、バッチか（速さは二の次）。
6. **データ所在（residency）**：原稿・声がどの国/事業者に渡るか。規制・社外秘の制約は？

---

## 1. 一覧比較（公式情報ベースの概算）

| | **Qwen3-TTS** | **ElevenLabs** | **OpenAI** | **Google** | **Azure** |
| --- | --- | --- | --- | --- | --- |
| 代表モデル | Qwen3-TTS-Flash | Flash v2.5 | gpt-4o-mini-tts | Chirp 3 HD | Neural / Custom Neural Voice |
| セルフホスト（OSS） | ✅ **Apache-2.0** | ❌ | ❌ | ❌ | ❌ |
| 料金の単位 | 文字 | 文字（クレジット） | **トークン** | 文字 | 文字 |
| 料金の桁感 | ≈ $13 / 100万字 | ≈ $50 / 100万字 | ≈ $15 / 100万字 相当 | $30 / 100万字 | $22 / 100万字（Neural HD） |
| 対応言語 | 10 | 32 | 50+ | 75+ | 100+ |
| 中国語方言 | ✅ **9方言** | △ | △ | △ | △ |
| ボイスクローン | ✅（API/OSS） | ✅（即時＋プロ） | ❌（公開なし） | ✅（即時カスタム） | ✅（**承認制**） |
| 低遅延の目安 | 97ms（OSS公称） | **~75ms**（Flash） | 初音 ~300–600ms | ストリーミング対応 | リアルタイム対応 |
| 指示制御（話し方） | ✅ instruct | ✅（v3のタグ等） | ✅ instructions | △ | ✅（スタイル/SSML） |

> 数値はすべて2026年6月時点の公式・公開情報からの**概算**。料金は単位も前提も違うため、横並びの金額は「桁感」として読んでください（厳密比較は次章）。

---

## 2. 料金：単位が違うから「桁感」で捉える

TTSの料金比較で最も誤解を生むのが**単位の違い**です。

- **文字課金**（Qwen・Google・Azure・ElevenLabsのクレジット）：`文字数 × 単価`。見積もりやすい。
- **トークン課金**（OpenAI `gpt-4o-mini-tts`）：入力テキスト $0.60/100万トークン＋**音声出力 $12/100万トークン**。日本語は1文字が複数トークンになり得るので、**実測しないと読みにくい**（おおむね $0.015/分相当とされる）。

桁感（100万文字あたりの概算）：

- **Qwen3-TTS-Flash**：最安級（≈ $13）。新規無料枠あり。
- **OpenAI gpt-4o-mini-tts**：トークン換算で ≈ $15 相当。
- **Azure Neural HD**：$22（2026年3月に$30から値下げ）。
- **Google Chirp 3 HD**：$30、月100万字の無料枠。
- **ElevenLabs Flash/Turbo**：API で 1文字あたり 0.5〜1クレジット（≈ $50/100万字相当）。品質と声の表現力に振った価格帯。

**判断の型**：少量〜中量ならどれも「運用ゼロのAPI」で十分安い。**大量・常時**ならセルフホスト（Qwen OSS）の固定費が効く損益分岐が現れる（→[推論コストのTCO設計](/blog/llama-inference-cost-optimization-self-host-vs-api)）。**「まずAPIで検証→量が読めたら見直し」**が定石です。

---

## 3. 軸別の勝ち筋

### 3.1 セルフホスト／データ主権 → Qwen3-TTS（唯一のオープンウェイト）

主要TTSの中で**Apache-2.0で重みを公開し、自社GPUで動かせるのは Qwen3-TTS だけ**です。原稿や声を外部事業者に送れない案件（医療・行政・社外秘・タレント契約）では、ここが決定打になります。ElevenLabs・OpenAI・Google・Azure はいずれもホスト型APIで、**テキストは事業者に送信**されます。

### 3.2 中国語・方言 → Qwen3-TTS

Qwen は**9つの中国語方言**（北京・上海・四川・広東・天津・南京・陝西・閩南・普通話）に対応。中華圏向けのローカルCM・エンタメ・キャラクターでは差別化になります。他社も中国語は話せますが、方言の作り込みは Qwen が頭一つ抜けます。

### 3.3 超多言語の網羅 → Google / Azure

純粋な対応言語数では **Azure（100+）・Google（75+）** が広い。マイナー言語まで広く薄くカバーしたいなら、この2社が候補。Qwen の10言語・OpenAIの50+・ElevenLabsの32と比べ、ロングテール言語で優位です。

### 3.4 声の複製の手軽さ → ElevenLabs／同意重視なら Azure・OSS

- **手軽さ**：ElevenLabs は短い音声から即時クローン、高品質なプロ用クローンも。クローン中心の制作なら強い。
- **同意ゲート重視**：**Azure Custom Neural Voice は Microsoft の承認制（限定アクセス）**で、なりすまし対策が制度として組まれている。**OSSセルフホストなら同意台帳・開示・来歴を自分で設計できる**（→[ボイスクローンのガバナンス設計](/blog/qwen-tts-voice-cloning-self-hosting-consent-governance-guide)）。エンタープライズの信頼要件では、この「同意の仕組み」が選定理由になります。
- **OpenAI**：一般提供のボイスクローンは無し（既製ボイス＋instructionsで演出）。なりすましリスクを避けたいなら、むしろ安全側。

### 3.5 対話の低遅延 → ElevenLabs Flash／Qwen realtime

最初の音の速さは **ElevenLabs Flash v2.5（~75ms）** と **Qwen OSS（97ms公称）／Qwen realtime** が有力。OpenAIは初音 300–600ms 目安で、対話では一段遅い。リアルタイム音声エージェントの作り込みは[Qwen-TTS リアルタイム実装ガイド](/blog/qwen-tts-realtime-voice-agent-websocket-streaming-guide)で詳説しています。

### 3.6 既存エコシステム統合 → OpenAI / 各クラウド

すでに OpenAI（Whisper・GPT）でスタックを組んでいるなら、`gpt-4o-mini-tts` は同じSDK・課金・`instructions` で一貫性が高い。AWS中心なら Polly、GCP/Azure 中心なら各社TTSがIAM・課金・監視に乗りやすい。**「今あるスタックとの摩擦の少なさ」も立派な選定軸**です。

---

## 4. 意思決定フレームワーク（要件から逆算）

質問を上から順に当てると、候補が絞れます。

1. **原稿/声を外部に出せない？** → **YES なら Qwen3-TTS OSS（セルフホスト）**。NOなら次へ。
2. **中国語・方言が主役？** → **YES なら Qwen3-TTS**。NOなら次へ。
3. **実在の人物の声を複製する？** → **YES**：同意制度重視なら Azure Custom Neural Voice か OSS、手軽さ重視なら ElevenLabs。**NO**なら既製ボイスで次へ。
4. **対話（低遅延）が要件？** → **YES**：ElevenLabs Flash / Qwen realtime。**NO（バッチ）**なら次へ。
5. **超多言語（マイナー言語）？** → **YES**：Google / Azure。**NO**なら次へ。
6. **コスト最優先 & 既存スタックは中立？** → **Qwen3-TTS-Flash**（最安級・新規無料枠）。OpenAI中心なら `gpt-4o-mini-tts`。

> このフローはあくまで**初手の絞り込み**です。最終決定は、必ず**自分の原稿で各候補を実際に鳴らして（PoC）**、品質・遅延・コストを実測してから。**TTSは“耳で選ぶ”**のが鉄則です（数値だけで決めない）。

---

## 5. よくある誤解（落とし穴）

- **「対応言語数が多い＝その言語が高品質」ではない**：網羅とネイティブ品質は別。必要な言語だけPoCで確認。
- **「最安＝最適」ではない**：声の表現力・遅延・運用が要件なら、単価が高くても総合で勝つことがある。
- **トークン課金を文字単価のつもりで見積もると外す**：OpenAIは必ずトークンで実測。
- **クローンの“できる”と“やってよい”は別**：同意・開示・来歴の設計が無いクローンは事故のもと（[ガバナンス設計](/blog/qwen-tts-voice-cloning-self-hosting-consent-governance-guide)）。
- **料金表は古くなる**：本記事の数値も含め、**発注前に必ず最新の公式料金で再計算**。

---

## 6. まとめ：選定チートシート

- **データを外に出せない／無制限／固定費**：**Qwen3-TTS OSS**（唯一のオープンウェイト）。
- **中国語・方言が主役**：**Qwen3-TTS**。
- **超多言語（ロングテール）**：**Google Chirp 3 HD / Azure**。
- **声の複製を手軽に**：**ElevenLabs**。**同意制度を重視**：**Azure Custom Neural Voice / OSS**。
- **対話の低遅延**：**ElevenLabs Flash / Qwen realtime**。
- **OpenAIスタック統合・コスト**：**gpt-4o-mini-tts**。
- **コスト最優先で中立**：**Qwen3-TTS-Flash**（最安級・新規無料枠）。

TTS選定は「製品の優劣」ではなく「要件との適合」を見抜く仕事です。私は多言語吹き替え案件で、品質・遅延・コスト・データ制約を秤にかけてTTSを選定し、本番パイプラインに組み込みました（[AI動画ローカライズ基盤](/case-studies/ai-video-localization-lipsync)）。**「自社の要件に最適なTTSを選び、本番に載せる」——ベンダー中立の選定から実装・運用まで伴走します。** 要件の整理段階からお気軽にご相談ください。

---

### 参考（公式ドキュメント）

- [Qwen-TTS（Alibaba Cloud Model Studio）](https://www.alibabacloud.com/help/en/model-studio/qwen-tts) / [QwenLM/Qwen3-TTS（GitHub）](https://github.com/QwenLM/Qwen3-TTS)
- [ElevenLabs Models](https://elevenlabs.io/docs/overview/models) / [Pricing](https://elevenlabs.io/pricing/api)
- [OpenAI gpt-4o-mini-tts](https://platform.openai.com/docs/models/gpt-4o-mini-tts) / [Text to Speech ガイド](https://developers.openai.com/api/docs/guides/text-to-speech)
- [Google Cloud Text-to-Speech: Chirp 3 HD](https://docs.cloud.google.com/text-to-speech/docs/chirp3-hd) / [料金](https://cloud.google.com/text-to-speech/pricing)
- [Azure AI Speech 料金](https://azure.microsoft.com/en-us/pricing/details/speech/)
