メインコンテンツへスキップ
友田 陽大
音声・ボイスAI
音声合成
生成AI
Qwen
アーキテクチャ設計
コスト効率
技術選定

TTS徹底比較2026:Qwen-TTS / ElevenLabs / OpenAI / Google / Azure を「コスト・多言語・セルフホスト・声の複製・遅延」で選ぶ

音声合成(TTS)API/モデルの選定ガイド。Qwen3-TTS-Flash・ElevenLabs Flash v2.5・OpenAI gpt-4o-mini-tts・Google Chirp 3 HD・Azure Neural/Custom Neural Voice を、料金(文字課金 vs トークン課金)・対応言語・セルフホスト可否・ボイスクローン・遅延・データ所在の6軸で公式情報ベースに比較。要件から逆算する意思決定フレームワークを提示します。

公開日
読了時間
9分
著者
友田 陽大
シェア

「結局、どのTTSを使えばいいのか」——これは案件で最も多い問いの一つです。そして正解は**「要件による」**としか言えません。音声合成は、料金体系も、得意な言語も、声を複製できるかも、自社サーバーで動かせるかも、製品ごとに大きく違うからです。

この記事は、主要TTSを公式情報ベースで横並びにし、要件から逆算して選ぶフレームワークを提示します。題材は私がAI動画ローカライズ基盤で実際にTTSを選定・実装した経験です。Qwen-TTSの詳細はQwen-TTS 本番運用ガイドを参照してください。なお「API利用 vs 自前ホスティング」をコスト・データ主権から意思決定する観点はTTSの自前ホスティング vs ElevenLabs(コスト・データ主権)で扱います。

この記事のルール:仕様・料金は 各社公式ドキュメント(2026年6月時点) に基づく概算です。TTSの料金・モデルは改定が速く、単位(文字/トークン/分)もバラバラです。実際の見積もりは必ず各社の料金ページで、自分のワークロード(言語・文字数・同時数)に当てて計算してください。本記事は「桁感」と「選定軸」を提供するものです。


0. まず6つの選定軸を持つ

TTS選定で効くのは、次の6軸です。製品の優劣ではなく、自分の要件がどの軸に偏っているかを先に決めます。

  1. コスト構造:文字課金か、トークン課金か、分課金か。量とスパイクで最適が変わる。
  2. 多言語・方言:必要な言語をネイティブ品質で出せるか。中国語の方言は?
  3. セルフホスト可否:重みを所有して自社で動かせるか(=データ主権・無制限・固定費)。
  4. 声の複製(ボイスクローン):必要か。必要なら、同意ゲートを設計できるか。
  5. 遅延:対話用途か(最初の音の速さ)、バッチか(速さは二の次)。
  6. データ所在(residency):原稿・声がどの国/事業者に渡るか。規制・社外秘の制約は?

1. 一覧比較(公式情報ベースの概算)

Qwen3-TTSElevenLabsOpenAIGoogleAzure
代表モデルQwen3-TTS-FlashFlash v2.5gpt-4o-mini-ttsChirp 3 HDNeural / Custom Neural Voice
セルフホスト(OSS)Apache-2.0
料金の単位文字文字(クレジット)トークン文字文字
料金の桁感≈ $13 / 100万字≈ $50 / 100万字≈ $15 / 100万字 相当$30 / 100万字$22 / 100万字(Neural HD)
対応言語103250+75+100+
中国語方言9方言
ボイスクローン✅(API/OSS)✅(即時+プロ)❌(公開なし)✅(即時カスタム)✅(承認制
低遅延の目安97ms(OSS公称)~75ms(Flash)初音 ~300–600msストリーミング対応リアルタイム対応
指示制御(話し方)✅ instruct✅(v3のタグ等)✅ instructions✅(スタイル/SSML)

数値はすべて2026年6月時点の公式・公開情報からの概算。料金は単位も前提も違うため、横並びの金額は「桁感」として読んでください(厳密比較は次章)。


2. 料金:単位が違うから「桁感」で捉える

TTSの料金比較で最も誤解を生むのが単位の違いです。

  • 文字課金(Qwen・Google・Azure・ElevenLabsのクレジット):文字数 × 単価。見積もりやすい。
  • トークン課金(OpenAI gpt-4o-mini-tts):入力テキスト $0.60/100万トークン+音声出力 $12/100万トークン。日本語は1文字が複数トークンになり得るので、実測しないと読みにくい(おおむね $0.015/分相当とされる)。

桁感(100万文字あたりの概算):

  • Qwen3-TTS-Flash:最安級(≈ $13)。新規無料枠あり。
  • OpenAI gpt-4o-mini-tts:トークン換算で ≈ $15 相当。
  • Azure Neural HD:$22(2026年3月に$30から値下げ)。
  • Google Chirp 3 HD:$30、月100万字の無料枠。
  • ElevenLabs Flash/Turbo:API で 1文字あたり 0.5〜1クレジット(≈ $50/100万字相当)。品質と声の表現力に振った価格帯。

判断の型:少量〜中量ならどれも「運用ゼロのAPI」で十分安い。大量・常時ならセルフホスト(Qwen OSS)の固定費が効く損益分岐が現れる(→推論コストのTCO設計)。**「まずAPIで検証→量が読めたら見直し」**が定石です。


3. 軸別の勝ち筋

3.1 セルフホスト/データ主権 → Qwen3-TTS(唯一のオープンウェイト)

主要TTSの中でApache-2.0で重みを公開し、自社GPUで動かせるのは Qwen3-TTS だけです。原稿や声を外部事業者に送れない案件(医療・行政・社外秘・タレント契約)では、ここが決定打になります。ElevenLabs・OpenAI・Google・Azure はいずれもホスト型APIで、テキストは事業者に送信されます。

3.2 中国語・方言 → Qwen3-TTS

Qwen は9つの中国語方言(北京・上海・四川・広東・天津・南京・陝西・閩南・普通話)に対応。中華圏向けのローカルCM・エンタメ・キャラクターでは差別化になります。他社も中国語は話せますが、方言の作り込みは Qwen が頭一つ抜けます。

3.3 超多言語の網羅 → Google / Azure

純粋な対応言語数では Azure(100+)・Google(75+) が広い。マイナー言語まで広く薄くカバーしたいなら、この2社が候補。Qwen の10言語・OpenAIの50+・ElevenLabsの32と比べ、ロングテール言語で優位です。

3.4 声の複製の手軽さ → ElevenLabs/同意重視なら Azure・OSS

  • 手軽さ:ElevenLabs は短い音声から即時クローン、高品質なプロ用クローンも。クローン中心の制作なら強い。
  • 同意ゲート重視:**Azure Custom Neural Voice は Microsoft の承認制(限定アクセス)**で、なりすまし対策が制度として組まれている。OSSセルフホストなら同意台帳・開示・来歴を自分で設計できる(→ボイスクローンのガバナンス設計)。エンタープライズの信頼要件では、この「同意の仕組み」が選定理由になります。
  • OpenAI:一般提供のボイスクローンは無し(既製ボイス+instructionsで演出)。なりすましリスクを避けたいなら、むしろ安全側。

3.5 対話の低遅延 → ElevenLabs Flash/Qwen realtime

最初の音の速さは ElevenLabs Flash v2.5(~75ms)Qwen OSS(97ms公称)/Qwen realtime が有力。OpenAIは初音 300–600ms 目安で、対話では一段遅い。リアルタイム音声エージェントの作り込みはQwen-TTS リアルタイム実装ガイドで詳説しています。

3.6 既存エコシステム統合 → OpenAI / 各クラウド

すでに OpenAI(Whisper・GPT)でスタックを組んでいるなら、gpt-4o-mini-tts は同じSDK・課金・instructions で一貫性が高い。AWS中心なら Polly、GCP/Azure 中心なら各社TTSがIAM・課金・監視に乗りやすい。「今あるスタックとの摩擦の少なさ」も立派な選定軸です。


4. 意思決定フレームワーク(要件から逆算)

質問を上から順に当てると、候補が絞れます。

  1. 原稿/声を外部に出せない?YES なら Qwen3-TTS OSS(セルフホスト)。NOなら次へ。
  2. 中国語・方言が主役?YES なら Qwen3-TTS。NOなら次へ。
  3. 実在の人物の声を複製する?YES:同意制度重視なら Azure Custom Neural Voice か OSS、手軽さ重視なら ElevenLabs。NOなら既製ボイスで次へ。
  4. 対話(低遅延)が要件?YES:ElevenLabs Flash / Qwen realtime。**NO(バッチ)**なら次へ。
  5. 超多言語(マイナー言語)?YES:Google / Azure。NOなら次へ。
  6. コスト最優先 & 既存スタックは中立?Qwen3-TTS-Flash(最安級・新規無料枠)。OpenAI中心なら gpt-4o-mini-tts

このフローはあくまで初手の絞り込みです。最終決定は、必ず自分の原稿で各候補を実際に鳴らして(PoC)、品質・遅延・コストを実測してから。**TTSは“耳で選ぶ”**のが鉄則です(数値だけで決めない)。


5. よくある誤解(落とし穴)

  • 「対応言語数が多い=その言語が高品質」ではない:網羅とネイティブ品質は別。必要な言語だけPoCで確認。
  • 「最安=最適」ではない:声の表現力・遅延・運用が要件なら、単価が高くても総合で勝つことがある。
  • トークン課金を文字単価のつもりで見積もると外す:OpenAIは必ずトークンで実測。
  • クローンの“できる”と“やってよい”は別:同意・開示・来歴の設計が無いクローンは事故のもと(ガバナンス設計)。
  • 料金表は古くなる:本記事の数値も含め、発注前に必ず最新の公式料金で再計算

6. まとめ:選定チートシート

  • データを外に出せない/無制限/固定費Qwen3-TTS OSS(唯一のオープンウェイト)。
  • 中国語・方言が主役Qwen3-TTS
  • 超多言語(ロングテール)Google Chirp 3 HD / Azure
  • 声の複製を手軽にElevenLabs同意制度を重視Azure Custom Neural Voice / OSS
  • 対話の低遅延ElevenLabs Flash / Qwen realtime
  • OpenAIスタック統合・コストgpt-4o-mini-tts
  • コスト最優先で中立Qwen3-TTS-Flash(最安級・新規無料枠)。

TTS選定は「製品の優劣」ではなく「要件との適合」を見抜く仕事です。私は多言語吹き替え案件で、品質・遅延・コスト・データ制約を秤にかけてTTSを選定し、本番パイプラインに組み込みました(AI動画ローカライズ基盤)。「自社の要件に最適なTTSを選び、本番に載せる」——ベンダー中立の選定から実装・運用まで伴走します。 要件の整理段階からお気軽にご相談ください。


参考(公式ドキュメント)

友田

友田 陽大

経済産業大臣賞 受賞プロダクト開発者。TypeScript + Python + AWS で、SaaS・業界DX・ 実用レベルの生成AI(RAG)を、要件定義からインフラ・運用まで一人で完遂します。

この記事で解説した技術の適用事例

AI動画ローカライズ・リップシンク基盤(多言語吹き替えでTTSを選定・実装)

ケーススタディを見る