この記事のゴール
「音源を声と伴奏に分けたい」「ドラムだけ抜きたい」——音源分離(Music Source Separation, MSS)を始めようとすると、最初にぶつかるのがツールが多すぎる問題です。Demucs、UVR5、MDX-Net、Spleeter、Open-Unmix……どれも「最先端」を名乗り、ベンチマークの数字を掲げています。
本稿は、これらを横断的に比較し、「あなたの案件ではどれを選ぶべきか」を要件から逆引きできる意思決定フレームワークを提供します。個別ツールの使い方は各専用記事(Demucs / UVR5・MDX-Net)に譲り、本稿は選定の軸に集中します。読み終えたときに、次の3つができる状態を目指します。
- 4大OSS(Demucs / UVR5・MDX-Net / Spleeter / Open-Unmix)の得意・不得意を一言で説明できる。
- 自分の要件(品質・速度・ステム数・予算・運用体制)から、迷わず1つに絞れる。
- 商用案件で訴訟リスクになりかねないライセンスの落とし穴を、事前に潰せる。
筆者について(信頼性の開示):私は、動画をアップロードするだけで「音声分離 → 文字起こし → 翻訳 → 多言語吹き替え → 口元同期」まで全自動化するAI動画ローカライズ基盤を単独で設計・実装し、本番運用しています。その第1段(音声分離)でどのツールを使うかは、後段すべての品質とコストを左右する実際の意思決定でした。本稿の選定軸は、カタログスペックの寄せ集めではなく、実運用でツールを乗り換えながら得た判断基準です。
30秒のまとめ(要件 → 推奨ツール)
| あなたの要件 | 推奨 | 理由 |
|---|---|---|
| drums/bass/vocals/other を最高品質で4分割 | Demucs v4(htdemucs / htdemucs_ft) | 公開モデルでSOTA級(9.0〜9.20 dB SDR) |
| ボーカル/伴奏の2分離が主目的(カラオケ・アカペラ) | UVR5(MDX-Net) | ボーカル/伴奏特化モデルが豊富で消し残りが少ない |
| とにかく高速・大量処理、品質はそこそこ | Spleeter | GPUで実時間の100倍。前処理の下ごしらえに最適 |
| 研究のベースライン・軽量な参照実装 | Open-Unmix(UMX) | 素直なBiLSTM。再現性と可読性が高い |
| 非エンジニアが手作業で使う | UVR5 GUI | ドラッグ&ドロップ。Win/Mac/Linux対応 |
| サーバーで自動化・APIにする | Demucs API / python-audio-separator | コードから3行で呼べる |
| 絶対に最高品質(納品・マスタリング) | Demucs + MDX のアンサンブル | 複数モデルの推定を合成。UVRが実装 |
「個別ツールの導入手順」は各専用記事へ。本稿はこの後、選定の根拠を一段深く掘ります。
4大OSSの全体像(一言ずつ)
まず、各ツールが「何者か」を最短で掴みます。
- Demucs v4(Meta):波形とスペクトログラムの両方を見て、Transformerで橋渡しするハイブリッドモデル。4ステム(+6ステム版でguitar/piano)を高品質に分離する総合力No.1。MITライセンス。→ 詳細
- UVR5(Ultimate Vocal Remover)/ MDX-Net:ボーカル/伴奏の2分離に特化したGUI+モデル群。MDX-Netは周波数領域と時間領域を組み合わせた二段構成で、消し残りの少なさに定評。GUIで誰でも使え、
python-audio-separatorでコード自動化も可能。MITライセンス。→ 詳細 - Spleeter(Deezer):TensorFlow製。2/4/5ステムの事前学習モデルを同梱し、GPUで実時間の約100倍という圧倒的な速さが武器。品質は最新世代に一歩譲るが、大量の下ごしらえには最適。MITライセンス。
- Open-Unmix(UMX, sigsep):PyTorch製の参照実装。3層の双方向LSTMでマスクを推定するシンプルな構造で、研究のベースラインとして広く使われる。軽量で読みやすいが、品質は専用最適化された上記に譲る。
横断比較表
数字は「執筆時点・公式情報ベースの目安」です。SDRは評価条件で変わる相対値なので、最終判断は必ず自分の素材での実測で。
| 観点 | Demucs v4 | UVR5 / MDX-Net | Spleeter | Open-Unmix |
|---|---|---|---|---|
| 開発 | Meta | Anjok07 ほか(OSS) | Deezer | sigsep |
| 方式 | 波形+スペクトル+Transformer | 周波数+時間の二段構成 | CNN(スペクトログラム) | BiLSTM(スペクトログラム) |
| ステム | 4 / 6 | 主に2(Vocals/Inst) | 2 / 4 / 5 | 4 |
| 品質(目安) | 最高(9.0〜9.20 dB) | 高(ボーカル分離が特に強い) | 中(高速優先) | 中(参照実装) |
| 速度 | 中(GPU推奨・CPU可) | 中(GPU推奨) | 最速(GPUで100×実時間) | 速め |
| 導入 | pip install demucs | GUI / pip install audio-separator | pip install spleeter | pip install openunmix |
| GUI | なし(CLI/API) | あり | なし | なし |
| コードのライセンス | MIT | MIT | MIT | MIT |
| 重みのライセンス | MIT | モデル毎に確認 | MIT | UMXLは非商用(CC BY-NC-SA) |
| 向く用途 | 多ステム・総合品質 | ボーカル/伴奏分離 | 大量・高速下ごしらえ | 研究・ベースライン |
要件から選ぶ意思決定フローチャート
「結局どれ」を、質問に答えていくだけで絞れる形にしました。
Q1. 何を分けたい?
├─ ボーカル と 伴奏 の2つだけ(カラオケ・アカペラ・吹替前処理)
│ └─ Q2. エンジニアが自動化する?
│ ├─ NO(手作業でOK) → UVR5 GUI
│ └─ YES(サーバー/CIに組む) → UVR5系を python-audio-separator で
│ / または Demucs --two-stems=vocals
│
└─ drums / bass / vocals / other に4分割(リミックス・耳コピ・教育)
└─ Q3. 品質と速度、どちらを優先?
├─ 品質最優先(納品・主役) → Demucs v4(htdemucs_ft)
├─ バランス重視 → Demucs v4(htdemucs)
└─ 速度・大量最優先 → Spleeter(4stems)で下ごしらえ
→ 採用分だけ Demucs で本処理(二段構え)
※ 研究のベースライン比較が目的 → Open-Unmix
※ 最後の数%まで品質を詰めたい → Demucs + MDX のアンサンブル(UVR)
意思決定の勘所は2つです。
- 「2分離」か「多分離」かで大きく道が分かれる。カラオケ・吹替前処理のように声と伴奏だけ欲しいなら、多ステムモデルはオーバースペック。ボーカル特化のUVR5/MDX-Netか、Demucsの
--two-stems=vocalsで十分。 - 品質と速度はトレードオフ。全曲を最高品質で回すのは無駄が多い。**「Spleeterで全件下ごしらえ → 採用分だけDemucsで本処理」**の二段構えが、品質とコストを両立させる定石です。
商用案件で必ず効く:ライセンスの落とし穴
ここがB2B案件で最も差がつくところです。「OSSだから商用OK」と雑に判断すると、後で足をすくわれます。確認すべきは3層あります。
第1層:コードのライセンス
Demucs・UVR5・Spleeter・Open-Unmix は、いずれもコードはMITライセンスで商用利用に対応します。ここは概ね安全。
第2層:重み(学習済みモデル)のライセンス ← 見落としがち
コードがMITでも、配布される学習済みモデルのライセンスは別です。最も典型的な罠が Open-Unmix の UMXL——高品質版の重みは**非商用ライセンス(CC BY-NC-SA 4.0)**で、商用プロダクトに組み込むと違反になります(商用なら無印 UMX / UMXHQ を選ぶ)。
🔑 シニアの鉄則:音源分離に限らず、AIモデルを商用導入するときは**「コードのライセンス」と「重みのライセンス」を必ず別々に確認**する。READMEのライセンス欄だけでなく、モデル配布ページ(HuggingFace / 各モデルカード)のライセンスまで読む。これを習慣にしているかどうかで、案件の安全性が変わります。
第3層:分離した「音源そのもの」の権利 ← 最重要
ツールが商用OKでも、入力した楽曲の著作権・原盤権は別問題です。市販曲を分離してカラオケ音源やアカペラとして配布・販売する行為は、権利者の許諾が必要。ツールの自由 ≠ 素材の自由。ここは技術ではなく権利処理の問題として、利用者(と発注元)の責任で押さえます。
| 確認すべき層 | Demucs | UVR5 | Spleeter | Open-Unmix |
|---|---|---|---|---|
| コード | MIT ✅ | MIT ✅ | MIT ✅ | MIT ✅ |
| 重み | MIT ✅ | モデル毎に要確認 ⚠️ | MIT ✅ | UMXLは非商用 ❌ |
| 分離した音源 | 常に別途・権利処理が必要 ⚠️ | 同左 | 同左 | 同左 |
ベンチマークの数字を鵜呑みにしない:SDRの罠
「Demucsは9.2 dB、Spleeterは…」というSDR比較を見たら、一歩引いてください。SDR(Signal-to-Distortion Ratio)は、評価データセット・モデルのバージョン・評価方法(フレーム集計の取り方)に強く依存する相対値です。論文Aの9.2 dBと記事Bの数字は、そもそも同じ土俵で測っていないことが珍しくありません。
実務での正しい態度はこうです。
- 公式ベンチは「序列の目安」として使う(Demucs > Spleeter という大小関係は信頼してよい)。
- 最終判断は必ず「自分の素材」で実測する。J-POP・ナレーション・ポッドキャスト・ライブ録音——ジャンルやマイク環境で得意不得意は変わる。
- 実測は耳だけでなく数値で。
museval(BSSEval v4)で SDR/SIR/SAR を出し、候補ツールを同じ素材・同じ指標で並べる。その具体的な手順は音源分離の品質を数値で測る記事にまとめました。
私が案件でツールを選ぶときは、**「公式ベンチで2〜3個に絞り → 顧客の実素材10本でmuseval比較 → 耳でも確認」**という二段階を踏みます。カタログの数字だけで決めると、本番素材で「思ったより消し残る」事故が起きます。
ビルド vs バイ:OSSセルフホスト or 商用API
「そもそも自前で動かすべきか、SaaS APIを使うべきか」も選定の一部です。
| 観点 | OSSセルフホスト(Demucs等) | 商用API / SaaS |
|---|---|---|
| 初期コスト | 環境構築・GPU調達 | ほぼゼロ(即日) |
| 単価 | 大量なら安い(GPUを埋める) | 従量課金が積み上がる |
| データ主権 | 自社内で完結(機密音源も安全) | 外部送信が必要 |
| カスタマイズ | モデル・パラメータを自由に | 提供範囲に依存 |
| 運用負荷 | 自分で見る(本記事群の出番) | 任せられる |
判断の目安:
- 少量・試作・データ機密性が低い → まず商用API or ローカルCLIで品質を確かめる。
- 定常的に大量・データ機密性が高い・単価を下げたい → OSSをセルフホスト。GPUワーカーで回す。その本番設計は音源分離を本番APIにする記事で詳述しています。
一人 × 生成AIで開発を進める私のスタンスは「まずOSSローカルで品質と需要を確かめ、量が見えたらセルフホストのGPUワーカーに載せる」。これが、無駄な固定費を払わず、かつロックインも避ける現実解です。
よくある質問(FAQ)
Q. 結局、最初の1つは何を入れればいい? A. 多ステム分離なら Demucs、ボーカル/伴奏だけなら UVR5。この2つを押さえれば大半の案件はカバーできます。迷ったら Demucs から。
Q. Demucs と UVR5(MDX-Net) はどちらが上? A. 目的次第。drums/bass/other まで欲しい総合力は Demucs、ボーカル/伴奏の消し残りの少なさは MDX-Net 系が強い場面が多い。最高品質を狙うなら両者をアンサンブル(UVRが実装)。
Q. Spleeter はもう古い? A. 品質では最新世代に譲りますが、速度は依然トップクラス。「全件を高速に下ごしらえ → 採用分だけ高品質モデルで本処理」の前段として現役です。
Q. 商用プロダクトに組み込んで大丈夫? A. コードはいずれもMITで概ねOK。ただし**重みのライセンス(特にOpen-Unmix UMXLは非商用)**と、入力楽曲の権利処理を必ず別個に確認してください(ライセンスの章)。
Q. CPUしかありません。 A. 動きます(遅い)。Demucsは約1.5×実時間、Spleeterは比較的軽い。大量ならGPUを推奨しますが、少量検証はCPUで十分です。
Q. ベンチで一番SDRが高いものを選べばいい? A. 危険です。SDRは評価条件依存の相対値。自分の素材でmuseval実測して選ぶのが鉄則です(SDRの罠)。
まとめ:ツール選定は「要件 → 制約 → 実測」の順で
音源分離OSSに「万能の1つ」はありません。だからこそ、選定は感覚ではなくフレームワークで行うべきです。
- 要件:何を分けたいか(2分離 or 多分離)、品質と速度のどちらを優先するか。
- 制約:ライセンス(コード・重み・素材の3層)、予算、運用体制、データ機密性。
- 実測:候補を2〜3に絞り、自分の素材でmuseval比較してから決める。
この順で詰めれば、「とりあえず有名なものを入れて後で後悔」を避けられます。そして——この選定そのものが、外注で価値が出るところです。ツールを動かすだけなら誰でもできますが、要件と制約を読み解いて最適な1つ(または組み合わせ)を選び、ライセンスリスクまで潰すのは、経験がそのまま品質になります。
私は、本稿の選定軸を実際に本番運用しているAI動画ローカライズ基盤で使ってツールを決めてきました。音源分離を含む音声/動画AIの技術選定・PoC・本番化をお考えなら、実績をご覧のうえ、お気軽にご相談ください。一人 × 生成AIで、速く・安く・安全に意思決定から実装まで伴走します。
出典・公式リソース
- Demucs:adefossez/demucs — モデル一覧・SDR・ライセンス(解説記事)
- UVR5 / MDX-Net:Anjok07/ultimatevocalremovergui / MDX-Net 論文 arXiv:2111.12203(解説記事)
- Spleeter:deezer/spleeter — TensorFlow・2/4/5stems・MIT
- Open-Unmix:sigsep/open-unmix-pytorch — UMX/UMXHQ/UMXL(UMXLは非商用ライセンス)
- 評価ツール:sigsep/sigsep-mus-eval(museval) — BSSEval v4(SDR/ISR/SIR/SAR)
※ ライセンス・品質・料金は更新されます。商用利用は必ず一次情報(特に重みのライセンス)を確認してください。本稿の数値は執筆時点の公式情報に基づく目安です。