この記事のゴール
「曲から伴奏だけを取り出してカラオケにしたい」「ボーカルだけを抜いてアカペラ・リミックス素材にしたい」「ハモリ(コーラス)を消してリードボーカルだけにしたい」——これらはすべて、UVR5(Ultimate Vocal Remover)+ MDX-Net で実現できます。
本稿は、技術的な深掘りではなく、「初めてでも今日、実際に作れる」実践ガイドです。読み終えたとき、あなたは次ができます。
- 目的(カラオケ / アカペラ / ハモリ除去)に最適なモデルを選べる。
- GUI(手軽)とコード(大量・自動化)の両方で分離を実行できる。
- 音質を上げるコツと、見落としがちな著作権の注意を押さえられる。
筆者について:私は音源分離を第1段に持つ AI動画・音声処理の基盤を単独で設計・実装し、本番運用しています。本稿の「用途別モデル」「音質のコツ」は、実際に大量の音源を処理して検証してきた知見です。技術的な仕組みは UVR5/MDX-Net ガイド、最高音質を狙うなら RoFormer ガイド にまとめています。
30秒のまとめ(目的 → 使うモデル)
| 作りたいもの | 使うモデル(種別) | ひとこと |
|---|---|---|
| カラオケ音源(伴奏だけ) | UVR-MDX-NET-Inst_HQ_3(Inst系) | 伴奏をきれいに残す定番 |
| アカペラ(ボーカルだけ) | Kim_Vocal_2(Vocal系) | 高速・高品質なボーカル抽出 |
| ハモリ/コーラス除去(リード声だけ) | UVR_MDXNET_KARA_2(Karaoke系) | メインとハモリを分ける |
| とにかく最高音質 | model_bs_roformer_ep_317_...(RoFormer) | 重いが現行最高品質 |
| ドラム/ベースまで分けたい | htdemucs(Demucs v4) | 4ステム分離 |
- 手軽に試す → UVR5 GUI(ドラッグ&ドロップ)
- 大量・自動化 →
audio-separator(コード/CLI) - 音質を詰める → wav/flac出力・アンサンブル・客観評価
💡 モデルのファイル名は更新されます。実在は
audio-separator --list_modelsで確認してください。種別の意味とより詳しい選定は選定ガイドに。
まず仕組みを一言で
UVR5 は、1つの曲を 「ボーカル(声)」と「インストゥルメンタル(伴奏)」に分離するツールです。つまり——
- 伴奏(Instrumental)を取り出せば → カラオケ音源
- ボーカル(Vocals)を取り出せば → アカペラ
になります。モデルには「伴奏をきれいに残すのが得意なもの(Inst系)」と「声をきれいに抜くのが得意なもの(Vocal系)」があり、欲しい方に合わせて選ぶのが品質の第一歩です。
作り方A:UVR5 GUI で手軽に(コード不要)
1曲だけ・まず試したいなら、GUI が最短です。
- UVR5 公式リリースから、OS に合うインストーラを入手(Windows / macOS / Linux)。
- 起動し、Process Method で MDX-Net を選択。
- モデルを目的で選ぶ:
- カラオケ →
UVR-MDX-NET-Inst_HQ_3 - アカペラ →
Kim_Vocal_2 - ハモリ除去 →
UVR_MDXNET_KARA_2
- カラオケ →
- 曲ファイルをドラッグ&ドロップし、出力先を指定して Start Processing。
- 出力に
(Instrumental)(伴奏)と(Vocals)(ボーカル)の2ファイルができます。
GUI は手軽ですが、1曲ずつ手作業になります。アルバム一括や定期処理は、次のコード版が圧倒的に速いです。
作り方B:audio-separator で(大量・自動化)
audio-separator(MIT)を使えば、UVR5 と同じモデルをコードや CLI から実行できます。
pip install "audio-separator[gpu]" # GPU。CPU/Macは [cpu]
カラオケ音源(伴奏だけ)
# 伴奏だけ出力(--single_stem Instrumental で片方だけ書き出し)
audio-separator song.wav \
--model_filename UVR-MDX-NET-Inst_HQ_3.onnx \
--single_stem Instrumental \
--output_format flac
アカペラ(ボーカルだけ)
# acapella.py — ボーカルだけを抽出する
from audio_separator.separator import Separator
sep = Separator(output_dir="out", output_format="flac",
output_single_stem="Vocals") # 声だけ書き出し
sep.load_model(model_filename="Kim_Vocal_2.onnx")
print(sep.separate("song.wav")) # -> ボーカルtrack
ハモリ/コーラス除去(リードボーカルだけ)
# ハモリ(コーラス)を分けてメインボーカルを残す
sep = Separator(output_dir="out", output_format="flac")
sep.load_model(model_filename="UVR_MDXNET_KARA_2.onnx")
print(sep.separate("acapella.wav")) # メイン/ハモリに分離
🔧 出力フォーマットは wav か flac(可逆)にしてください。mp3 は劣化します。CLIの既定は FLAC、Pythonライブラリの既定は WAV と異なる点に注意(明示が安全)。
アルバムを一括処理する
「1曲ずつ」は本数が増えると破綻します。フォルダ内の全曲をまとめて処理しましょう。
# batch_karaoke.py — フォルダ内の全曲をカラオケ化(伴奏抽出)
from pathlib import Path
from audio_separator.separator import Separator
sep = Separator(output_dir="karaoke", output_format="flac",
output_single_stem="Instrumental")
sep.load_model(model_filename="UVR-MDX-NET-Inst_HQ_3.onnx") # モデルは一度だけロード
for track in sorted(Path("album").glob("*.wav")):
print("processing:", track.name)
sep.separate(str(track)) # 同じSeparatorを再利用=高速
ポイントは モデルを1回だけロードして使い回すこと(ロードは重い処理)。何百曲でも、これで一晩回せます。本格的な本番スケール(数千曲・キュー駆動)はGPUワーカー基盤の記事に。
音質を上げる5つのコツ
- 目的に合うモデルを選ぶ:カラオケは Inst系、アカペラは Vocal系。逆を使うと品質が落ちます。
- 可逆フォーマットで出す:wav/flac。mp3 は分離後にさらに劣化します。
- 最高音質が要るなら RoFormer:
model_bs_roformer_...は現行最高品質(重い)。詳細はRoFormer ガイド。 - アンサンブル:ボーカル特化と伴奏特化を組み合わせると残留が減ります(時間は増える)。
- 難しい曲は調整:ボーカルが伴奏に残る/伴奏にノイズが乗るときは
segment_size・overlapを見直す。詰まったらトラブルシューティングへ。
「良くなったか」を耳だけで判断せず、数値で確かめると安定します。SDR等での客観評価は品質評価ガイドに。
⚠️ 最重要:著作権の注意
技術的に分離できることと、法的に使ってよいことは別問題です。ここを誤ると、せっかくの作品が削除・トラブルの元になります。
- 市販曲を分離して得たカラオケ音源・アカペラの無断公開・配布は、著作権侵害になり得ます。 自分用(私的利用)の範囲に留めるのが基本です。
- 「歌ってみた」「カバー」を投稿する場合は、各プラットフォーム(YouTube・各種配信サービス等)が結んでいる音楽の利用許諾の範囲を必ず確認してください。原盤(音源そのもの)の利用は、楽曲の権利とは別に原盤権の問題があります。
- 自作曲・許諾済み素材・パブリックドメインなら自由に使えます。
- UVR5 や audio-separator のソフト自体は MIT ライセンスですが、それはあなたが処理する音源の権利とは無関係です。
迷ったら「自分で作った曲か、明確に許諾された素材か」を基準に。商用や公開を伴うなら、権利関係を一次情報で確認してください。
よくある質問(FAQ)
Q. カラオケ音源とアカペラ、モデルは同じでいい?
A. 目的に合わせて変えるのがおすすめです。カラオケ(伴奏)は Inst系(UVR-MDX-NET-Inst_HQ_3)、アカペラ(声)は Vocal系(Kim_Vocal_2)。欲しいステムに最適化されたモデルの方が、そのステムの品質が上がります。
Q. ボーカルが伴奏に少し残ってしまいます。
A. より強力なモデル(RoFormer)を試す、アンサンブルする、overlap を上げる、などが効きます。難しいミックスほど高品質モデルの差が出ます。
Q. ハモリだけ消したい(メインボーカルは残したい)。
A. UVR_MDXNET_KARA_2(Karaoke系)がメインとハモリ/コーラスを分けます。まずアカペラを抽出してから KARA 系にかけると分けやすいです。
Q. GPUがないと無理?
A. CPU でも動きますが遅いです([cpu] 版)。Mac(Apple Silicon)は CUDA 非対応で CPU 実行が基本。大量処理は NVIDIA GPU 環境が快適です。詰まったらトラブルシューティング。
Q. 作ったカラオケ音源をYouTubeに上げていい? A. 市販曲ベースなら要注意です。原盤の無断利用は権利侵害になり得ます。各プラットフォームの音楽利用許諾の範囲を確認し、自作曲・許諾素材で使うのが安全です。
まとめ:目的でモデルを選び、音質と権利を両立する
カラオケ・アカペラ作りは、「目的に合うモデル選び」が9割です。
- カラオケ(伴奏)→ Inst系、アカペラ(声)→ Vocal系、ハモリ除去 → KARA系、最高音質 → RoFormer。
- 手軽は GUI、大量は audio-separator のバッチ。
- wav/flac で出し、必要ならアンサンブル・客観評価で詰める。
- 著作権を必ず確認——自作・許諾素材・私的利用の範囲で。
音源分離を含む音声・動画 AI を、業務として本番品質で組みたい方(自動カラオケ生成、配信向け一括処理など)は、実績とともにご相談ください。一人 × 生成AIで、企画から本番運用まで一気通貫で支援します。
出典・公式リソース
- UVR5 本体:Anjok07/ultimatevocalremovergui
- コードで使うライブラリ:nomadkaraoke/python-audio-separator(MIT) / PyPI
- モデル選定の詳細:本ブログ 音源分離ツールの選び方
- 最高音質モデル:本ブログ BS-RoFormer/Mel-Band RoFormer ガイド
※ モデル名・既定値は更新されます。実在は audio-separator --list_models で確認してください。著作権は国・プラットフォームで扱いが異なります。商用・公開時は必ず一次情報と各サービスの規約を確認してください。