UVR5でカラオケ音源・アカペラを作る完全ガイド：伴奏抽出/ボーカル抽出/ハモリ除去

この記事のゴール

「曲から伴奏だけを取り出してカラオケにしたい」「ボーカルだけを抜いてアカペラ・リミックス素材にしたい」「ハモリ（コーラス）を消してリードボーカルだけにしたい」——これらはすべて、UVR5（Ultimate Vocal Remover）+ MDX-Net で実現できます。

本稿は、技術的な深掘りではなく、「初めてでも今日、実際に作れる」実践ガイドです。読み終えたとき、あなたは次ができます。

目的（カラオケ / アカペラ / ハモリ除去）に最適なモデルを選べる。
GUI（手軽）とコード（大量・自動化）の両方で分離を実行できる。
音質を上げるコツと、見落としがちな著作権の注意を押さえられる。

筆者について：私は音源分離を第1段に持つ AI動画・音声処理の基盤を単独で設計・実装し、本番運用しています。本稿の「用途別モデル」「音質のコツ」は、実際に大量の音源を処理して検証してきた知見です。技術的な仕組みは UVR5/MDX-Net ガイド、最高音質を狙うなら RoFormer ガイドにまとめています。

30秒のまとめ（目的 → 使うモデル）

作りたいもの	使うモデル（種別）	ひとこと
カラオケ音源（伴奏だけ）	`UVR-MDX-NET-Inst_HQ_3`（Inst系）	伴奏をきれいに残す定番
アカペラ（ボーカルだけ）	`Kim_Vocal_2`（Vocal系）	高速・高品質なボーカル抽出
ハモリ/コーラス除去（リード声だけ）	`UVR_MDXNET_KARA_2`（Karaoke系）	メインとハモリを分ける
とにかく最高音質	`model_bs_roformer_ep_317_...`（RoFormer）	重いが現行最高品質
ドラム/ベースまで分けたい	`htdemucs`（Demucs v4）	4ステム分離

手軽に試す → UVR5 GUI（ドラッグ&ドロップ）
大量・自動化 → audio-separator（コード/CLI）
音質を詰める → wav/flac出力・アンサンブル・客観評価

💡 モデルのファイル名は更新されます。実在は audio-separator --list_models で確認してください。種別の意味とより詳しい選定は選定ガイドに。

まず仕組みを一言で

UVR5 は、1つの曲を 「ボーカル（声）」と「インストゥルメンタル（伴奏）」に分離するツールです。つまり——

伴奏（Instrumental）を取り出せば → カラオケ音源
ボーカル（Vocals）を取り出せば → アカペラ

になります。モデルには「伴奏をきれいに残すのが得意なもの（Inst系）」と「声をきれいに抜くのが得意なもの（Vocal系）」があり、欲しい方に合わせて選ぶのが品質の第一歩です。

作り方A：UVR5 GUI で手軽に（コード不要）

1曲だけ・まず試したいなら、GUI が最短です。

UVR5 公式リリースから、OS に合うインストーラを入手（Windows / macOS / Linux）。
起動し、Process Method で MDX-Net を選択。
モデルを目的で選ぶ：
- カラオケ → UVR-MDX-NET-Inst_HQ_3
- アカペラ → Kim_Vocal_2
- ハモリ除去 → UVR_MDXNET_KARA_2
曲ファイルをドラッグ&ドロップし、出力先を指定して Start Processing。
出力に (Instrumental)（伴奏）と (Vocals)（ボーカル）の2ファイルができます。

GUI は手軽ですが、1曲ずつ手作業になります。アルバム一括や定期処理は、次のコード版が圧倒的に速いです。

作り方B：audio-separator で（大量・自動化）

audio-separator（MIT）を使えば、UVR5 と同じモデルをコードや CLI から実行できます。

pip install "audio-separator[gpu]"   # GPU。CPU/Macは [cpu]

カラオケ音源（伴奏だけ）

# 伴奏だけ出力（--single_stem Instrumental で片方だけ書き出し）
audio-separator song.wav \
  --model_filename UVR-MDX-NET-Inst_HQ_3.onnx \
  --single_stem Instrumental \
  --output_format flac

アカペラ（ボーカルだけ）

# acapella.py — ボーカルだけを抽出する
from audio_separator.separator import Separator

sep = Separator(output_dir="out", output_format="flac",
                output_single_stem="Vocals")   # 声だけ書き出し
sep.load_model(model_filename="Kim_Vocal_2.onnx")
print(sep.separate("song.wav"))                # -> ボーカルtrack

ハモリ/コーラス除去（リードボーカルだけ）

# ハモリ(コーラス)を分けてメインボーカルを残す
sep = Separator(output_dir="out", output_format="flac")
sep.load_model(model_filename="UVR_MDXNET_KARA_2.onnx")
print(sep.separate("acapella.wav"))   # メイン/ハモリに分離

🔧 出力フォーマットは wav か flac（可逆）にしてください。mp3 は劣化します。CLIの既定は FLAC、Pythonライブラリの既定は WAV と異なる点に注意（明示が安全）。

アルバムを一括処理する

「1曲ずつ」は本数が増えると破綻します。フォルダ内の全曲をまとめて処理しましょう。

# batch_karaoke.py — フォルダ内の全曲をカラオケ化（伴奏抽出）
from pathlib import Path
from audio_separator.separator import Separator

sep = Separator(output_dir="karaoke", output_format="flac",
                output_single_stem="Instrumental")
sep.load_model(model_filename="UVR-MDX-NET-Inst_HQ_3.onnx")  # モデルは一度だけロード

for track in sorted(Path("album").glob("*.wav")):
    print("processing:", track.name)
    sep.separate(str(track))      # 同じSeparatorを再利用＝高速

ポイントは モデルを1回だけロードして使い回すこと（ロードは重い処理）。何百曲でも、これで一晩回せます。本格的な本番スケール（数千曲・キュー駆動）はGPUワーカー基盤の記事に。

音質を上げる5つのコツ

目的に合うモデルを選ぶ：カラオケは Inst系、アカペラは Vocal系。逆を使うと品質が落ちます。
可逆フォーマットで出す：wav/flac。mp3 は分離後にさらに劣化します。
最高音質が要るなら RoFormer：model_bs_roformer_... は現行最高品質（重い）。詳細はRoFormer ガイド。
アンサンブル：ボーカル特化と伴奏特化を組み合わせると残留が減ります（時間は増える）。
難しい曲は調整：ボーカルが伴奏に残る/伴奏にノイズが乗るときは segment_size・overlap を見直す。詰まったらトラブルシューティングへ。

「良くなったか」を耳だけで判断せず、数値で確かめると安定します。SDR等での客観評価は品質評価ガイドに。

⚠️ 最重要：著作権の注意

技術的に分離できることと、法的に使ってよいことは別問題です。ここを誤ると、せっかくの作品が削除・トラブルの元になります。

市販曲を分離して得たカラオケ音源・アカペラの無断公開・配布は、著作権侵害になり得ます。 自分用（私的利用）の範囲に留めるのが基本です。
「歌ってみた」「カバー」を投稿する場合は、各プラットフォーム（YouTube・各種配信サービス等）が結んでいる音楽の利用許諾の範囲を必ず確認してください。原盤（音源そのもの）の利用は、楽曲の権利とは別に原盤権の問題があります。
自作曲・許諾済み素材・パブリックドメインなら自由に使えます。
UVR5 や audio-separator のソフト自体は MIT ライセンスですが、それはあなたが処理する音源の権利とは無関係です。

迷ったら「自分で作った曲か、明確に許諾された素材か」を基準に。商用や公開を伴うなら、権利関係を一次情報で確認してください。

よくある質問（FAQ）

Q. カラオケ音源とアカペラ、モデルは同じでいい？ A. 目的に合わせて変えるのがおすすめです。カラオケ（伴奏）は Inst系（UVR-MDX-NET-Inst_HQ_3）、アカペラ（声）は Vocal系（Kim_Vocal_2）。欲しいステムに最適化されたモデルの方が、そのステムの品質が上がります。

Q. ボーカルが伴奏に少し残ってしまいます。 A. より強力なモデル（RoFormer）を試す、アンサンブルする、overlap を上げる、などが効きます。難しいミックスほど高品質モデルの差が出ます。

Q. ハモリだけ消したい（メインボーカルは残したい）。 A. UVR_MDXNET_KARA_2（Karaoke系）がメインとハモリ/コーラスを分けます。まずアカペラを抽出してから KARA 系にかけると分けやすいです。

Q. GPUがないと無理？ A. CPU でも動きますが遅いです（[cpu] 版）。Mac（Apple Silicon）は CUDA 非対応で CPU 実行が基本。大量処理は NVIDIA GPU 環境が快適です。詰まったらトラブルシューティング。

Q. 作ったカラオケ音源をYouTubeに上げていい？ A. 市販曲ベースなら要注意です。原盤の無断利用は権利侵害になり得ます。各プラットフォームの音楽利用許諾の範囲を確認し、自作曲・許諾素材で使うのが安全です。

まとめ：目的でモデルを選び、音質と権利を両立する

カラオケ・アカペラ作りは、「目的に合うモデル選び」が9割です。

カラオケ（伴奏）→ Inst系、アカペラ（声）→ Vocal系、ハモリ除去 → KARA系、最高音質 → RoFormer。
手軽は GUI、大量は audio-separator のバッチ。
wav/flac で出し、必要ならアンサンブル・客観評価で詰める。
著作権を必ず確認——自作・許諾素材・私的利用の範囲で。

音源分離を含む音声・動画 AI を、業務として本番品質で組みたい方（自動カラオケ生成、配信向け一括処理など）は、実績とともにご相談ください。一人 × 生成AIで、企画から本番運用まで一気通貫で支援します。

出典・公式リソース

UVR5 本体：Anjok07/ultimatevocalremovergui
コードで使うライブラリ：nomadkaraoke/python-audio-separator（MIT）／ PyPI
モデル選定の詳細：本ブログ音源分離ツールの選び方
最高音質モデル：本ブログ BS-RoFormer/Mel-Band RoFormer ガイド

※ モデル名・既定値は更新されます。実在は audio-separator --list_models で確認してください。著作権は国・プラットフォームで扱いが異なります。商用・公開時は必ず一次情報と各サービスの規約を確認してください。

UVR5でカラオケ音源・アカペラを作る完全ガイド：伴奏抽出/ボーカル抽出/ハモリ除去

この記事のゴール

30秒のまとめ（目的 → 使うモデル）

まず仕組みを一言で

作り方A：UVR5 GUI で手軽に（コード不要）

作り方B：audio-separator で（大量・自動化）

カラオケ音源（伴奏だけ）

アカペラ（ボーカルだけ）

ハモリ/コーラス除去（リードボーカルだけ）

アルバムを一括処理する

音質を上げる5つのコツ

⚠️ 最重要：著作権の注意

よくある質問（FAQ）

まとめ：目的でモデルを選び、音質と権利を両立する

出典・公式リソース

音源分離ツールの選び方：Demucs / UVR5(MDX-Net) / Spleeter / Open-Unmix を要件で選ぶ

音源分離をAWSで本番スケールさせる：GPUバッチ処理基盤（SQS × ECS/Batch × S3）

BS-RoFormer / Mel-Band RoFormer 完全ガイド：2026最高品質の音源分離を本番で使う

Demucs v4 完全ガイド：Metaの音源分離モデル(HT Demucs)を公式準拠で本番運用する

この記事のゴール

30秒のまとめ（目的 → 使うモデル）

まず仕組みを一言で

作り方A：UVR5 GUI で手軽に（コード不要）

作り方B：audio-separator で（大量・自動化）

カラオケ音源（伴奏だけ）

アカペラ（ボーカルだけ）

ハモリ/コーラス除去（リードボーカルだけ）

アルバムを一括処理する

音質を上げる5つのコツ

⚠️ 最重要：著作権の注意

よくある質問（FAQ）

まとめ：目的でモデルを選び、音質と権利を両立する

出典・公式リソース

関連記事

音源分離ツールの選び方：Demucs / UVR5(MDX-Net) / Spleeter / Open-Unmix を要件で選ぶ

音源分離をAWSで本番スケールさせる：GPUバッチ処理基盤（SQS × ECS/Batch × S3）

BS-RoFormer / Mel-Band RoFormer 完全ガイド：2026最高品質の音源分離を本番で使う

Demucs v4 完全ガイド：Metaの音源分離モデル(HT Demucs)を公式準拠で本番運用する