メインコンテンツへスキップ
友田 陽大
音源分離・音声前処理
UVR5
カラオケ
ボーカル抽出
音源分離
アカペラ
MDX-Net
Python
AI音声

UVR5でカラオケ音源・アカペラを作る完全ガイド:伴奏抽出/ボーカル抽出/ハモリ除去

UVR5(MDX-Net)で曲からカラオケ音源(伴奏)・アカペラ(ボーカル)・ハモリ除去を作る実践ガイド。用途別のおすすめモデル(Inst系/Vocal系/KARA_2)、GUIとコードの両手順、音質を上げるコツ、アルバム一括処理、そして見落としがちな著作権の注意まで、初めてでも今日作れる形で解説します。

公開日
読了時間
8分
著者
友田 陽大
シェア

この記事のゴール

「曲から伴奏だけを取り出してカラオケにしたい」「ボーカルだけを抜いてアカペラ・リミックス素材にしたい」「ハモリ(コーラス)を消してリードボーカルだけにしたい」——これらはすべて、UVR5(Ultimate Vocal Remover)+ MDX-Net で実現できます。

本稿は、技術的な深掘りではなく、「初めてでも今日、実際に作れる」実践ガイドです。読み終えたとき、あなたは次ができます。

  1. 目的(カラオケ / アカペラ / ハモリ除去)に最適なモデルを選べる。
  2. GUI(手軽)とコード(大量・自動化)の両方で分離を実行できる。
  3. 音質を上げるコツと、見落としがちな著作権の注意を押さえられる。

筆者について:私は音源分離を第1段に持つ AI動画・音声処理の基盤を単独で設計・実装し、本番運用しています。本稿の「用途別モデル」「音質のコツ」は、実際に大量の音源を処理して検証してきた知見です。技術的な仕組みは UVR5/MDX-Net ガイド、最高音質を狙うなら RoFormer ガイド にまとめています。


30秒のまとめ(目的 → 使うモデル)

作りたいもの使うモデル(種別)ひとこと
カラオケ音源(伴奏だけ)UVR-MDX-NET-Inst_HQ_3(Inst系)伴奏をきれいに残す定番
アカペラ(ボーカルだけ)Kim_Vocal_2(Vocal系)高速・高品質なボーカル抽出
ハモリ/コーラス除去(リード声だけ)UVR_MDXNET_KARA_2(Karaoke系)メインとハモリを分ける
とにかく最高音質model_bs_roformer_ep_317_...(RoFormer)重いが現行最高品質
ドラム/ベースまで分けたいhtdemucs(Demucs v4)4ステム分離
  • 手軽に試す → UVR5 GUI(ドラッグ&ドロップ)
  • 大量・自動化audio-separator(コード/CLI)
  • 音質を詰める → wav/flac出力・アンサンブル・客観評価

💡 モデルのファイル名は更新されます。実在は audio-separator --list_models で確認してください。種別の意味とより詳しい選定は選定ガイドに。


まず仕組みを一言で

UVR5 は、1つの曲を 「ボーカル(声)」と「インストゥルメンタル(伴奏)」に分離するツールです。つまり——

  • 伴奏(Instrumental)を取り出せば → カラオケ音源
  • ボーカル(Vocals)を取り出せば → アカペラ

になります。モデルには「伴奏をきれいに残すのが得意なもの(Inst系)」と「声をきれいに抜くのが得意なもの(Vocal系)」があり、欲しい方に合わせて選ぶのが品質の第一歩です。


作り方A:UVR5 GUI で手軽に(コード不要)

1曲だけ・まず試したいなら、GUI が最短です。

  1. UVR5 公式リリースから、OS に合うインストーラを入手(Windows / macOS / Linux)。
  2. 起動し、Process MethodMDX-Net を選択。
  3. モデルを目的で選ぶ:
    • カラオケ → UVR-MDX-NET-Inst_HQ_3
    • アカペラ → Kim_Vocal_2
    • ハモリ除去 → UVR_MDXNET_KARA_2
  4. 曲ファイルをドラッグ&ドロップし、出力先を指定して Start Processing
  5. 出力に (Instrumental)(伴奏)と (Vocals)(ボーカル)の2ファイルができます。

GUI は手軽ですが、1曲ずつ手作業になります。アルバム一括や定期処理は、次のコード版が圧倒的に速いです。


作り方B:audio-separator で(大量・自動化)

audio-separator(MIT)を使えば、UVR5 と同じモデルをコードや CLI から実行できます。

pip install "audio-separator[gpu]"   # GPU。CPU/Macは [cpu]

カラオケ音源(伴奏だけ)

# 伴奏だけ出力(--single_stem Instrumental で片方だけ書き出し)
audio-separator song.wav \
  --model_filename UVR-MDX-NET-Inst_HQ_3.onnx \
  --single_stem Instrumental \
  --output_format flac

アカペラ(ボーカルだけ)

# acapella.py — ボーカルだけを抽出する
from audio_separator.separator import Separator

sep = Separator(output_dir="out", output_format="flac",
                output_single_stem="Vocals")   # 声だけ書き出し
sep.load_model(model_filename="Kim_Vocal_2.onnx")
print(sep.separate("song.wav"))                # -> ボーカルtrack

ハモリ/コーラス除去(リードボーカルだけ)

# ハモリ(コーラス)を分けてメインボーカルを残す
sep = Separator(output_dir="out", output_format="flac")
sep.load_model(model_filename="UVR_MDXNET_KARA_2.onnx")
print(sep.separate("acapella.wav"))   # メイン/ハモリに分離

🔧 出力フォーマットは wav か flac(可逆)にしてください。mp3 は劣化します。CLIの既定は FLAC、Pythonライブラリの既定は WAV と異なる点に注意(明示が安全)。


アルバムを一括処理する

「1曲ずつ」は本数が増えると破綻します。フォルダ内の全曲をまとめて処理しましょう。

# batch_karaoke.py — フォルダ内の全曲をカラオケ化(伴奏抽出)
from pathlib import Path
from audio_separator.separator import Separator

sep = Separator(output_dir="karaoke", output_format="flac",
                output_single_stem="Instrumental")
sep.load_model(model_filename="UVR-MDX-NET-Inst_HQ_3.onnx")  # モデルは一度だけロード

for track in sorted(Path("album").glob("*.wav")):
    print("processing:", track.name)
    sep.separate(str(track))      # 同じSeparatorを再利用=高速

ポイントは モデルを1回だけロードして使い回すこと(ロードは重い処理)。何百曲でも、これで一晩回せます。本格的な本番スケール(数千曲・キュー駆動)はGPUワーカー基盤の記事に。


音質を上げる5つのコツ

  1. 目的に合うモデルを選ぶ:カラオケは Inst系、アカペラは Vocal系。逆を使うと品質が落ちます。
  2. 可逆フォーマットで出す:wav/flac。mp3 は分離後にさらに劣化します。
  3. 最高音質が要るなら RoFormermodel_bs_roformer_... は現行最高品質(重い)。詳細はRoFormer ガイド
  4. アンサンブル:ボーカル特化と伴奏特化を組み合わせると残留が減ります(時間は増える)。
  5. 難しい曲は調整:ボーカルが伴奏に残る/伴奏にノイズが乗るときは segment_sizeoverlap を見直す。詰まったらトラブルシューティングへ。

「良くなったか」を耳だけで判断せず、数値で確かめると安定します。SDR等での客観評価は品質評価ガイドに。


⚠️ 最重要:著作権の注意

技術的に分離できることと、法的に使ってよいことは別問題です。ここを誤ると、せっかくの作品が削除・トラブルの元になります。

  • 市販曲を分離して得たカラオケ音源・アカペラの無断公開・配布は、著作権侵害になり得ます。 自分用(私的利用)の範囲に留めるのが基本です。
  • 「歌ってみた」「カバー」を投稿する場合は、各プラットフォーム(YouTube・各種配信サービス等)が結んでいる音楽の利用許諾の範囲を必ず確認してください。原盤(音源そのもの)の利用は、楽曲の権利とは別に原盤権の問題があります。
  • 自作曲・許諾済み素材・パブリックドメインなら自由に使えます。
  • UVR5 や audio-separator のソフト自体は MIT ライセンスですが、それはあなたが処理する音源の権利とは無関係です。

迷ったら「自分で作った曲か、明確に許諾された素材か」を基準に。商用や公開を伴うなら、権利関係を一次情報で確認してください。


よくある質問(FAQ)

Q. カラオケ音源とアカペラ、モデルは同じでいい? A. 目的に合わせて変えるのがおすすめです。カラオケ(伴奏)は Inst系(UVR-MDX-NET-Inst_HQ_3、アカペラ(声)は Vocal系(Kim_Vocal_2。欲しいステムに最適化されたモデルの方が、そのステムの品質が上がります。

Q. ボーカルが伴奏に少し残ってしまいます。 A. より強力なモデル(RoFormer)を試す、アンサンブルする、overlap を上げる、などが効きます。難しいミックスほど高品質モデルの差が出ます。

Q. ハモリだけ消したい(メインボーカルは残したい)。 A. UVR_MDXNET_KARA_2(Karaoke系)がメインとハモリ/コーラスを分けます。まずアカペラを抽出してから KARA 系にかけると分けやすいです。

Q. GPUがないと無理? A. CPU でも動きますが遅いです([cpu] 版)。Mac(Apple Silicon)は CUDA 非対応で CPU 実行が基本。大量処理は NVIDIA GPU 環境が快適です。詰まったらトラブルシューティング

Q. 作ったカラオケ音源をYouTubeに上げていい? A. 市販曲ベースなら要注意です。原盤の無断利用は権利侵害になり得ます。各プラットフォームの音楽利用許諾の範囲を確認し、自作曲・許諾素材で使うのが安全です。


まとめ:目的でモデルを選び、音質と権利を両立する

カラオケ・アカペラ作りは、「目的に合うモデル選び」が9割です。

  1. カラオケ(伴奏)→ Inst系、アカペラ(声)→ Vocal系、ハモリ除去 → KARA系、最高音質 → RoFormer。
  2. 手軽は GUI、大量は audio-separator のバッチ。
  3. wav/flac で出し、必要ならアンサンブル・客観評価で詰める。
  4. 著作権を必ず確認——自作・許諾素材・私的利用の範囲で。

音源分離を含む音声・動画 AI を、業務として本番品質で組みたい方(自動カラオケ生成、配信向け一括処理など)は、実績とともにご相談ください。一人 × 生成AIで、企画から本番運用まで一気通貫で支援します。


出典・公式リソース

※ モデル名・既定値は更新されます。実在は audio-separator --list_models で確認してください。著作権は国・プラットフォームで扱いが異なります。商用・公開時は必ず一次情報と各サービスの規約を確認してください。

友田

友田 陽大

経済産業大臣賞 受賞プロダクト開発者。TypeScript + Python + AWS で、SaaS・業界DX・ 実用レベルの生成AI(RAG)を、要件定義からインフラ・運用まで一人で完遂します。

この記事で解説した技術の適用事例

AI動画ローカライズ・リップシンク基盤

ケーススタディを見る