# UVR5でカラオケ音源・アカペラを作る完全ガイド：伴奏抽出/ボーカル抽出/ハモリ除去

> UVR5（MDX-Net）で曲からカラオケ音源（伴奏）・アカペラ（ボーカル）・ハモリ除去を作る実践ガイド。用途別のおすすめモデル（Inst系/Vocal系/KARA_2）、GUIとコードの両手順、音質を上げるコツ、アルバム一括処理、そして見落としがちな著作権の注意まで、初めてでも今日作れる形で解説します。

- 公開日: 2026-06-25
- 著者: 友田 陽大
- タグ: UVR5, カラオケ, ボーカル抽出, 音源分離, アカペラ, MDX-Net, Python, AI音声
- URL: https://tomodahinata.com/blog/uvr5-karaoke-instrumental-acapella-vocal-extraction-guide

## 要点

- 目的でモデルを選ぶ：カラオケ(伴奏)はInst系（UVR-MDX-NET-Inst_HQ_3）、アカペラ(声)はVocal系（Kim_Vocal_2）、ハモリ除去はKARA_2、最高音質はBS-RoFormer
- 手軽に試すならUVR5 GUI（ドラッグ&ドロップ）、大量・自動化ならaudio-separator（pip install）。どちらも同じモデルを使える
- 音質のコツ：出力はwav/flac（mp3は劣化）、ボーカル特化+伴奏特化のアンサンブル、難しい曲はsegment_size/overlap調整、最後は客観評価で確認
- アルバム一括はCLIのバッチで自動化できる。1曲ずつ手作業しない
- 最重要の注意：市販曲を分離して得た音源の無断公開・配布は著作権侵害になり得る。カバー/歌ってみた投稿は各プラットフォームの許諾範囲を確認する

---

## この記事のゴール

「曲から**伴奏だけ**を取り出してカラオケにしたい」「**ボーカルだけ**を抜いてアカペラ・リミックス素材にしたい」「**ハモリ（コーラス）を消して**リードボーカルだけにしたい」——これらはすべて、**UVR5（Ultimate Vocal Remover）+ MDX-Net** で実現できます。

本稿は、技術的な深掘りではなく、**「初めてでも今日、実際に作れる」実践ガイド**です。読み終えたとき、あなたは次ができます。

1. **目的（カラオケ / アカペラ / ハモリ除去）に最適なモデル**を選べる。
2. **GUI（手軽）とコード（大量・自動化）の両方**で分離を実行できる。
3. **音質を上げるコツ**と、見落としがちな**著作権の注意**を押さえられる。

> **筆者について**：私は音源分離を第1段に持つ **AI動画・音声処理の基盤を単独で設計・実装し、本番運用**しています。本稿の「用途別モデル」「音質のコツ」は、実際に大量の音源を処理して検証してきた知見です。技術的な仕組みは [UVR5/MDX-Net ガイド](/blog/uvr5-mdx-net-vocal-separation-production-guide)、最高音質を狙うなら [RoFormer ガイド](/blog/bs-roformer-mel-band-roformer-vocal-separation-guide) にまとめています。

---

## 30秒のまとめ（目的 → 使うモデル）

| 作りたいもの | 使うモデル（種別） | ひとこと |
| --- | --- | --- |
| **カラオケ音源（伴奏だけ）** | `UVR-MDX-NET-Inst_HQ_3`（Inst系） | 伴奏をきれいに残す定番 |
| **アカペラ（ボーカルだけ）** | `Kim_Vocal_2`（Vocal系） | 高速・高品質なボーカル抽出 |
| **ハモリ/コーラス除去（リード声だけ）** | `UVR_MDXNET_KARA_2`（Karaoke系） | メインとハモリを分ける |
| **とにかく最高音質** | `model_bs_roformer_ep_317_...`（RoFormer） | 重いが現行最高品質 |
| **ドラム/ベースまで分けたい** | `htdemucs`（Demucs v4） | 4ステム分離 |

- **手軽に試す** → UVR5 GUI（ドラッグ&ドロップ）
- **大量・自動化** → `audio-separator`（コード/CLI）
- **音質を詰める** → wav/flac出力・アンサンブル・客観評価

> 💡 モデルのファイル名は更新されます。実在は `audio-separator --list_models` で確認してください。種別の意味とより詳しい選定は[選定ガイド](/blog/music-source-separation-tool-selection-demucs-uvr-spleeter)に。

---

## まず仕組みを一言で

UVR5 は、1つの曲を **「ボーカル（声）」と「インストゥルメンタル（伴奏）」に分離**するツールです。つまり——

- **伴奏（Instrumental）を取り出せば → カラオケ音源**
- **ボーカル（Vocals）を取り出せば → アカペラ**

になります。モデルには「伴奏をきれいに残すのが得意なもの（Inst系）」と「声をきれいに抜くのが得意なもの（Vocal系）」があり、**欲しい方に合わせて選ぶ**のが品質の第一歩です。

---

## 作り方A：UVR5 GUI で手軽に（コード不要）

1曲だけ・まず試したいなら、GUI が最短です。

1. [UVR5 公式リリース](https://github.com/Anjok07/ultimatevocalremovergui/releases)から、OS に合うインストーラを入手（Windows / macOS / Linux）。
2. 起動し、**Process Method** で **MDX-Net** を選択。
3. **モデル**を目的で選ぶ：
   - カラオケ → `UVR-MDX-NET-Inst_HQ_3`
   - アカペラ → `Kim_Vocal_2`
   - ハモリ除去 → `UVR_MDXNET_KARA_2`
4. 曲ファイルを**ドラッグ&ドロップ**し、出力先を指定して **Start Processing**。
5. 出力に `(Instrumental)`（伴奏）と `(Vocals)`（ボーカル）の2ファイルができます。

GUI は手軽ですが、**1曲ずつ手作業**になります。アルバム一括や定期処理は、次のコード版が圧倒的に速いです。

---

## 作り方B：audio-separator で（大量・自動化）

[audio-separator](https://github.com/nomadkaraoke/python-audio-separator)（MIT）を使えば、UVR5 と同じモデルを**コードや CLI から**実行できます。

```bash
pip install "audio-separator[gpu]"   # GPU。CPU/Macは [cpu]
```

### カラオケ音源（伴奏だけ）

```bash
# 伴奏だけ出力（--single_stem Instrumental で片方だけ書き出し）
audio-separator song.wav \
  --model_filename UVR-MDX-NET-Inst_HQ_3.onnx \
  --single_stem Instrumental \
  --output_format flac
```

### アカペラ（ボーカルだけ）

```python
# acapella.py — ボーカルだけを抽出する
from audio_separator.separator import Separator

sep = Separator(output_dir="out", output_format="flac",
                output_single_stem="Vocals")   # 声だけ書き出し
sep.load_model(model_filename="Kim_Vocal_2.onnx")
print(sep.separate("song.wav"))                # -> ボーカルtrack
```

### ハモリ/コーラス除去（リードボーカルだけ）

```python
# ハモリ(コーラス)を分けてメインボーカルを残す
sep = Separator(output_dir="out", output_format="flac")
sep.load_model(model_filename="UVR_MDXNET_KARA_2.onnx")
print(sep.separate("acapella.wav"))   # メイン/ハモリに分離
```

> 🔧 出力フォーマットは **wav か flac**（可逆）にしてください。**mp3 は劣化**します。CLIの既定は FLAC、Pythonライブラリの既定は WAV と異なる点に注意（明示が安全）。

---

## アルバムを一括処理する

「1曲ずつ」は本数が増えると破綻します。フォルダ内の全曲をまとめて処理しましょう。

```python
# batch_karaoke.py — フォルダ内の全曲をカラオケ化（伴奏抽出）
from pathlib import Path
from audio_separator.separator import Separator

sep = Separator(output_dir="karaoke", output_format="flac",
                output_single_stem="Instrumental")
sep.load_model(model_filename="UVR-MDX-NET-Inst_HQ_3.onnx")  # モデルは一度だけロード

for track in sorted(Path("album").glob("*.wav")):
    print("processing:", track.name)
    sep.separate(str(track))      # 同じSeparatorを再利用＝高速
```

ポイントは **モデルを1回だけロードして使い回す**こと（ロードは重い処理）。何百曲でも、これで一晩回せます。本格的な本番スケール（数千曲・キュー駆動）は[GPUワーカー基盤の記事](/blog/music-source-separation-production-api-gpu-worker-queue)に。

---

## 音質を上げる5つのコツ

1. **目的に合うモデルを選ぶ**：カラオケは Inst系、アカペラは Vocal系。逆を使うと品質が落ちます。
2. **可逆フォーマットで出す**：wav/flac。mp3 は分離後にさらに劣化します。
3. **最高音質が要るなら RoFormer**：`model_bs_roformer_...` は現行最高品質（重い）。詳細は[RoFormer ガイド](/blog/bs-roformer-mel-band-roformer-vocal-separation-guide)。
4. **アンサンブル**：ボーカル特化と伴奏特化を組み合わせると残留が減ります（時間は増える）。
5. **難しい曲は調整**：ボーカルが伴奏に残る/伴奏にノイズが乗るときは `segment_size`・`overlap` を見直す。詰まったら[トラブルシューティング](/blog/uvr5-audio-separator-troubleshooting-gpu-cuda-oom)へ。

「良くなったか」を耳だけで判断せず、**数値で確かめる**と安定します。SDR等での客観評価は[品質評価ガイド](/blog/music-source-separation-quality-evaluation-sdr-museval)に。

---

## ⚠️ 最重要：著作権の注意

技術的に分離できることと、**法的に使ってよいことは別問題**です。ここを誤ると、せっかくの作品が削除・トラブルの元になります。

- **市販曲を分離して得たカラオケ音源・アカペラの無断公開・配布は、著作権侵害になり得ます。** 自分用（私的利用）の範囲に留めるのが基本です。
- **「歌ってみた」「カバー」を投稿する場合**は、各プラットフォーム（YouTube・各種配信サービス等）が結んでいる**音楽の利用許諾の範囲**を必ず確認してください。原盤（音源そのもの）の利用は、楽曲の権利とは別に**原盤権**の問題があります。
- **自作曲・許諾済み素材・パブリックドメイン**なら自由に使えます。
- UVR5 や audio-separator のソフト自体は MIT ライセンスですが、それは**あなたが処理する音源の権利とは無関係**です。

> 迷ったら「**自分で作った曲か、明確に許諾された素材か**」を基準に。商用や公開を伴うなら、権利関係を一次情報で確認してください。

---

## よくある質問（FAQ）

**Q. カラオケ音源とアカペラ、モデルは同じでいい？**
A. **目的に合わせて変える**のがおすすめです。カラオケ（伴奏）は **Inst系（`UVR-MDX-NET-Inst_HQ_3`）**、アカペラ（声）は **Vocal系（`Kim_Vocal_2`）**。欲しいステムに最適化されたモデルの方が、そのステムの品質が上がります。

**Q. ボーカルが伴奏に少し残ってしまいます。**
A. より強力なモデル（[RoFormer](/blog/bs-roformer-mel-band-roformer-vocal-separation-guide)）を試す、**アンサンブル**する、`overlap` を上げる、などが効きます。難しいミックスほど高品質モデルの差が出ます。

**Q. ハモリだけ消したい（メインボーカルは残したい）。**
A. `UVR_MDXNET_KARA_2`（Karaoke系）がメインとハモリ/コーラスを分けます。まずアカペラを抽出してから KARA 系にかけると分けやすいです。

**Q. GPUがないと無理？**
A. CPU でも動きますが**遅い**です（`[cpu]` 版）。Mac（Apple Silicon）は CUDA 非対応で CPU 実行が基本。大量処理は NVIDIA GPU 環境が快適です。詰まったら[トラブルシューティング](/blog/uvr5-audio-separator-troubleshooting-gpu-cuda-oom)。

**Q. 作ったカラオケ音源をYouTubeに上げていい？**
A. **市販曲ベースなら要注意**です。原盤の無断利用は権利侵害になり得ます。各プラットフォームの音楽利用許諾の範囲を確認し、自作曲・許諾素材で使うのが安全です。

---

## まとめ：目的でモデルを選び、音質と権利を両立する

カラオケ・アカペラ作りは、**「目的に合うモデル選び」が9割**です。

1. **カラオケ（伴奏）→ Inst系、アカペラ（声）→ Vocal系、ハモリ除去 → KARA系、最高音質 → RoFormer。**
2. **手軽は GUI、大量は audio-separator のバッチ。**
3. **wav/flac で出し、必要ならアンサンブル・客観評価で詰める。**
4. **著作権を必ず確認**——自作・許諾素材・私的利用の範囲で。

> 音源分離を含む音声・動画 AI を、**業務として本番品質で**組みたい方（自動カラオケ生成、配信向け一括処理など）は、[実績](/case-studies/ai-video-localization-lipsync)とともにご相談ください。**一人 × 生成AI**で、企画から本番運用まで一気通貫で支援します。

---

## 出典・公式リソース

- **UVR5 本体**：[Anjok07/ultimatevocalremovergui](https://github.com/Anjok07/ultimatevocalremovergui)
- **コードで使うライブラリ**：[nomadkaraoke/python-audio-separator（MIT）](https://github.com/nomadkaraoke/python-audio-separator) ／ [PyPI](https://pypi.org/project/audio-separator/)
- **モデル選定の詳細**：本ブログ [音源分離ツールの選び方](/blog/music-source-separation-tool-selection-demucs-uvr-spleeter)
- **最高音質モデル**：本ブログ [BS-RoFormer/Mel-Band RoFormer ガイド](/blog/bs-roformer-mel-band-roformer-vocal-separation-guide)

※ モデル名・既定値は更新されます。実在は `audio-separator --list_models` で確認してください。著作権は国・プラットフォームで扱いが異なります。商用・公開時は必ず一次情報と各サービスの規約を確認してください。