Skip to main content
友田 陽大

Category

音源分離・音声前処理(Demucs / UVR5 / ボーカル抽出 / ASR前処理)の実装ガイド

音源分離は『1本の音声を、声・ドラム・ベース・伴奏といった構成要素に分解する』技術です。カラオケ生成、BGMを残した動画の多言語吹き替え、雑音下の文字起こし精度向上、リミックスや耳コピ——応用は広い。本クラスタは、公開モデルでSOTA級のDemucs v4とボーカル分離特化のUVR5(MDX-Net)を軸に、要件からのツール選定、ASR前処理パイプライン、SDR/musevalでの品質評価、そしてGPUワーカー×ジョブキュー×冪等性の本番アーキテクチャまで——型安全・回復性・可観測性・コストを軸に、音源分離を本番で稼がせる設計を扱います。

12 articles in total

Foundational guide

Foundational guide (start here)

音源分離
Demucs
UVR5
技術選定
音声処理

How to choose a source-separation tool: selecting Demucs / UVR5(MDX-Net) / Spleeter / Open-Unmix by requirements

A cross-comparison of the major music-source-separation OSS — Demucs v4, UVR5(MDX-Net), Spleeter, Open-Unmix — by quality, speed, license, setup difficulty, and memory. It explains, with real code, a decision framework you can reverse-look-up from requirements ('which to choose for which project') and the license pitfalls you must always confirm for commercial use.

12 min read

Related practical articles