メインコンテンツへスキップ
友田 陽大

カテゴリ

量子化LLM・セルフホスト(Qwen3-8B-AWQ / AWQ / vLLM)の実装ガイド

量子化は『大きく賢いモデルを、安いGPU 1枚に載せて本番で稼がせる』ための鍵です。AWQ 4bitなら重みが約1/3に圧縮され、24GBクラスのGPUで“思考するLLM”を自前運用できる——データを外に出さず、トークン従量ではなく固定費で。本クラスタは、Qwen3-8B-AWQを題材に、量子化方式の選び方、vLLMでの型安全な構造化出力(JSON)、思考モード×ハイブリッド検索の自前RAG、安全なエージェント化までを——型安全・冪等性・可観測性・回復性・コストを軸に、量子化セルフホストを本番で稼がせる設計として扱います。

6 記事

基礎ガイド

基礎ガイド(まずはここから)

Qwen
AWQ
量子化
vLLM
生成AI

Qwen3-8B-AWQ 実践ガイド:4bit量子化で“思考するLLM”をGPU1枚にセルフホストする

Qwen3-8B-AWQを公式ドキュメントに忠実に解説。AWQ 4bit量子化で重みを約6GBに圧縮し24GBのGPU1枚で本番運用。ハイブリッド思考(thinking/non-thinking)の切替、vLLMでのOpenAI互換サーブ、モード別の推奨サンプリング、YaRNで131K拡張、ツール呼び出し、量子化特有の落とし穴(presence_penalty/greedy禁止)まで実コードで。

17分

関連する実践記事