カテゴリ
量子化LLM・セルフホスト(Qwen3-8B-AWQ / AWQ / vLLM)の実装ガイド
量子化は『大きく賢いモデルを、安いGPU 1枚に載せて本番で稼がせる』ための鍵です。AWQ 4bitなら重みが約1/3に圧縮され、24GBクラスのGPUで“思考するLLM”を自前運用できる——データを外に出さず、トークン従量ではなく固定費で。本クラスタは、Qwen3-8B-AWQを題材に、量子化方式の選び方、vLLMでの型安全な構造化出力(JSON)、思考モード×ハイブリッド検索の自前RAG、安全なエージェント化までを——型安全・冪等性・可観測性・回復性・コストを軸に、量子化セルフホストを本番で稼がせる設計として扱います。
全 6 記事
基礎ガイド
基礎ガイド(まずはここから)
Qwen3-8B-AWQ 実践ガイド:4bit量子化で“思考するLLM”をGPU1枚にセルフホストする
Qwen3-8B-AWQを公式ドキュメントに忠実に解説。AWQ 4bit量子化で重みを約6GBに圧縮し24GBのGPU1枚で本番運用。ハイブリッド思考(thinking/non-thinking)の切替、vLLMでのOpenAI互換サーブ、モード別の推奨サンプリング、YaRNで131K拡張、ツール呼び出し、量子化特有の落とし穴(presence_penalty/greedy禁止)まで実コードで。
関連する実践記事
- 生成AILLMvLLMセルフホストコスト最適化
量子化のサービング経済学:AWQ vs FP8、KVキャッシュとVRAM予算で本番コストは決まる
LLMの量子化(AWQ / GPTQ / FP8 / GGUF)の選定は『精度』だけで語られがちですが、本番サービングのコストは『単一GPUのVRAM予算を、モデルの重みとKVキャッシュにどう配分するか』で決まります。量子化が重みを縮め、その分を同時実行・長文脈に回せる——この本質を、VRAM予算の試算コードと、T4 GPUで量子化モデルを本番運用した経験から、サービング経済学として解説します。
10分 - QwenエージェントTool UsevLLMTypeScript
Qwen3-8B-AWQ をエージェント化:Qwen-Agent × function calling の本番設計
自前のQwen3-8B-AWQをツールを使うエージェントにする本番設計。vLLMのHermes形式tool callingの有効化、型安全なツール契約(Zod→JSON Schema)、引数を検証してから実行する安全なループ、反復回数の上限・冪等な副作用・認可ガード、思考モードでのReAct禁止という公式注意点まで、世界最高峰のコードで解説します。
10分 - QwenAWQ量子化vLLMGGUF
Qwen3-8B 量子化方式の選び方:AWQ・GPTQ・FP8・GGUF を用途で決める
Qwen3-8B をどの量子化で動かすべきか——AWQ・GPTQ・FP8・GGUF を、対応ハードウェア・VRAM・スループット・公式サポート状況で比較。GPU本番はAWQ/FP8、Mac/CPUローカルはGGUF、という判断軸を、VRAM計算と型安全な選定関数(テスト付き)で迷わず決められるようにします。
11分 - QwenRAGvLLMpgvectorセルフホスト
Qwen3-8B-AWQ で自前RAG:思考モード×ハイブリッド検索の本番設計
社外秘ドキュメントを外に出さず、自前GPUで動くQwen3-8B-AWQをRAGの“推論役”にする本番設計。ハイブリッド検索→再ランキング→思考モードでの統合→引用付き構造化回答までを、引用の実在検証(ハルシネーション対策)・プロンプトインジェクション対策・文脈予算・可観測性とともに実コードで解説します。
10分 - QwenvLLMTypeScriptZod型安全
Qwen3-8B-AWQ で型安全な構造化出力:vLLM guided decoding × Zod
自前LLMのJSON出力を“崩れない”ものにする実践ガイド。vLLMの構造化出力(guided decoding / response_format json_schema)で文法的に不正なJSONを生成不能にし、さらにZodで境界検証する二重の守り。1つのZodスキーマを真実源にvLLMへの制約とアプリの検証を両立し、思考モードとの併用や修復ループまで実コードで。
10分