背景・動機
自作PCの趣味を通じて保有していた複数の強力なGPU(RTX 5080, RTX 3080)のリソースを最大限に活用し、ハードウェアの限界に挑戦するとともに、クラウドAPIに依存しない強力なローカルAI推論環境の構築を目指しました。
システム構成
- CPU: Ryzen 9 9950X3D (主にアップスケーリング等の処理を担当)
- GPU 1: RTX 5080(画像生成等の高負荷モデルを担当)
- GPU 2: RTX 3080(プロンプト理解・LLM推論を担当)
- OS / 基盤: WSL (Ubuntu) + Docker Compose
- 主なサービス: Ollama (LLM推論), ComfyUI (画像生成), Discord Bot
技術的な課題と解決策
- 大容量モデルのVRAM枯渇問題と量子化の導入:
画像生成モデル「FLUX.1」は非常に強力ですが、VRAMの消費量が膨大です。これを個人のローカル環境で安定して動作させるため、nf4量子化を導入してVRAM使用量を大幅に削減しました。
- マルチGPU環境でのモデル互換性の解決:
量子化モデルを導入した結果、RTX 3080側で稼働させているプロンプト理解用のLLMとの間で処理形式にズレが発生しました。この問題に対しては、テキストエンコーダーをGGUF形式で扱うよう構成を見直すことで、差異を吸収し動作を実現しました。
実装・運用のポイント
仮置き
今後の展望
仮置き