STATUS: ONLINE

大規

# Docker # Linux # Ollama # FLUX.1 # GPU

大規模ローカルAIサーバー構築

RTX 5080+3080のデュアルGPU環境でLLM・画像生成モデルをセルフホスト。Docker Composeによるマルチサービス管理とGPUリソース最適化。

背景・動機

自作PCの趣味を通じて保有していた複数の強力なGPU（RTX 5080, RTX 3080）のリソースを最大限に活用し、ハードウェアの限界に挑戦するとともに、クラウドAPIに依存しない強力なローカルAI推論環境の構築を目指しました。

システム構成

CPU: Ryzen 9 9950X3D (主にアップスケーリング等の処理を担当)
GPU 1: RTX 5080（画像生成等の高負荷モデルを担当）
GPU 2: RTX 3080（プロンプト理解・LLM推論を担当）
OS / 基盤: WSL (Ubuntu) + Docker Compose
主なサービス: Ollama (LLM推論), ComfyUI (画像生成), Discord Bot

技術的な課題と解決策

大容量モデルのVRAM枯渇問題と量子化の導入: 画像生成モデル「FLUX.1」は非常に強力ですが、VRAMの消費量が膨大です。これを個人のローカル環境で安定して動作させるため、nf4量子化を導入してVRAM使用量を大幅に削減しました。
マルチGPU環境でのモデル互換性の解決: 量子化モデルを導入した結果、RTX 3080側で稼働させているプロンプト理解用のLLMとの間で処理形式にズレが発生しました。この問題に対しては、テキストエンコーダーをGGUF形式で扱うよう構成を見直すことで、差異を吸収し動作を実現しました。

実装・運用のポイント

Docker Composeで Ollama / ComfyUI / Discord Bot を独立コンテナとして管理し、サービス間を分離
WSL (Ubuntu) 上でDockerを動かしGPUパススルーを実現
Cloudflare Tunnelで外部公開しサーバーIPを一切露出させない構成
ジャンクPC（Core i7-3930K機 / 1,000円で購入・自力復旧）もマルチマシン運用に組み込み、旧メインPCはBot群の常時稼働用として稼働させている

今後の展望

用途別の自動モデル切り替え（軽量モデルで意図を判定してからメインモデルにルーティング）
監視・ログ収集の強化（Prometheus + Grafana等）
量子化精度のさらなる調整と最新モデルへの追随