8GBメモリでローカルLLMを動かす
BRANK
この記事は「Anthrotech Advent Calendar 2025」の6日目です。前回の記事は、 なかいあんこうさんの oraja時代のBMS新圧縮常識!? です。はじめに「ローカルでLLMを動かしたい」——そう思って調べると、「RTX 4090が必要」「VRAM 24GB推奨」みたいな記事ばかり出てきて心が折れそうになりますよね。でも実は、8GBのメモリでも十分動くモデルと設定があります。この記事では、Proxmox上のVM(メモリ8GB、CPUのみ)でLLMを動かすまでに試行錯誤した内容をまとめました。具体的には、Misskeyのローカルタイムラインを監視して、特定の投稿を分類するBotを作るために、ローカルでLLM推論サーバーを立てた話です。やりたかったことMisskeyのLTLをリアルタイム監視投稿内容をLLMで分類(AI botへのメンション検知)条件に合う投稿にリアクションを付けるクラウドAPIを使えば簡単ですが、LTLは流量が多いですし、分類タスクごときに課金するのも馬鹿らしい。というわけでローカルLLMの出番です。環境ホスト: Proxmox VEVM: Ubuntu、6コア、メモリ16GBGPU: なし(CPUオンリー)※メモリは16GBありますが、モデル自体は3.1GBしか使わないので、8GBでも十分動きます。量子化の基礎知…