8GBメモリでローカルLLMを動かす

8GBメモリでローカルLLMを動かす
BRANK

この記事は「Anthrotech Advent Calendar 2025」の6日目です。前回の記事は、なかいあんこうさんの oraja時代のBMS新圧縮常識！？です。はじめに「ローカルでLLMを動かしたい」——そう思って調べると、「RTX 4090が必要」「VRAM 24GB推奨」みたいな記事ばかり出てきて心が折れそうになりますよね。でも実は、8GBのメモリでも十分動くモデルと設定があります。この記事では、Proxmox上のVM（メモリ8GB、CPUのみ）でLLMを動かすまでに試行錯誤した内容をまとめました。具体的には、Misskeyのローカルタイムラインを監視して、特定の投稿を分類するBotを作るために、ローカルでLLM推論サーバーを立てた話です。やりたかったことMisskeyのLTLをリアルタイム監視投稿内容をLLMで分類（AI botへのメンション検知）条件に合う投稿にリアクションを付けるクラウドAPIを使えば簡単ですが、LTLは流量が多いですし、分類タスクごときに課金するのも馬鹿らしい。というわけでローカルLLMの出番です。環境ホスト: Proxmox VEVM: Ubuntu、6コア、メモリ16GBGPU: なし（CPUオンリー）※メモリは16GBありますが、モデル自体は3.1GBしか使わないので、8GBでも十分動きます。量子化の基礎知…

zenn.dev 8 days ago

Open page

https://zenn.dev/kokoa0429/articles/e515ff57d56cc0