2月7日、Google Cloudがブログで紹介したところによると、大規模言語モデル(LLM)をGPUなしでローカル実行できる新しいツール「localllm」を発表した。localllmはCPUとメモリでLLMを実行可能にし、特にGPUの不足が課題となる開発者に新たな選択肢を提供する。
このアプローチでは、Google Cloudの完全管理型開発環境であるCloud Workstations内で、GPUなしでLLMを実行できる。具体的には、HuggingFaceの「TheBloke」リポジトリのLLMモデルを使用し、CPUや低消費電力GPUで動作できるように最適化された量子化手法を採用している。
量子化モデルは、制限された計算リソースを持つローカルデバイスで効率的に動作するように最適化されたAIモデルだ。例えば、以下の利点が挙げられる:
- パフォーマンスの向上: 低精度データ型を使用することで高速な計算が可能で、制約のあるデバイスでのパフォーマンスが向上する。
- メモリフットプリントの削減: 重みと活性化を少ないビットで表現することで、モデルのサイズが削減され、ストレージ容量の制約が軽減される。
- 高速な推論: 量子化モデルは、小さなモデルサイズと低い精度により、迅速な計算が可能で、ローカルデバイス上でスムーズな実行が期待できる。
「localllm」は、HuggingFaceの量子化モデルに簡単にアクセスできるセットで、CPUとメモリ上でGPUを必要とせずにLLMを実行できる。これはGPUの入手が難しい開発者にとって画期的なツールだ。
これにより、従来のアプローチでは避けられなかったリモートサーバーやクラウドベースのGPUインスタンスの制約から解放され、開発者はGPUの入手性に悩むことなく、既存のワークフローを使用して、ローカルでアプリケーションを開発できる。
localllmの主な機能と利点
- GPU不要のLLM実行:
localllm
はGPUリソースが不足していても、CPUとメモリでLLMを実行できる。 - 生産性の向上: Google Cloudエコシステム内で直接LLMを使用でき、リモートサーバーのセットアップや外部サービスの依存を軽減する。
- コスト効率: GPUのプロビジョニングに関連するインフラコストを大幅に削減し、Google Cloud環境内でCPUとメモリでLLMを実行することで、リソースの効率的な利用が可能だ。
- データセキュリティの向上: CPUとメモリ上でLLMをローカルに実行することで、データセキュリティとプライバシーが向上する。
- Google Cloudサービスとのシームレスな統合:
localllm
は、Google Cloudのデータストレージ、機械学習APIなど、様々なサービスと統合されている。
localllmを始めるには
localllm
を始めるには、GitHubリポジトリを訪れ、詳細なドキュメントや手順を確認してほしい。リポジトリには、HuggingFaceリポジトリの量子化モデルを使用したサンプルプロンプトクエリの実行手順も提供されている。
詳細はNew localllm lets you develop gen AI apps locally, without GPUsを参照してほしい。