6月28日、MarkTechPostが「Liquid AI Ships LFM2.5-230M with llama.cpp, MLX, vLLM, SGLang, and ONNX Support for On-Device Inference」と題した記事を公開した。Liquid AIが公開した230Mパラメータのオンデバイス向け小型モデル「LFM2.5-230M」について詳しく紹介されている。
llama.cpp・MLX対応、293MBで動くエッジAIモデル
Liquid AIがLFM2.5-230Mをリリースした。同社がこれまでに出したモデルの中で最小のものだ。Hugging Faceでベースと指示チューニング済みの両チェックポイントがオープンウェイトとして公開されている。
このモデルが刺さるポイントは一点に絞られる。4ビット量子化で293〜375MBのメモリフットプリントに収まり、llama.cpp・MLX・vLLM・SGLang・ONNXのすべてでday-oneサポートが付いていることだ。エッジ環境でLLMを動かそうとしているエンジニアにとって、推論環境の選択肢が初日から揃っているのは珍しい。
実測のスループットはGalaxy S25 Ultraで213トークン/秒、Raspberry Pi 5で42トークン/秒。Raspberry Pi 5での動作確認が取れているのは、組み込み系での利用を本気で想定していることの表れだ。
アーキテクチャ:GQAとLIV畳み込みのハイブリッド
LFM2.5-230MはLFM2アーキテクチャをベースとした230Mパラメータのテキストオンリーモデルだ。14層構成で、うち8層が「ダブルゲートLIV畳み込みブロック」、残り6層がグループクエリアテンション(GQA) ブロックというハイブリッド構成になっている。
LIV畳み込みブロックはLiquid AIが提唱する独自の畳み込み層で、Transformerのself-attentionに代わる状態空間的な処理を担う。GQAとの組み合わせにより、アテンションのコストを抑えながらシーケンス依存関係を捉えるのがこのレイヤー構成の狙いだ。CPU推論の高速化を意識した設計でもある。
コンテキスト長は32,768トークン、語彙サイズは65,536。対応言語は英語・中国語・アラビア語・日本語を含む10言語。知識のカットオフは2024年半ばである。
ベンチマーク:230Mが800Mを上回る場面
Liquid AIが強調するのは命令追従と構造化データ抽出の性能だ。
| モデル | パラメータ数 | IFEval | IFBench | CaseReportBench | MMLU-Pro |
|---|---|---|---|---|---|
| LFM2.5-230M | 230M | 71.71 | 38.40 | 22.51 | 20.25 |
| LFM2.5-350M | 350M | 76.96 | 40.69 | 32.45 | 20.01 |
| Granite 4.0-H-350M | 350M | 61.27 | 17.22 | 12.44 | 13.14 |
| Qwen3.5-0.8B (Instruct) | 800M ※ | 59.94 | 22.87 | 13.83 | 37.42 |
| Gemma 3 1B IT | 1B | 63.49 | 20.33 | 2.28 | 14.04 |
※ Qwen3.5-0.8Bの「0.8B」は800Mパラメータを指す。タイトルで言及している「800Mパラメータ競合」はこのモデルを指している。
命令追従を測るIFEvalでは、800MパラメータのQwen3.5-0.8B(59.94)や1BのGemma 3 1B IT(63.49)を上回る71.71を記録している。
一方で苦手な領域もLiquid AI自身が明言している。広範な知識を問うMMlu-Proは20.25で、Qwen3.5-0.8Bの37.42に大きく及ばない。数学・コード生成・創作系のワークロードには推奨しないと明記されている。
ツールコールの実装パターン
LFM2.5はfunction callingを4ステップで処理する。システムプロンプトにツールをJSONで定義し、モデルが専用トークン間にPython風の関数呼び出しを生成する方式だ。
<|im_start|>system
List of tools: [{"name": "get_candidate_status",
"parameters": {"candidate_id": {"type": "string"}}}]<|im_end|>
<|im_start|>user
What is the current status of candidate ID 12345?<|im_end|>
<|im_start|>assistant
<|tool_call_start|>[get_candidate_status(candidate_id="12345")]<|tool_call_end|>Checking the current status of candidate ID 12345.<|im_end|>
<|tool_call_start|>と<|tool_call_end|>の間にPythonリスト形式で呼び出しが出力される。JSON形式での出力にも対応しており、システムプロンプトで切り替えられる。
Transformersでの最小実装
Transformers 5.0.0以上が必要な点には注意が必要だ。2026年6月時点でHugging FaceのTransformersの最新安定版がこの要件に相当するが、既存環境で旧バージョンを使用している場合はアップグレードが前提となる。推奨設定はtemperature 0.1、top_k 50、repetition_penalty 1.05。do_sample=Trueが必須なのも注意点だ。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "LiquidAI/LFM2.5-230M"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
dtype="bfloat16",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer.apply_chat_template(
[{"role": "user", "content": "What is C. elegans?"}],
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
output = model.generate(
**inputs,
do_sample=True,
temperature=0.1,
top_k=50,
repetition_penalty=1.05,
max_new_tokens=512,
)
print(tokenizer.decode(output[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))
ファインチューニング用のレシピも公開されており、SFT・DPO・GRPOをLoRAで実行するColabノートブックがLiquid AIのドキュメントから入手できる。
実機デプロイの実績:Unitree G1ロボット
ベンチマーク外の動作実績として、Liquid AIはUnitree G1ヒューマノイドロボットへの搭載を報告している。ロボット搭載のNVIDIA Jetson Orin上で完結動作させ、自然言語指示をNVIDIAのSONICフレームワークの低レベルスキル呼び出しに変換するスキル選択レイヤーとして機能させた。
SONICはNVIDIAが提供するロボティクス向けフレームワークで、高レベルの言語指示を具体的なモーションスキルへとマッピングする役割を担う。LFM2.5-230Mはそのスキル選択の判断層として組み込まれている。
訓練の概要
事前学習は19兆トークンで実施され、32Kコンテキスト拡張フェーズを含む。ポストトレーニングは3段階構成で、①大きなLFM2.5-350Mからの蒸留を含む教師ありファインチューニング、②直接選好最適化(DPO)、③マルチドメイン強化学習の順に実行される。230Mの小型モデルがより大きなモデルに競合できている背景には、この蒸留ステップがある。
詳細はLiquid AI Ships LFM2.5-230M with llama.cpp, MLX, vLLM, SGLang, and ONNX Support for On-Device Inferenceを参照していただきたい。