AlibabaのAIエージェントフレームワーク「SkillWeaver」がトークン消費を99%超削減 — 884,000から1,160トークンへ、「大きいモデルを使えばいい」が通用しないことも示す

7月3日、Dataconomyが「Alibaba framework allegedly cuts AI agent token use by 99%」と題した記事を公開した。AlibabaのAIフレームワーク「SkillWeaver」が、エンタープライズAIエージェントのトークン消費量をクエリあたり884,000トークンから1,160トークンへと99%超削減するという。エージェントのAPIコストが実用上の壁になっているチームにとって、見過ごせない数字だ。

トークン消費を884,000から1,160に

AIエージェントの実用化において、ツール数が増えるほどコンテキストウィンドウが圧迫され、推論コストが跳ね上がるという問題は多くのエンジニアが直面している。SkillWeaverはこの問題に正面から取り組んだフレームワークだ。

元記事によると、SkillWeaverを使うとクエリあたりのトークン消費が884,000トークンから1,160トークンへと激減する。削減率は99%超。ツールライブラリ全体をエージェントに渡す従来のアプローチと比較した数字だ。APIコストの削減と応答速度の向上が同時に実現できる。

3ステージの処理パイプライン

SkillWeaverはDecompose → Retrieve → Composeの3段階で動作する。

Decompose：LLMが複雑なユーザークエリを複数のサブタスクに分解する
Retrieve：埋め込みモデル（embedding model）を使い、スキルライブラリから各サブタスクに対応する候補ツールを検索する
Compose：各ツールの互換性を評価し、実行計画をDAG（有向非巡回グラフ）として定式化する

ここで重要なのが、各ステージをツールライブラリ全体ではなく「必要なスキルだけ」に絞って処理する点だ。現在の多くのAIフレームワークがツール選択を一度の判断で行う（one-shot）のに対し、SkillWeaverは反復的なフィードバックループを採用している。

SADフィードバックループが精度を大きく左右する

SkillWeaverの核心技術がSAD（Skill-Aware Decomposition）だ。LLMが汎用的な記述を生成しがちな問題に対処するため、以下のサイクルを回す。

LLMが初期プランを生成
対応するスキルを検索
検索結果をもとにデコンポジションを修正

このループにより、LLMの出力がツールライブラリの技術的ボキャブラリーと整合するよう調整される。

効果は数値にも表れている。研究チームが評価用に構築したCompSkillBench（2,209の実世界スキルをベースにした300件のマルチステップクエリからなるベンチマーク）でのテスト結果では、SADフィードバックループにより分解精度が**51.0%から67.7%に向上。上位モデルでは92%**の精度に達した。

中核エンジンには70億パラメータのQwen2.5-7B-Instructを使用している。

「大きいモデルを使えばいい」わけではない

研究で浮かび上がった興味深い知見がある。SADなしの素朴なセットアップで大規模モデルを使った場合、小規模モデルよりパフォーマンスが低下したという結果だ。不必要なタスク分割が発生するためとされている。ツールのボキャブラリーとの適切な整合の方が、単純なモデルスケールアップより効果が高いことが示された。

比較対象として示された他手法の精度（いずれもCompSkillBenchでの測定値）も記しておく。

LLM-Direct（ツール検索を直接LLMに任せる方式）：21.1%
ReActエージェント：0%

ReActの0%という数値は極端に見えるが、元記事がCompSkillBenchという特定のマルチステップ・マルチツール構成を前提としたベンチマークでの結果として報告しているものだ。汎用的なReActの能力を示すものではなく、あくまでこのベンチマーク設定における比較値として読むべきだろう。

実装と現状の制約

ソースコードは未公開だが、研究チームはプロンプトテンプレートを公開しており、LangChainやLlamaIndexといった既存ライブラリで実装可能だとしている。事前にツールライブラリをベクトル化し、FAISSインデックスを構築する必要があるが、短時間で完了するとされている。

ただし、現時点での明確な限界がある。マルチステップのツールチェーン中にエラーが発生した場合のリカバリー機能がない点だ。1ステップが失敗するとチェーン全体が崩壊する。論文自体もこの点を課題として挙げており、エラーハンドリング機構の改善が今後の課題とされている。

論文はarXivで公開されている（arxiv.org/abs/2606.18051）。

詳細はAlibaba framework allegedly cuts AI agent token use by 99%を参照していただきたい。