7月2日、MarkTechPostが「Meet WebBrain: An Open-Source, Local-First AI Browser Agent That Reads Pages and Automates Tasks in Chrome and Firefox」と題した記事を公開した。ChromeとFirefoxで動作するオープンソースのローカルファーストAIブラウザエージェント「WebBrain」について詳しく紹介している。
ローカルLLMでブラウザを動かす
ブラウザ自動化ツールといえば、クラウドAPIへの依存が前提になることが多い。WebBrainはその構造を崩す。llama.cppやOllamaなどのローカルLLMをバックエンドに指定すれば、ページデータは一切外部に送信されない。そしてAct modeの実装においてChrome DevTools Protocol(CDP)を採用した点が、技術的に最も注目すべき設計判断だ——詳細は次のセクションで説明する。
開発者はEmre Sokullu氏で、ライセンスはMIT。GitHubでソースを公開している。ChromeとFirefoxの両方に対応しており、ブラウザのサイドパネルにUIが収まる形だ。
Act modeの実装が面白い:Chrome DevTools Protocolを使う理由
WebBrainはAsk modeとAct modeの2つのモードを持つ。
- Ask mode:ページを読むだけ。コンテンツスクリプト経由で読み取り専用
- Act mode:クリック・入力・スクロール・ナビゲーションを実行
エンジニア目線で面白いのはAct modeの実装だ。多くのブラウザ拡張がcontent scriptでDOM操作をするのに対し、WebBrainは**chrome.debugger API経由でChrome DevTools Protocol(CDP)を使う**。
この設計には明確な理由がある。CDPを経由することで生成されるイベントは「trusted input events」として扱われ、content scriptが直接叩くイベントを無視するモダンなサイトでも動作する。さらに、通常のcontent scriptでは届かないクロスオリジンiframeやShadow DOMにもアクセスできる。
代わりに制約もある。Chromeは「WebBrain started debugging this browser」というバナーを表示する。Firefox側にはCDPの相当APIがないため、FirefoxのAct modeはChromeより機能が限定される。
温度パラメータは固定されている。Act modeは0.15、Ask modeは0.3、ビジョン用スクリーンショット説明は0だ。再現性を優先した設計である。
セキュリティ設計:プロンプトインジェクション対策
Webページ上で動くエージェントはプロンプトインジェクション(悪意あるWebページがエージェントの行動を乗っ取る攻撃)のリスクにさらされる。WebBrainはこれに対して明示的な設計方針を持つ。
- エージェントはデフォルトで読み取り専用のAsk modeから始まる
- 結果に影響する操作の前には確認を求める(Permissions設定でオフにも可能)
- 作成・送信・購入など「書き込み」操作にはUIを経由する。REST/GraphQLエンドポイントへの直接ミューテーション呼び出しは拒否する
ページ読み取り(価格比較、READMEの取得など)にはfetch_urlやresearch_urlツールを使うバックグラウンドHTTPを使い、この場合は厳格なルールは適用されない。
ローカルサーバーの立ち上げ
ローカルで動かす場合のセットアップは以下の通り。
# llama.cpp — コンテキストウィンドウは16k以上を推奨
llama-server -m your-model.gguf -c 16384 --port 8080
# Ollama(OpenAI互換)— 拡張機能オリジンの環境変数を設定
OLLAMA_ORIGINS="*" ollama serve
# 設定画面でベースURLを http://localhost:11434/v1 に指定
推奨モデルはQwen3.6-35B-A3B(Alibaba Cloud製のMoEアーキテクチャモデル。公式リポジトリ上の正式名称はQwen3.6-35B-A3B)。プロジェクト独自のスクリーンショットベンチマークでGemma 4を上回ったとされる。動作環境としてRTX 5090が理想だが、RTX 4090ではINT4 AutoRound量子化で動作する。
各プロバイダーはBaseLLMProviderを継承するクラスとして実装されており、レスポンスは以下の形式に正規化される。
{ "content": "string", "toolCalls": "Array|null", "usage": "Object|null" }
対応プロバイダーと料金
ローカル:llama.cpp、Ollama、LM Studio、Jan、vLLM、SGLang
クラウド:OpenAI、Anthropic Claude、Gemini、Mistral、DeepSeek、xAI Grok、Groq、MiniMax、Alibaba Cloud(Qwen)、Nvidia NIM、OpenRouter
ローカル運用なら追加コストはゼロ。マネージドの「WebBrain Cloud」を使う場合は月額$5/デバイスプロファイル(フェアユースポリシーあり)。
クラウドAPIのトークンコストを抑える仕組みも備わっている。スクリーンショットはJPEG圧縮して送信し、コンテキストが膨らんだ場合は古い会話履歴とツール出力から順に削除される。テキスト計画用モデルとビジョン用モデルを別々に設定することも可能だ。
Claudeとの比較
プロジェクトのドキュメントにはClaude in Chromeとの機能比較表が掲載されている。なお、Claude in ChromeはAnthropicが提供するChrome拡張機能で、Claude ProサブスクリプションによってブラウザAIエージェント機能を利用できるものだ。WebBrainはその構造的な代替として位置づけられている。
| 項目 | WebBrain | Claude in Chrome |
|---|---|---|
| ライセンス | MIT(オープンソース) | プロプライエタリ |
| 価格 | 無料 | Claude Pro($20/月)が必要 |
| ローカルLLM | llama.cpp、Ollama対応 | 不可 |
| オフライン動作 | 可(ローカルLLM使用時) | 不可(クラウド必須) |
| Firefox対応 | あり(MV2) | なし |
OpenClawやBrowser-Useといったフレームワークはヘッドレスパイプライン向けの開発者SDKであり、WebBrainとは異なるカテゴリに属する。チャットパネルからエンドユーザーが操作するUIとして位置づけられており、両者を併用することもできる。
入手先
WebBrainはChrome・Firefox・GitHubの各チャネルから入手できる。Chrome Web StoreおよびFirefox Add-onsへの具体的なリンクはプロジェクトのGitHubリポジトリ(README)に案内されているため、そちらを経由するのが確実だ。ソースコードも同リポジトリで公開されている。
詳細はMeet WebBrain: An Open-Source, Local-First AI Browser Agent That Reads Pages and Automates Tasks in Chrome and Firefoxを参照していただきたい。