AnthropicがAI研究アシスタント「Claude Science」をベータ公開 — 60以上の科学データベースと計算クラスタを束ね、再現性の問題に正面から挑む

7月5日、Michal Sutterが「Anthropic Launches Claude Science Beta: A Multi-Agent AI Workbench for Reproducible Genomics, Proteomics, and Cheminformatics Pipelines」と題した記事を公開した。Anthropicが科学研究者向けのマルチエージェントAIワークベンチ「Claude Science」をベータ版としてリリースした。科学界では長年、実験の再現性確保が深刻な課題とされてきた。2010年代に広く認知された「再現性危機（Reproducibility Crisis）」では、生命科学・心理学・医学領域の多くの研究結果が第三者による再現に失敗することが示され、研究プロセスの記録・追跡手段の整備が急務とされてきた。Claude Scienceはこの課題に、AIエージェントとプロベナンス（出所）記録の組み合わせで応じようとしている。

Claude Scienceとは何か

Claude Scienceは新モデルではない。 AnthropicのClaude（既存モデル）の上に構築された、研究者向けのアプリだ。macOSとLinuxで動作し、SSH経由でリモートマシンやHPCログインノードに接続できる。Pro、Max、Team、Enterpriseプランのユーザーが対象となる。

研究者が日常的に使うデータベース、ノートブック、クラスタ端末を束ねてマルチステップのパイプラインを実行し、各結果がどのように生成されたかを記録する点が最大の特徴だ。Jupyter NotebookやGalaxy Projectなど既存の研究向けツールがデータ処理環境の整備に主眼を置くのに対し、Claude Scienceは「実行履歴の完全な追跡」と「自然言語によるエンドツーエンド操作」を核心に据えている点で性格が異なる。

マルチエージェント構成と再現性保証の仕組み

ユーザーが話しかける相手は1つの「汎用調整エージェント（coordinating agent）」だ。自然言語でリクエストを投げると、このエージェントが60以上のスキルとコネクタにアクセスし、必要に応じてサブエージェントや専門エージェントを起動する。スキルはゲノミクス、シングルセル解析、プロテオミクス、構造生物学、ケモインフォマティクスに対応する。

パイプライン実行中は独立したレビュアーエージェントが並走する。出力を逐次検査し、追跡できない引用や数値、コードと一致しない図をフラグとして立て、自己修正を行う。引用チェックをAIが自動実行する仕組みは、一般的なコーディングアシスタントにはない機能だ。

Claude Scienceが図を生成すると、正確なコード・実行環境・平文の説明・全メッセージ履歴がセットで記録される。数ヶ月後に再現や検証が必要になったときに、何をどう実行したかを遡ることができる。再現性危機への直接的な回答として機能しうる設計と言える。

図の編集も自然言語で行える。「軸を対数スケールに変えて」と指示すれば、エージェントが自分のコードを修正する。セッションをフォークして2つのアプローチを比較することも可能で、元のセッションは保持される。ネイティブで3Dタンパク質構造、ゲノムブラウザトラック、化学構造なども描画できる。

計算資源のスケーリング

大規模な解析（タンパク質フォールディング等）はラップトップ1台では足りない。Claude Scienceはリソース追加前にプランを起草し、ユーザーの承認を得てからジョブをインフラに投入する。

対応する実行環境はSSH経由の自社HPCクラスタとModal（クラウドGPUプラットフォーム）だ。1GPUから数百GPUまでスケールする。エージェントがコンテキストをメモリに保持するため、大規模データセットのロードは一度で済む。

データはラボ自身のインフラ上で動作するため、機密性の高いデータセットを外部に出す必要がない。各ステップに必要なコンテキストのみがClaudeに送られる。

対応データベースとNVIDIA BioNeMo

生物学の情報源はUniProt、PDB、Ensembl、Reactome、ClinVar、ChEMBL、GEOなど数百に及ぶ。専門エージェントがこれらを横断してクエリし、合成する。

また、NVIDIAのBioNeMo Agent Toolkitのスキルも統合されており、以下のGPUアクセラレーション対応モデルを呼び出せる：

Evo 2：ゲノミクスの基盤モデル
Boltz-2：生体分子間相互作用の予測
OpenFold3：タンパク質構造予測

実際の利用事例

ベータユーザーによる具体的な活用例が3件紹介されている。

ターゲット候補の選定：組織標的薬を開発するManifold Bioが、Claude Scienceを使って最新実験のターゲット候補を選定。各組織・ターゲットについて表面発現・トラフィッキング・安全性を評価し、自社の独自基準に照らしてランク付けをエンドツーエンドで実行。「汎用コーディングアシスタントとは違う」と述べている。
長文文献レビュー：アレン脳科学研究所のJérôme Lecoqが、長文レビュー用に約20のカスタムスキルを構築。サブエージェントが数千論文を読み込み、アクター・クリティックのエージェントペアが各セクションを執筆する。これまで最長2年かかっていたレビューを、現在は100ページ超のレビューを含む約10本手元に持つ。
ゲノム疫学：UCSFのStephen Francisがグリオーマの分子疫学研究で使用。従来の約10分の1の時間で生殖細胞系列の解析を完了し、結果を独立検証した。

拡張方法：MCPコネクタとスキル

Claude Scienceは独立した推論APIを持たないアプリだ。拡張はコネクタとスキルを通じて行い、セッションをまたいで持続する。

ラボのツールをMCP（Model Context Protocol）コネクタで接続する場合の設定例：

{
  "mcpServers": {
    "lab-eln": {
      "command": "npx",
      "args": ["-y", "@lab/eln-mcp-server"],
      "env": { "ELN_API_KEY": "REPLACE_ME" }
    }
  }
}

既存のパイプラインを再利用可能なスキルとして保存する場合、**SKILL.mdファイルを含むフォルダ**がスキルの単位となる：

---
name: rnaseq-qc
description: Run the lab's standard RNA-seq quality-control pipeline on a FASTQ directory.
---
# RNA-seq QC
1. Run `pipelines/qc.sh <fastq_dir>`.
2. Summarize the per-sample metrics.
3. Flag any sample below the QC threshold.

このスキルは以降のセッションで自動的に引き継がれる。

Claude Codeや汎用AIとの違い

Claude Scienceが狙うのは、バラバラなツール群を人間が手動でつなぎ合わせている研究者の作業フローだ。汎用AIアシスタントやClaude Codeとの最大の違いは以下の組み合わせにある。

60以上の科学データベースへの横断アクセス
引用・数値チェックを自動実行するレビュアーエージェント
HPC／Modalへの計算ジョブ投入と段階的承認フロー
図とコードを一体で記録する再現性保証（プロベナンス追跡）

再現性危機が問い続けてきた「その結果はどうやって得たのか」という問いに、実行環境ごと記録するアプローチで応えようとしている点が、既存の研究支援ツールとの本質的な差異だ。

詳細はAnthropic Launches Claude Science Beta: A Multi-Agent AI Workbench for Reproducible Genomics, Proteomics, and Cheminformatics Pipelinesを参照していただきたい。