Claude Sonnet 5 vs ChatGPT、「賢い回答」より「仕事の完遂」で比較したら

7月2日、Graham Barlowが「I tested Claude Sonnet 5 vs ChatGPT as a real assistant, not a chatbot（チャットボットではなく実務アシスタントとして、Claude Sonnet 5とChatGPTを比較した）」と題した記事を公開した。この記事では、Claude Sonnet 5とChatGPTを「チャットボット」ではなく「実務アシスタント」として使い比べた実践レビューについて詳しく紹介されている。

AIの競争軸が「賢い回答」から「仕事の完遂」へ移っている

AnthropicがClaude Sonnet 5を全ユーザー向けにリリースした。Claude Sonnet 5は、Anthropicのモデルシリーズにおける「Sonnet」グレードの最新世代であり、前世代のClaude 3.7 Sonnetから引き継いだコーディング・推論能力をさらに強化した位置づけとされている。Anthropicはこのモデルを「マルチステップ（複数の操作・判断を連鎖させる）のソフトウェアエンジニアリング作業」「継続的なコーディング」「ツール使用」「デバッグ」「複雑な技術的文脈」向けに構築したと説明しており、ブラウザやターミナルを操作し、より自律的に動作する能力を持つとしている。

TechRadarのシニアエディター（AI担当）Graham Barlowは、コーディング用途ではなく「仕事を終わらせるプロンプト」でClaude Sonnet 5を評価した。「チャットボットに質問する」のではなく「エージェント（人間の代わりに複数のタスクを自律的にこなすAIシステム）に仕事を依頼する」というアプローチだ。

テスト1：旅行計画――Claudeが一歩リード

Barlowが最初に試したのは、家族（大人2人、10代2人）のイギリス・バース旅行計画だ。単に「計画して」と頼むのではなく、以下のような構造化されたプロンプトを使った。

自分で今すぐ完了できる部分はどこか
ツールや情報が必要な部分はどこか
人間の判断が必要な部分はどこか

を明示させたうえで、「最初の答えで止まらず、できる限り仕事を進めよ」と指示している。

Claude Sonnet 5の反応は際立っていた。 旅程、交通手段、ランチ候補、アクティビティ（ローマン・バスの見学）を提示したうえで、インタラクティブな地図を生成。「完了した内容」「人間の対応が必要な内容」「前提としたこと」「確認チェックリスト」「次のアクション」という整理された出力を返した。さらに、訪問日を伝えるとビジュアルの天気レポートまで表示した。

同じプロンプトをChatGPT-5.5 Medium（記事執筆時点でOpenAIが提供するChatGPTの中間グレードモデル。正式な公開名称については元記事執筆時の表記に準じている）にも試したところ、こちらもエージェントとして動作し、タスク完了の通知機能も備えていた。ただし、地図などのビジュアル要素は一切なく、最終レポートを渡された印象で、会話が続く感覚には乏しかった。

両モデルとも、子供の年齢・学生証の有無・移動手段・訪問日を変更するたびに正確に対応。長男が大学生であることから、ローマン・バスへの無料入場資格があることを両モデルが独立して指摘したのは印象的だった。

総合評価としてBarlowはこのテストをClaudeの勝利とした。「アジェンティックな動作（自律的にタスクを進める動作）に最適化されていることが明確に見える」とのことだ。

テスト2：家計簿ツール作成――引き分け

次のテストは別ドメインでの検証だ。「シンプルな家計簿トラッカーをスプレッドシートか小ツールとして作れ」と依頼した。

ChatGPT：各費目の支出と予算を比較する棒グラフ付きスプレッドシートを生成
Claude：予算欄を省略し、実際の支出のみを記録してカテゴリ別の円グラフを生成

Claudeの初期出力はよりシンプルで把握しやすいものだった。両モデルとも.xlsxファイルを提供したが、ClaudeだけがGoogle Driveへ直接アップロードするボタンを用意した。

その後、ChatGPTに「グラフを円グラフにしてほしい」と追加指示したところ、予算と実績の両方を1つの円グラフに収めようとして一時つまずいたが、最終的に解決。Claudeにも「予算欄を追加して棒グラフに変更」と依頼したところ、問題なく対応した。

このテストでは両モデルを明確に分離できなかった。どちらもマルチステップタスクと要件変更への対応力を証明した。 テスト1ではビジュアル出力の有無でClaudeが差をつけたが、このテストでは初期出力のアプローチ（予算欄の有無）こそ異なるものの、追加指示への対応品質・最終成果物の完成度は同等と評価されている。ツール連携（Google Drive）という実務的な利便性でClaudeが一歩踏み込んだ印象を残したが、勝敗を分けるには至らなかった。

「最もスマートなチャットボット」ではなく「仕事を終わらせるアシスタント」へ

Barlowの結論は明快だ。

Claude Sonnet 5は「回答を返す」よりも「仕事を完遂する」という設計思想で動いている。ChatGPTも同等に近いが、Claudeの方が自然に仕事寄りに組織されていた。

現時点では、どちらのモデルも予約や実際の操作を代行することはできない。確認・判断・実行は依然として人間が担う必要がある。しかし方向性は明確だ。AIの競争軸は「誰が一番賢いチャットボットか」から「誰が一番完成した仕事に近づけるか」へと移っている。

詳細はI tested Claude Sonnet 5 vs ChatGPT as a real assistant, not a chatbot（チャットボットではなく実務アシスタントとして、Claude Sonnet 5とChatGPTを比較した）を参照していただきたい。