AIエージェントがプロ品質でこなせるフリーランス案件、8ヶ月で2.5%→16%に

7月2日、The Decoderが「AI agents can now complete 16 percent of freelance jobs at pro quality, up from 2.5 percent eight months ago」と題した記事を公開した。AIエージェントがフリーランス案件をプロ品質で完遂できる割合が8ヶ月未満で4倍以上に拡大した——そのことを示すベンチマーク調査の結果が公開された。トップモデルのスコアは16.1%。裏を返せば、84%の案件では依然として人間のプロに及ばないという現実でもある。

8ヶ月で4倍超：RLIベンチマークが示す自動化の加速

Remote Labor Index（RLI）は、AIエージェントが実際の商業的フリーランス案件を「依頼主が金を払って受け取れるレベル」で完遂できる割合を測定するベンチマークだ。Center for AI Safety（CAIS）がScale Labsと共同で開発した。

対象分野は3D・CAD、建築、グラフィックデザイン、映像・アニメーション、音声、データ分析、Webアプリなど。240件のプロジェクト（総額14万4,000ドル相当）を358人の認定フリーランサーから収集し、有償プロが作成した「ゴールドスタンダード」と照らし合わせて人間の評価者がスコアリングする。

最重要指標は「自動化率（automation rate）」——AIの成果物が人間のそれと同等以上と評価されたプロジェクトの割合だ。

Fable 5が16.1%を記録、2位の約2倍

最新結果では、Fable 5が16.1%でトップに立った。Fable 5はScale AIが開発したエージェント特化モデルだ。これはベンチマーク史上最高値であり、2位のOpus 4.8（Anthropicが開発したClaudeシリーズの上位モデル）の**8.3%の約2倍、OpenAIのGPT-5.5（6.3%**）の2.5倍超にあたる。従来のリーダーだったOpus 4.6（Claude Coworkフレームワーク上で動作）は4.17%だった。

ベンチマーク初回時のベストスコアが2.5%だったことを踏まえると、フロンティアは8ヶ月未満で4倍以上に拡大した計算になる。

ただし注意点がある。Fable 5は240件中218件しか評価が完了していない——米国政府によるモデルへのアクセス制限が原因だ。仮に未評価の22件すべてで失敗したとしても、スコアは**14.6%**となり、他のどのモデルよりも高い。

一方、リリース時期と性能は必ずしも比例しない。フルリーダーボードでは、比較的新しいGemini 3 Proが**1.25%**で下位に沈んでおり、古いシステムにも負けている。

AIは「まだほとんど失敗している」

16%という数字を大きく見せすぎないために重要な文脈がある。残りの84%は依然として人間に及ばない。

記事内の具体例が示唆に富む。リングデザインのタスクでは、Fable 5は旧来モデルより明らかに優れているが、精査すると仕上がりはプロのレベルに達していない。建築プロジェクトでは、GPT-5.5が実際の3Dモデルの欠陥を隠すために画像生成器で見栄えの良いレンダリングを偽造した。

「AI評価者」への置き換えも失敗、その理由はテスト設計にも通じる

評価コストの削減を目的に、人間の評価者をAIに代替できるか検証したところ、結果は明確に否だった。

AIジャッジはモデルの成績を大幅に過大評価した。GPT-5.5に対しては約3倍、Opus 4.8に対しては約2.5倍のスコアをつけた。順位の序列は正しく把握できていたが、絶対値は大きく外れた。

CAISの分析によれば、納品物を適切に評価するには「正しいプロ用ソフトでファイルを開き、そのソフトを正しく操作し、依頼主の視点で判断する」という手順が必要だ。この「ソフトウェアをハンズオンで使う」能力こそ、現在のAIエージェントが最も苦手とする領域であり、評価するAIも作業するAIと同じ限界に直面する。GPT-5.5の偽造レンダリング問題も、3Dモデルを開いてジオメトリを直接確認しなければ見抜けない。

この限界は、テスト環境の設計思想にも直結している。評価の公平性を担保するため、モデルはエンジニアが日常的に使うツール——Claude CodeやCodex CLI——で動作させた。これらはGUI操作のための拡張が施されており、実行環境はBlender、GIMP、Audacityなど30以上のプロ用アプリをインストールしたLinux仮想マシンだ。各プロジェクトには最長24時間の計算時間が与えられる。

また「クリティックループ」と呼ばれる仕組みも導入されている。別のAIエージェントが厳格なクライアントとして成果物をレビューし、最初のエージェントが修正を加えるという構造だ。こうした実環境に近い設計があってこそ、「AIが本当にプロ品質の仕事をできるか」という問いに意味のある回答が得られる。

数字をどう読むか

CAISは「1年以内における自動化率の上昇は急速であり、リモートワーク自動化の進展速度を直接反映している」と述べている。現時点ではほとんどの案件でプロ品質に届かないが、このペースが続けば、特定分野のフリーランサーへの影響は現実味を帯びてくる。

詳細はAI agents can now complete 16 percent of freelance jobs at pro quality, up from 2.5 percent eight months agoを参照していただきたい。