テキストをPNG画像に変換してClaude Codeのコストを平均59%〜最大70%削減するOSSツール「pxpipe」

7月5日、The Decoderが「Open-source tool pxpipe hides text in PNGs to cut Claude Code and Fable 5 token costs up to 70%」と題した記事を公開した。テキストをそのまま送るより、PNG画像に変換して送る方が安い——AIモデルの料金体系が生んだ逆説を実用ツールとして実装したのが、開発者Steven Chong氏が公開したOSS「pxpipe」だ。

テキストを画像として送ると安くなる、という逆転の発想

AIモデルへの入力コストが高騰する中、pxpipeはシンプルな価格モデルの非対称性を突いたアプローチで注目を集めている。

仕組みはこうだ。Anthropicの料金体系では、テキストは1文字あたり約1トークンとして課金される。一方、画像はピクセル寸法に基づく固定トークン数で課金され、画像の中にどれだけのテキストが詰め込まれていても料金は変わらない。つまり、コードやJSONのような密度の高いテキストを画像としてレンダリングすれば、画像トークン1つあたり約3.1文字を詰め込める計算になる。

pxpipeはこれをローカルプロキシとして実装している。Claude Codeへのリクエストを横取りし、システムプロンプト、ツールのドキュメント、古いチャット履歴といった「重くて静的な部分」を画像に変換してから送信する。直近のメッセージやモデルの出力は通常のテキストとして通過させる。

下の画像は、モデルが実際に受け取る入力のイメージだ。約48,000文字のシステムプロンプトとツールドキュメントが、1枚の高密度なPNGに圧縮されている。テキストのままであれば約25,000トークンかかるところが、画像にすると約2,700トークンで済む。

モデルが受け取る圧縮済みテキストの実例。数千のテキストトークンが1枚のPNGに置き換わる。| 画像: Steven Chong

実測で平均59%〜最大70%のコスト削減

Chong氏によると、平均的な節約率は59〜70%。Fable 5を使ったデモでは、1セッションのコストが$42.21から$6.06にまで下がったとしている。

ただし、欠点もある。

精度が100%ではない（ロッシー変換＝非可逆変換。元のテキストデータが画像を介することで完全には復元されない変換方式）。ハッシュ値のような厳密な文字列が、画像から読み取る際に化ける場合がある
処理が遅くなる。モデルがテキストを直接読む代わりに、ビジョンエンコーダ（画像認識用の前処理モジュール）を通す必要があるため

なお、本記事に登場するモデル名（Fable 5、Opus 4.7/4.8、GPT 5.5、GPT 5.6）はいずれも2026年時点の最新モデル群であり、それぞれ世代・提供元が異なる点に注意されたい。

モデルごとの精度差も大きい。Fable 5は数学問題のベンチマークで100%の精度を記録している。一方、Opus 4.7と4.8は約7%の誤読が確認されており、GPT 5.5も画像コンテキストでの精度が低い。これら3モデルはデフォルトで無効化されており、手動でのみ有効にできる。デフォルトでサポートされるのはFable 5とGPT 5.6の2モデルだ。

ベンチマークや評価結果の詳細はリポジトリ内のFINDINGS.mdにまとめられている。

新しい発想ではないが、実用化に踏み込んだ点が面白い

テキストを画像として圧縮してAIに渡すというアイデア自体は既存の研究にも存在する。DeepSeekはOCRシステムでこのアプローチを採用しており、技術論文によれば情報の97%を保ちながら最大10倍の圧縮を実現しているとされている。

pxpipeがユニークなのは、これをClaude Codeという実際の開発ワークフローに組み込める形で提供した点だ。ローカルプロキシとして動作するため、既存のClaude Code環境に対して追加設定のみで導入できる設計になっている。

なお、記事中でも言及されているとおり、もしこの手法が広く普及すれば、AI企業側が画像処理の価格を引き上げる可能性もある。抜け穴を突いた最適化手法の宿命ともいえる。

詳細はOpen-source tool pxpipe hides text in PNGs to cut Claude Code and Fable 5 token costs up to 70%を参照していただきたい。