03 8月 2025

次期GPT系モデルかもしれない「Horizon Beta」のコーディング性能を検証する

2025年7月30日、OpenRouter上に「Horizon Alpha」という詳細不明のステルスモデルが登場しました。その後「Horizon Beta」という名前に置き換わりました。このモデルは、OpenAIの次期モデルのテスト用ではないか？と注目を集めています。今回は、このモデルの性能をコーディングタスクで検証しました。

https://openrouter.ai/openrouter/horizon-beta

特徴

コンテキストウィンドウ: 256K（GPT-4.1の1M、o3/o4-miniの200Kと比較して中規模）
スループット: 126.9 tps（Sonnet 4の64.50 tpsの約2倍。コーディング時に体感で早い）
Reasoning機構: なし

本当にOpenAI系のモデルなのか？

主にRedditやXでOpenAI系のモデルである可能性が議論されています。過去にもQuasar Alpha/Optimus AlphaがGPT-4.1リリース前に登場した経緯があり、今回も同様のパターンかもしれません。

Horizon Beta - new openai open source model?
by u/popsumbong in LocalLLaMA

直系のGPT-5ならコンテキストウィンドウは１Mを超えそうですし、予告されているオープン系のモデルもしくは、新たなエージェント・コーディング特化モデルの可能性もあります。

ちょうど、Kimi K2、GLM-4.5、Qwen3 Coderなどの中華系のSonnet 4代替が似たようなコーディング性能なので、比較対象として位置づけられそうです。

検証方法

laiso/exercism-typescriptデータセットから、LLMの正解率が低い25問を選定し、OpenCodeを使用して各モデルの性能を比較しました。全てのモデルで同一条件とし、TypeScriptの課題を解いてユニットテストを通すタスクを実行させました。

このベンチマークの特徴はTypeScriptのビルドとテストというLLMが手こずりがちな種類の作業と、コマンド実行から失敗までのフィードバックループでエージェントのTool呼び出し性能を測る意図があります。

コーディングの内容としてはお題に対する単一ファイルへのロジックを実装するものなので、「最低限の指示を守ってコードを生成し、タスクの成功を確認できるか」というベースラインを見るためのものです。

大規模なコードベースの一部を修正するという種類のタスクとは傾向が異なります。LLMの高性能化に伴いスコア計測はカンストしつつあり、Aiderではプログラミング言語を横展開させてpolyglo化（複数の言語を話す人）しましたが、筆者としてはより実際のプロジェクトに近い指標がもっと欲しいところです。

検証結果

主要モデルとの比較

エージェント	モデル	成功率	平均実行時間	特徴
OpenCode	Horizon Beta（プロンプト改善前）	68.0% (17/25)	41.6秒	高速だがテスト実行せず完了判定
OpenCode	Horizon Beta（プロンプト改善後）	88.0% (22/25)	49.5秒	「テスト完了必須」追加で改善
OpenCode	Claude Sonnet 4	88.0% (22/25)	101.8秒	高精度だが時間がかかる
OpenCode	GPT-4.1	8.0% (2/25)	10.7秒	低精度、すぐ諦める
OpenCode	GLM-4.5	84.0% (21/25)	137.6秒	バランス型
OpenCode	Qwen3-Coder	72.0% (18/25)	323.6秒	最も遅い

エージェント別の比較

エージェント	モデル	成功率	平均実行時間
Aider	Horizon Beta	60.0% (15/25)	36.3秒
Qwen Code	Horizon Beta	68.0% (17/25)	39.0秒
OpenCode	Horizon Beta	68.0% (17/25)	41.6秒
Goose	Horizon Beta	72.0% (18/25)	51.3秒
Claude Code	Sonnet 4	96.0% (24/25)	179.8秒

※結果は全て「プロンプト改善前」のもの

プロンプトの調整

Horizon Betaは初期状態では68%の成功率でしたが、「完了条件：必ず全てテストがパスすること」をプロンプトに追加することで88%まで向上しました。これは、モデルがタスクの完了判定を甘めに行う（つまりサボる）傾向があるためです。Claude Sonnetはこの判定が厳格で、それがToolの試行回数と実行時間に表れています。

ちなみに以下の記事で書いたように、タスク中断を異常に諦めないDevinもこのレイヤーで強化が入っていると筆者は睨んでいます。

完全自律型AIエージェントのベンチマーク(2): Codex、Jules、OpenHandsを加えて

TL;DR * Devinは長時間タスクの完走能力が他のエージェントより優れています。その分コストも高いです。 * Claude Code Actionはタスク実行速度が最も速く、成功率も高いです。コストパフォーマンスも高いです。 * その他のエージェントは内部セッションタイムアウトがあり、タスクを中断します。長時間タスクには向きません。最終結果エージェント名完了問題数／実行時間コスト 1問あたり正解数／正解率結果 🏅Devin 98問／216分 $36 $0.37 92問／91.1% 長時間タスク完遂能力抜群、コスト高 🥈Claude Code Action 92問／42分 $7.89 $0.09 65問／64.4% 最速・高コスパ 🥉GitHub Copilot Coding Agent