次期GPT系モデルかもしれない「Horizon Beta」のコーディング性能を検証する
2025年7月30日、OpenRouter上に「Horizon Alpha」という詳細不明のステルスモデルが登場しました。その後「Horizon Beta」という名前に置き換わりました。このモデルは、OpenAIの次期モデルのテスト用ではないか?と注目を集めています。今回は、このモデルの性能をコーディングタスクで検証しました。
https://openrouter.ai/openrouter/horizon-beta
特徴
- コンテキストウィンドウ: 256K(GPT-4.1の1M、o3/o4-miniの200Kと比較して中規模)
- スループット: 126.9 tps(Sonnet 4の64.50 tpsの約2倍。コーディング時に体感で早い)
- Reasoning機構: なし
本当にOpenAI系のモデルなのか?
主にRedditやXでOpenAI系のモデルである可能性が議論されています。過去にもQuasar Alpha/Optimus AlphaがGPT-4.1リリース前に登場した経緯があり、今回も同様のパターンかもしれません。
Horizon Beta - new openai open source model?
by u/popsumbong in LocalLLaMA
直系のGPT-5ならコンテキストウィンドウは1Mを超えそうですし、予告されているオープン系のモデルもしくは、新たなエージェント・コーディング特化モデルの可能性もあります。
ちょうど、Kimi K2、GLM-4.5、Qwen3 Coderなどの中華系のSonnet 4代替が似たようなコーディング性能なので、比較対象として位置づけられそうです。
検証方法
laiso/exercism-typescriptデータセットから、LLMの正解率が低い25問を選定し、OpenCodeを使用して各モデルの性能を比較しました。全てのモデルで同一条件とし、TypeScriptの課題を解いてユニットテストを通すタスクを実行させました。
このベンチマークの特徴はTypeScriptのビルドとテストというLLMが手こずりがちな種類の作業と、コマンド実行から失敗までのフィードバックループでエージェントのTool呼び出し性能を測る意図があります。
コーディングの内容としてはお題に対する単一ファイルへのロジックを実装するものなので、「最低限の指示を守ってコードを生成し、タスクの成功を確認できるか」というベースラインを見るためのものです。
大規模なコードベースの一部を修正するという種類のタスクとは傾向が異なります。LLMの高性能化に伴いスコア計測はカンストしつつあり、Aiderではプログラミング言語を横展開させてpolyglo化(複数の言語を話す人)しましたが、筆者としてはより実際のプロジェクトに近い指標がもっと欲しいところです。
検証結果
主要モデルとの比較
エージェント | モデル | 成功率 | 平均実行時間 | 特徴 |
---|---|---|---|---|
OpenCode | Horizon Beta(プロンプト改善前) | 68.0% (17/25) | 41.6秒 | 高速だがテスト実行せず完了判定 |
OpenCode | Horizon Beta(プロンプト改善後) | 88.0% (22/25) | 49.5秒 | 「テスト完了必須」追加で改善 |
OpenCode | Claude Sonnet 4 | 88.0% (22/25) | 101.8秒 | 高精度だが時間がかかる |
OpenCode | GPT-4.1 | 8.0% (2/25) | 10.7秒 | 低精度、すぐ諦める |
OpenCode | GLM-4.5 | 84.0% (21/25) | 137.6秒 | バランス型 |
OpenCode | Qwen3-Coder | 72.0% (18/25) | 323.6秒 | 最も遅い |
エージェント別の比較
エージェント | モデル | 成功率 | 平均実行時間 |
---|---|---|---|
Aider | Horizon Beta | 60.0% (15/25) | 36.3秒 |
Qwen Code | Horizon Beta | 68.0% (17/25) | 39.0秒 |
OpenCode | Horizon Beta | 68.0% (17/25) | 41.6秒 |
Goose | Horizon Beta | 72.0% (18/25) | 51.3秒 |
Claude Code | Sonnet 4 | 96.0% (24/25) | 179.8秒 |
※結果は全て「プロンプト改善前」のもの
プロンプトの調整
Horizon Betaは初期状態では68%の成功率でしたが、「完了条件:必ず全てテストがパスすること」をプロンプトに追加することで88%まで向上しました。これは、モデルがタスクの完了判定を甘めに行う(つまりサボる)傾向があるためです。Claude Sonnetはこの判定が厳格で、それがToolの試行回数と実行時間に表れています。
ちなみに以下の記事で書いたように、タスク中断を異常に諦めないDevinもこのレイヤーで強化が入っていると筆者は睨んでいます。

モデル別のタスク遂行特性
- Claude系: Tool呼び出しを積極的に行い、時間をかけても解決を目指す
- GPT系: 早期に諦める傾向があり、特にGPT-4.1は顕著
- Gemini系: Claudeほどではないが、GPTよりはマシなレベル
- Horizon Beta: 高速だが、明示的な指示がないとテスト実行を省略なのでGPTの傾向に近い
エージェント実装の影響
同じClaudeモデルを使用していても、Claude CodeとOpenCodeでは実行時間に大きな差があります(179.8秒 vs 101.8秒)。これはエージェントのシステムレイヤーでの最適化の差で発生するのでしょう。
Claude Codeの実装にはAnthropicのAPIだけが対応するパラメータやフラグが入っています。例えばinterleaved thinkingはツール呼び出しの前後や合間に複数回推論を挟み、段階的に判断・分析・意思決定を行います。
おそらくこの要因で、Claude Codeで自動化した方がタスクの完了までを丁寧に、確認し時間をかけて成功まで導きます。
まとめ
謎の覆面モデルHorizon Betaは、Sonnet 4レベルのスコアと約2倍のコーディングタスク処理速度を記録しました。早いことはいいことです。
ただし、GPT系のモデルに現れる「デフォルトではタスクを早期終了する傾向」があり、プロンプトで明示的な完了条件の指定が必須でした。
今後、このモデルがOpenAIの新しいモデルとして正式発表される可能性もあります。高速処理が求められる場面では、Sonnet 4の有力な代替候補となりますが、Claude CodeとSonnet 4の組み合わせのように、モデルに最適化したエージェントに何を選ぶのかは難しいところです。
今回の試験ではOpenCodeの他にGoose、Aider、Qwen CodeとHorizon Betaを組み合わせて同じ条件でスコアを出し、どれも同じ水準になることを確認しました。
OpenAIにはCodex CLIというコーディングエージェントがいますが、これはリサーチプレビューの段階でClaude CodeやOpenCodeで利用した時のようなスコアは出せません。GPT-5登場時にClaude Codeに対応できるようなコーディングエージェントの更新があるとよいですね。