次期GPT系モデルかもしれない「Horizon Beta」のコーディング性能を検証する

2025年7月30日、OpenRouter上に「Horizon Alpha」という詳細不明のステルスモデルが登場しました。その後「Horizon Beta」という名前に置き換わりました。このモデルは、OpenAIの次期モデルのテスト用ではないか?と注目を集めています。今回は、このモデルの性能をコーディングタスクで検証しました。

https://openrouter.ai/openrouter/horizon-beta

特徴

  • コンテキストウィンドウ: 256K(GPT-4.1の1M、o3/o4-miniの200Kと比較して中規模)
  • スループット: 126.9 tps(Sonnet 4の64.50 tpsの約2倍。コーディング時に体感で早い)
  • Reasoning機構: なし

本当にOpenAI系のモデルなのか?

主にRedditやXでOpenAI系のモデルである可能性が議論されています。過去にもQuasar Alpha/Optimus AlphaがGPT-4.1リリース前に登場した経緯があり、今回も同様のパターンかもしれません。

Horizon Beta - new openai open source model?
by u/popsumbong in LocalLLaMA

直系のGPT-5ならコンテキストウィンドウは1Mを超えそうですし、予告されているオープン系のモデルもしくは、新たなエージェント・コーディング特化モデルの可能性もあります。

ちょうど、Kimi K2GLM-4.5Qwen3 Coderなどの中華系のSonnet 4代替が似たようなコーディング性能なので、比較対象として位置づけられそうです。

検証方法

laiso/exercism-typescriptデータセットから、LLMの正解率が低い25問を選定し、OpenCodeを使用して各モデルの性能を比較しました。全てのモデルで同一条件とし、TypeScriptの課題を解いてユニットテストを通すタスクを実行させました。

このベンチマークの特徴はTypeScriptのビルドとテストというLLMが手こずりがちな種類の作業と、コマンド実行から失敗までのフィードバックループでエージェントのTool呼び出し性能を測る意図があります。

コーディングの内容としてはお題に対する単一ファイルへのロジックを実装するものなので、「最低限の指示を守ってコードを生成し、タスクの成功を確認できるか」というベースラインを見るためのものです。

大規模なコードベースの一部を修正するという種類のタスクとは傾向が異なります。LLMの高性能化に伴いスコア計測はカンストしつつあり、Aiderではプログラミング言語を横展開させてpolyglo化(複数の言語を話す人)しましたが、筆者としてはより実際のプロジェクトに近い指標がもっと欲しいところです。

検証結果

主要モデルとの比較

エージェント モデル 成功率 平均実行時間 特徴
OpenCode Horizon Beta(プロンプト改善前) 68.0% (17/25) 41.6秒 高速だがテスト実行せず完了判定
OpenCode Horizon Beta(プロンプト改善後) 88.0% (22/25) 49.5秒 「テスト完了必須」追加で改善
OpenCode Claude Sonnet 4 88.0% (22/25) 101.8秒 高精度だが時間がかかる
OpenCode GPT-4.1 8.0% (2/25) 10.7秒 低精度、すぐ諦める
OpenCode GLM-4.5 84.0% (21/25) 137.6秒 バランス型
OpenCode Qwen3-Coder 72.0% (18/25) 323.6秒 最も遅い

エージェント別の比較

エージェント モデル 成功率 平均実行時間
Aider Horizon Beta 60.0% (15/25) 36.3秒
Qwen Code Horizon Beta 68.0% (17/25) 39.0秒
OpenCode Horizon Beta 68.0% (17/25) 41.6秒
Goose Horizon Beta 72.0% (18/25) 51.3秒
Claude Code Sonnet 4 96.0% (24/25) 179.8秒

※結果は全て「プロンプト改善前」のもの

プロンプトの調整

Horizon Betaは初期状態では68%の成功率でしたが、「完了条件:必ず全てテストがパスすること」をプロンプトに追加することで88%まで向上しました。これは、モデルがタスクの完了判定を甘めに行う(つまりサボる)傾向があるためです。Claude Sonnetはこの判定が厳格で、それがToolの試行回数と実行時間に表れています。

ちなみに以下の記事で書いたように、タスク中断を異常に諦めないDevinもこのレイヤーで強化が入っていると筆者は睨んでいます。

完全自律型AIエージェントのベンチマーク(2): Codex、Jules、OpenHandsを加えて
TL;DR * Devinは長時間タスクの完走能力が他のエージェントより優れています。その分コストも高いです。 * Claude Code Actionはタスク実行速度が最も速く、成功率も高いです。コストパフォーマンスも高いです。 * その他のエージェントは内部セッションタイムアウトがあり、タスクを中断します。長時間タスクには向きません。 最終結果 エージェント名 完了問題数/実行時間 コスト 1問あたり 正解数/正解率 結果 🏅Devin 98問/216分 $36 $0.37 92問/91.1% 長時間タスク完遂能力抜群、コスト高 🥈Claude Code Action 92問/42分 $7.89 $0.09 65問/64.4% 最速・高コスパ 🥉GitHub Copilot Coding Agent

モデル別のタスク遂行特性

  • Claude系: Tool呼び出しを積極的に行い、時間をかけても解決を目指す
  • GPT系: 早期に諦める傾向があり、特にGPT-4.1は顕著
  • Gemini系: Claudeほどではないが、GPTよりはマシなレベル
  • Horizon Beta: 高速だが、明示的な指示がないとテスト実行を省略なのでGPTの傾向に近い

エージェント実装の影響

同じClaudeモデルを使用していても、Claude CodeとOpenCodeでは実行時間に大きな差があります(179.8秒 vs 101.8秒)。これはエージェントのシステムレイヤーでの最適化の差で発生するのでしょう。

Claude Codeの実装にはAnthropicのAPIだけが対応するパラメータやフラグが入っています。例えばinterleaved thinkingはツール呼び出しの前後や合間に複数回推論を挟み、段階的に判断・分析・意思決定を行います。

Building with extended thinking - Anthropic

おそらくこの要因で、Claude Codeで自動化した方がタスクの完了までを丁寧に、確認し時間をかけて成功まで導きます。

まとめ

謎の覆面モデルHorizon Betaは、Sonnet 4レベルのスコアと約2倍のコーディングタスク処理速度を記録しました。早いことはいいことです。

ただし、GPT系のモデルに現れる「デフォルトではタスクを早期終了する傾向」があり、プロンプトで明示的な完了条件の指定が必須でした。

今後、このモデルがOpenAIの新しいモデルとして正式発表される可能性もあります。高速処理が求められる場面では、Sonnet 4の有力な代替候補となりますが、Claude CodeとSonnet 4の組み合わせのように、モデルに最適化したエージェントに何を選ぶのかは難しいところです。

今回の試験ではOpenCodeの他にGooseAiderQwen CodeとHorizon Betaを組み合わせて同じ条件でスコアを出し、どれも同じ水準になることを確認しました。

OpenAIにはCodex CLIというコーディングエージェントがいますが、これはリサーチプレビューの段階でClaude CodeやOpenCodeで利用した時のようなスコアは出せません。GPT-5登場時にClaude Codeに対応できるようなコーディングエージェントの更新があるとよいですね。

Subscribe to laiso

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe