ts-bench v2: 数十万行規模のTypeScript製アプリの修正タスクでコーディングエージェントの性能を測る
筆者は以前よりts-benchというAIコーディングエージェントのベンチマークを作っています。 このたびv2に移行したので、その背景と設計、そして今後どう継続していくかを書きます。 GitHub - laiso/ts-bench: Benchmark CLI for comparing AI coding agents on TypeScript workloads.Benchmark CLI for comparing AI coding agents on TypeScript workloads. - laiso/ts-benchGitHublaiso なお、本記事に出てくるスコアやティアは2026年4月に試験的に回した一回分のスナップショットです。 最新ではないし、モデルやエージェント製品、評価コードが更新されれば順位は動きます。 「Opusには解けず、Sonnetには解けた課題があった」といった観測も、現時点では結論ではなく途中経過として読んでください ハーネスという用語の整理 この記事では、エージェントハーネスを、大規模言語モデル(LLM)にプロンプトを渡し、ツー