Claude Codeがアホになる問題

最近一部のClaude Codeユーザーの間で「性能が急激に劣化している」という報告が多発しています。具体的には、指示の内容を忘れて見当違いの作業をするというもので「これはClaude Codeのコンテキスト処理の問題ではないか?」と憶測を呼んでいます。

Claude Codeの性能劣化に関するX投稿数を集計

※この話題はバージョン1.0.63時点のものです。

「バージョン1.0.24に固定せよ」

この問題に対して、ユーザーからの報告と対処法が以下で説明されています。

Critical: Claude Code context amnesia causes silent code deletion · Issue #4487 · anthropics/claude-code
Environment Platform: Claude Code CLI Claude CLI version: 1.0.61 Operating System: macOS 15.5 (Build 24F74) Terminal: Terminal App Bug Description Critical amnesia issue: Claude Code reads codebase…

Issueの作成者のNeaByteLab氏は「Claude Codeがコードベースを一度読み込んだ後、会話が数回進むとすべての文脈を失い、その結果コードの一部がサイレントに削除されたり、不要なコードが追加されたりする」と報告し、自身の分析でキャッシュ処理系に問題があるのではないかと推測しています。

その後、別のユーザーPiotrMocan氏が「バージョン1.0.24に下げるとこの問題が解消された」とコメントし、NeaByteLab氏もそれに応じて「バージョン1.0.24の方がずっと良い」とコメントします。その後PiotrMocan氏は以下のIssueを作成しています。

Feedback: Significant regression in software design and contextual awareness between versions 1.0.24 and 1.0.61 · Issue #4520 · anthropics/claude-code
This issue summarizes critical feedback regarding the behavior of recent versions of the Claude Code agent, based on a direct comparison of code generation outputs. While the agent has shown improv…

このやりとりを見た日本のユーザーたちもXで次々にダウングレードの報告をします。どの程度のユーザーがこの問題に直面してダウングレードによって解決した(と感じている)のかは不明ですが、実際に改善されたという投稿がいくつかありました。

Claude Codeはアホになってしまったのか?

筆者自身はこの問題に直面していなかったので「マルウェアもこういう感じで伝染していくんだろうな」と思いつつ静観していたのですが、改めて考えると不可解な現象です。

バージョン1.0.24は6/14に配信されたバージョンで、そこから7/30の1.0.63の間でクライアントプログラムのコンテキスト処理にバグが入ったのでしょうか。もしくは問題はサーバーの先にいるモデルのレイヤーで発生しているのでしょうか、APIのリクエストレイヤーの問題の可能性すらあります。

さらには、AnthropicはClaudeのAPI利用に8月28日から既存の5時間ごとの利用制限に加えて、週次利用制限を適用すると発表しました。現時点でキャパシティの問題を抱えているので内部でどのような調整を行なっていても不思議ではありません。

コンテキスト圧縮の欠陥?

思うに、AIエージェント製品の再現性の低さがこの手の問題のデバッグを困難にしています。Issueの報告者たちはスクリーンショットベースで対話しており、Claude Codeのデバッグログを有効にすることなしに、Claude Code自身にパッケージコードを解析させて判断しています。手元で今までどのような会話をして現在のコンテキスト状態がどうなっているのかがも不明です。

願わくば早めにClaude Codeのエラーレポート機能を詳細化したり、そもそもソースコードが公開されることを望みます。今のままだとリバースエンジニアリングベースで試行錯誤するしかありません。

しかし筆者はNeaByteLab氏のいうキャッシュの不整合により、途中文脈の消失が発生する可能性は十分あると感じました。実際、Claude CodeのAutoCompactはユーザーに通知することなく内部Messageを切り詰めます。会話ごとに手動で/compactを実行すると意図しないcompactで会話が壊れる擬似体験はできるはずです。

どこかのタイミングで(たとえば/agentコマンド追加時)で呼び出し元のMessageのペイロード効率が悪化してAutoCompactの頻度が増えるというのは、これまでのClaude Codeの挙動からして結構考えられます。

興味のある方はclaude --debug --verboseで起動してトークンカウンタの増加を観察してみるのがいいでしょう。

どこでこの問題は起きているのか?

ところで筆者は念のため、XとBlueskyの英語検索、HackerNews、Redditで喫緊にこの問題が議論されているのかを確認しました。

そこでは前述の週次利用制限への反発やAnthropicへの批判はあるものの、日本のコミュニティのような瞬発的な反応はありませんでした。Claude Codeが意図しない動作をした・役に立たないコードを書いた・チルダディレクトリごと消した(!)、など期待の裏返しのような通常営業のコメントがほとんどでした。

しかし前述GitHubのIssueにはいくつかコメントがついているのである程度発生しているユーザーはいるようです。

コミュニティの密度的な問題で時差が起きているのか、ミームのごとく日本Xコミュニティ内で加熱しているのかはまだ不明です。

Subscribe to laiso

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe