DeepSeek-V3.2-Expがリリース:コスト効率を大幅に改善したアップデート

DeepSeekは新バージョン DeepSeek-V3.2-Exp を発表しました。このモデルは、直前のV3.1-Terminusをベースに、DeepSeek Sparse Attention (DSA) と呼ばれるDeepSeek独自のSparse Attentionを導入してコスト効率を向上しています。

GitHub - deepseek-ai/DeepSeek-V3.2-Exp
Contribute to deepseek-ai/DeepSeek-V3.2-Exp development by creating an account on GitHub.

特徴

DeepSeek-V3.2-ExpのSparse Attentionは入力トークンの一部だけに注意を向ける仕組みで、入力長が増えるほど計算量削減の効果が大きくなります。

Transformerアーキテクチャは入力が長くなると必要な計算が二乗に比例して増える仕組みでしたが、DSAでは入力されたトークンを内部でインデックス化し、関連度を素早く見積もることで対象を絞り込み効率化します。

モデルの性能面では、SWE-benchなどの主要な評価指標においてV3.1-Terminusとほぼ同等のスコアを記録しており、つまり性能を維持しながらもロングコンテキスト処理能力を強化しています。

コスト面での改善

今回のリリースで最も注目すべき点は、コスト面での大幅な改善です。API利用価格はこれまでの1/2以下に引き下げられ、特にキャッシュ利用時には入力コストが $0.028/100万トークン という破格の水準にまで引き下げられました。

Models & Pricing | DeepSeek API Docs
The prices listed below are in unites of per 1M tokens. A token, the smallest unit of text that the model recognizes, can be a word, a number, or even a punctuation mark. We will bill based on the total number of input and output tokens by the model.

競合モデルとの価格比較

モデル 出力コスト(1Mトークンあたり)
Claude Sonnet 4.5 $15
GPT-5 Codex $10
Grok Code Fast 1 $1.50
DeepSeek V3.2 Exp $0.42

この価格設定は、ClaudeやGPT-5と比較して1/20〜1/30の水準であり、業界的にも破格です。

ベンチマーク結果

ts-bench 性能比較

フレームワーク + モデル 成功率 平均時間
Opencode + DeepSeek V3.1-Terminus 68% 210.1秒
Opencode + DeepSeek V3.2-Exp 72% 176.7秒
Opencode + Grok Code Fast 1 88% 97.0秒
Claude Code + DeepSeek V3.2-Exp 52% 252.3秒
Claude Code + GLM 4.6 92% 132.0秒

V3.1からV3.2への性能劣化は確認されず、安定した性能を発揮しています。ただし、Grok Code Fast 1のような競合モデルには及ばず、オープン系モデルとしてはGLM 4.6に劣る結果となっています。

コスト比較

上記のベンチマークは1時間強ノンストップでAPIを叩き続けてコーディングします。この時にClaude Sonnet 4のようなフロンティアモデルは$10弱のチャージが発生するのですがDeepSeek-V3.2-Expは公称どおり1/20以下になりました

  • DeepSeek V3.1: $0.93
  • DeepSeek V3.2: $0.45
計2回実行

※APIでdeepseek-reasonerを指定してもTool呼び出しではdeepseek-chatが適用されます

文章の編集

本記事の執筆に実際にDeepSeek-V3.2-Expを使用しました。以下の手順で試します。最初と最後は人間がライターとして書き、中間の編集者ロールをサポートしてもらいます。

  1. 記事の下書きを箇条書きで自分で書く
  2. VSCodeのCopilot ChatにOpenRouterアカウントでDeepSeek-V3.2-Expを登録
  3. Agent modeで下書きの構成を頼む
    1. 誤字修正
    2. 見出しの追加
    3. フォーマットの変換
  4. 気に入らない表現になっていたら自分で書き直す

筆者は上記の工程を気まぐれに色々な最新モデルで試し、時には文章が壊れていたりするのですが、DeepSeek-V3.2-ExpはR1時点と比べても論理的理解能力と日本語表現は上達しているように感じました。

また、今普及しているLLMは下書きにない独自の謎の虚文を挟み込むことがよくあるのですが、元の下書きを維持しつつ誤字や不自然な点をピックアップして直してくれました。

気になった点としてはチャットの応答速度が遅かったです。原因がDeepSeek APIにあるのかOpenRouterにあるのか、Copilot Chatのクライアントサイドのレイヤーにあるのか不明です。モデルのスペックとしてはreasoning effortのような特筆して時間がかかる説明はなかったので一時的な問題かもしれません。

細かい点としては日本語で話しかけた時に思考トークンが英語でした。R1は何を話しかけても中国語で思考していました。中国語で話しかけてみたところ、Thinkingが中国語混じりになったのでCopilotのシステムプロンプトや入力文章などに準じていそうです。

<thinking>壊れがち

注意点

DeepSeek APIを利用する際のデフォルトモデルはV3.2‑Expとなっています。DeepSeek APIではこれまでモデルバージョンを固定するパラメータがありませんでしたが、V3.2‑Expでは初めて「バージョン固定用の専用エンドポイント」が提供されました。以下にドキュメントがあります。

V3.1-Terminus Comparison Testing | DeepSeek API Docs
As an experimental version, although DeepSeek-V3.2-Exp has been validated for effectiveness on public evaluation sets, it still requires broader and larger-scale testing in real user scenarios to identify potential issues in certain long-tail use cases. To facilitate comparative testing by users, we have temporarily retained additional API access interfaces for V3.1-Terminus.

またいつも議論になるDeepSeek APIの入力や出力を含む利用データについて、プライバシーポリシーのリンクもしておきます

DeepSeek Privacy Policy

まとめ

DeepSeek-V3.2-Expは、アーキテクチャの改良により性能を維持したまま価格を大幅に引き下げることに成功しました。

筆者の評価としては、コスト効率では優位性を持つ一方で、コーディングエージェントにおける性能は、ユースケースが似ている他のモデル(GrokやGLM)にまだ遅れをとっているという印象です。

しかし、特にエージェントのツール呼び出しを多用するワークフローにおいて、従来よりも低コストでの利用が可能になったことは、AIモデルのコスト効率を重視するユーザーにとって大きな進歩と言えるでしょう。

Subscribe to laiso

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe