Cerebras Code(Qwen3-Coder)の申し込みが再開
AIインフラを手がける新興企業Cerebrasが2025年8月1日に発表した「Cerebras Code」は、中国Alibabaの「Qwen3-Coder」モデルを用いた月額定額サービスで、個人開発者や小規模チームを対象に、コーディングエージェント向けのAPIを提供します。

8月1週の開始直後に申し込みが殺到したらしく、しばらく受付を停止していましたが[1]、今週から再開したようです。
[1]https://x.com/CerebrasSystems/status/1952512742574768599
料金は月額50ドル(Code Pro)と200ドル(Code Max)です。CerebrasはもともとLlama 4ベースの月1500ドルを超えるAPIをエンタープライズ向けに売っていましたが、Claude CodeのMaxプランに対抗するような形でこのプランを発表しました。no proprietary IDE lock-in, and no weekly limits! とのことです。
いずれのプランもQwen3-Coder専用で、最大2,000トークン/秒の生成と131Kトークンのコンテキストに対応し、IDEに依存しない点がセールスポイントです。Cline社のようなモデルAPIのサブホスティングで商売しない勢とつるんで最近積極的にPRしています。
Cerebras x Cline 🤝 https://t.co/fzENEhFR7n
— Cline (@cline) July 24, 2025
Cerebras Codeの特徴
Cerebras CodeはQwen3-Coderモデルをベースにしています。Qwen3-Coder(480Bパラメータ)は、エージェント型コーディングタスクやベンチマークにおいて、Claude Sonnet 4やGPT-4.1に匹敵する性能を発揮します。

Cerebrasの独自チップ設計により、半導体ウェハー丸ごとを単体チップとして使うことで高速処理を実現しており、Claude Sonnet 4やGemini 2.5が20-30秒かかるタスクを、Cerebras上のQwen3-Coderはわずか1秒で完了できるというレポートがあります[2]。
[2]https://www.cerebras.ai/blog/qwen3-coder-480b-is-live-on-cerebras
この辺りの売り文句は話半分に受け取って、筆者は実際に月額50ドルのCode Proを契約して使い始めました。コード生成速度がSonnet 4の20倍に到達しているかは定かではないですが、少なくとも倍以上の速度にはなっていると思います。また前回の記事で紹介したプライベートのベンチマークでもClaude Codeから評価した時にSonnet 4と同レベルのベースラインになることは確認できました。
またコストも他社プロバイダーのQwen3-Coder料金表と比較してCerebras Codeが超低価格であることが確認できます。
契約方法
Cerebras Codeの利用には、以下の手順で契約を行います:
- Sign upリンクでアカウント作成
- Get API Keyボタンなどでコンソールに移動
- Billingページを開く
以下の画面で申し込みをすると現在は即アクティベートされました。

使い方
月額50ドルまたは200ドルのプランでAPIキーを取得し、ClineやQwen Code経由でQwen3-Coderを利用できます。OpenAI互換エンドポイントがあるのでそれを各IDEに設定します。
curl -s --location 'https://api.cerebras.ai/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${CEREBRAS_API_KEY}" \
--data '{
"model": "qwen-3-coder-480b",
"stream": false,
"messages": [
{
"role": "user",
"content": "hello"
}
]
}' | jq .
{
"id": "chatcmpl-dcfbb2db-5754-4a8b-8fae-c482498221e5",
"choices": [
{
"finish_reason": "stop",
"index": 0,
"message": {
"content": "Hello! How can I help you today?",
"role": "assistant"
}
}
],
...
}

Clineで動作させた際のデモ動画は以下で確認できます
.@CerebrasSystems just launched Qwen3 Coder at 2,000 tokens/second -- 40x faster than typical providers for an open-source model that rivals top closed-source options.
— Cline (@cline) August 1, 2025
Better yet, they're rolling out generous plans so you can make qwen3-coder and Cline your daily driver. 🧵 pic.twitter.com/oX0d6qDbCR
Qwen Codeは、Alibabaの開発者がGemini CLIを改造してOpenAI APIで使えるようにしたフォークバージョンです。
設定値の名前がOpenAIのままになっているため紛らわしく、環境変数で誤ってOpenAIのAPIを使ってしまうケースもあるようですので気をつけてください。筆者は間違えないようシェルスクリプトに固定しています。
cat ~/bin/qwen
#!/usr/bin/env bash
OPENAI_API_KEY=$CEREBRAS_API_KEY \
OPENAI_BASE_URL=https://api.cerebras.ai/v1 \
OPENAI_MODEL=qwen-3-coder-480b \
~/.npm-global/bin/qwen $@%
GitHub Copilotについては、まだ拡張がCerebrasに対応していないため、自分でパッチを当てる必要があります。当サイトの以下の記事を参考にしてください。

注意点
Cerebras CodeのAPIにはいくつかの制限事項があります:
- 画像処理には対応していません
- プロンプトキャッシュ機能には対応していません
また、1分あたりのリクエスト数とトークン量の制限に到達しやすいという点に注意が必要です。これは処理速度が非常に高速であるが故でもあります。現在のエージェントでは1分あたり: 15回のリクエストは頻発します。
- リクエスト数
- 1分あたり: 15回
- 1時間あたり: 900回
- 1日あたり: 21,600回
- トークンサイズ
- 1分あたり: 165,000
- 1時間あたり: 9,900,000
- 1日あたり: 24,000,000
招待リンク
この記事を読んで試してみたいと思った方は是非以下の招待リンクからお申し込みください。1日あたり20万トークンのオプションが追加されます。