Cerebras Code(Qwen3-Coder)の申し込みが再開

AIインフラを手がける新興企業Cerebrasが2025年8月1日に発表した「Cerebras Code」は、中国Alibabaの「Qwen3-Coder」モデルを用いた月額定額サービスで、個人開発者や小規模チームを対象に、コーディングエージェント向けのAPIを提供します。

Cerebras
Cerebras is the go-to platform for fast and effortless AI training. Learn more at cerebras.ai.

8月1週の開始直後に申し込みが殺到したらしく、しばらく受付を停止していましたが[1]、今週から再開したようです。
[1]https://x.com/CerebrasSystems/status/1952512742574768599

料金は月額50ドル(Code Pro)と200ドル(Code Max)です。CerebrasはもともとLlama 4ベースの月1500ドルを超えるAPIをエンタープライズ向けに売っていましたが、Claude CodeのMaxプランに対抗するような形でこのプランを発表しました。no proprietary IDE lock-in, and no weekly limits! とのことです。

いずれのプランもQwen3-Coder専用で、最大2,000トークン/秒の生成と131Kトークンのコンテキストに対応し、IDEに依存しない点がセールスポイントです。Cline社のようなモデルAPIのサブホスティングで商売しない勢とつるんで最近積極的にPRしています。

Cerebras Codeの特徴

Cerebras CodeはQwen3-Coderモデルをベースにしています。Qwen3-Coder(480Bパラメータ)は、エージェント型コーディングタスクやベンチマークにおいて、Claude Sonnet 4やGPT-4.1に匹敵する性能を発揮します。

https://qwenlm.github.io/blog/qwen3-coder/

Cerebrasの独自チップ設計により、半導体ウェハー丸ごとを単体チップとして使うことで高速処理を実現しており、Claude Sonnet 4やGemini 2.5が20-30秒かかるタスクを、Cerebras上のQwen3-Coderはわずか1秒で完了できるというレポートがあります[2]。
[2]https://www.cerebras.ai/blog/qwen3-coder-480b-is-live-on-cerebras

この辺りの売り文句は話半分に受け取って、筆者は実際に月額50ドルのCode Proを契約して使い始めました。コード生成速度がSonnet 4の20倍に到達しているかは定かではないですが、少なくとも倍以上の速度にはなっていると思います。また前回の記事で紹介したプライベートのベンチマークでもClaude Codeから評価した時にSonnet 4と同レベルのベースラインになることは確認できました。

またコストも他社プロバイダーのQwen3-Coder料金表と比較してCerebras Codeが超低価格であることが確認できます。

Qwen: Qwen3 Coder – Provider Status
See provider status and make a load-balanced request to Qwen: Qwen3 Coder - Qwen3-Coder-480B-A35B-Instruct is a Mixture-of-Experts (MoE) code generation model developed by the Qwen team. It is optimized for agentic coding tasks such as function calling, tool use, and long-context reasoning over repositories. The model features 480 billion total parameters, with 35 billion active per forward pass (8 out of 160 experts). Pricing for the Alibaba endpoints varies by context length. Once a request is greater than 128k input tokens, the higher pricing is used.

契約方法

Cerebras Codeの利用には、以下の手順で契約を行います:

  1. Sign upリンクでアカウント作成
  2. Get API Keyボタンなどでコンソールに移動
  3. Billingページを開く

以下の画面で申し込みをすると現在は即アクティベートされました。

cloud.cerebras.ai

使い方

月額50ドルまたは200ドルのプランでAPIキーを取得し、ClineやQwen Code経由でQwen3-Coderを利用できます。OpenAI互換エンドポイントがあるのでそれを各IDEに設定します。

curl -s --location 'https://api.cerebras.ai/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${CEREBRAS_API_KEY}" \
--data '{
  "model": "qwen-3-coder-480b",
  "stream": false,
  "messages": [
    {
      "role": "user",
      "content": "hello"
    }
  ]
}' | jq .
{
  "id": "chatcmpl-dcfbb2db-5754-4a8b-8fae-c482498221e5",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "Hello! How can I help you today?",
        "role": "assistant"
      }
    }
  ],
  ...
}
Clineの設定

Clineで動作させた際のデモ動画は以下で確認できます

Qwen Codeは、Alibabaの開発者がGemini CLIを改造してOpenAI APIで使えるようにしたフォークバージョンです。

GitHub - QwenLM/qwen-code: qwen-code is a coding agent that lives in digital world.
qwen-code is a coding agent that lives in digital world. - QwenLM/qwen-code

設定値の名前がOpenAIのままになっているため紛らわしく、環境変数で誤ってOpenAIのAPIを使ってしまうケースもあるようですので気をつけてください。筆者は間違えないようシェルスクリプトに固定しています。

cat ~/bin/qwen

#!/usr/bin/env bash

OPENAI_API_KEY=$CEREBRAS_API_KEY \
    OPENAI_BASE_URL=https://api.cerebras.ai/v1 \
    OPENAI_MODEL=qwen-3-coder-480b \
    ~/.npm-global/bin/qwen $@%

GitHub Copilotについては、まだ拡張がCerebrasに対応していないため、自分でパッチを当てる必要があります。当サイトの以下の記事を参考にしてください。

Copilot ChatのAgentモードでCerebrasのQwen3 Coderを使う
GitHub Copilot Chatには「Bring Your Own Key (BYOK)」機能があり、OpenAIやAnthropic、OpenRouter、Groq、 Ollamaなど様々なプロバイダーのモデルを使用できます。 AI language models in VS CodeLearn how to choose between different AI language models and how to use your own language model API key in Visual Studio Code.MicrosoftMicrosoft しかし、私が利用したいCerebrasのAPIサポートはまだ公式には含まれていません。 幸いなことに、Copilot ChatのVS Code拡張機能のソースコードが公開されているため、自分でプロバイダーを追加することができます。今回は、

注意点

Cerebras CodeのAPIにはいくつかの制限事項があります:

  • 画像処理には対応していません
  • プロンプトキャッシュ機能には対応していません

また、1分あたりのリクエスト数とトークン量の制限に到達しやすいという点に注意が必要です。これは処理速度が非常に高速であるが故でもあります。現在のエージェントでは1分あたり: 15回のリクエストは頻発します。

  • リクエスト数
    • 1分あたり: 15回
    • 1時間あたり: 900回
    • 1日あたり: 21,600回
  • トークンサイズ
    • 1分あたり: 165,000
    • 1時間あたり: 9,900,000
    • 1日あたり: 24,000,000

招待リンク

この記事を読んで試してみたいと思った方は是非以下の招待リンクからお申し込みください。1日あたり20万トークンのオプションが追加されます。

https://cloud.cerebras.ai?referral_code=ywrd6m5e

Subscribe to laiso

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe