Archive

A collection of 39 issues

Latest

Cerebras Code(Qwen3-Coder)の申し込みが再開

AIインフラを手がける新興企業Cerebrasが2025年8月1日に発表した「Cerebras Code」は、中国Alibabaの「Qwen3-Coder」モデルを用いた月額定額サービスで、個人開発者や小規模チームを対象に、コーディングエージェント向けのAPIを提供します。 CerebrasCerebras is the go-to platform for fast and effortless AI training. Learn more at cerebras.ai.Daniel Kim 8月1週の開始直後に申し込みが殺到したらしく、しばらく受付を停止していましたが[1]、今週から再開したようです。 [1]https://x.com/CerebrasSystems/status/1952512742574768599 料金は月額50ドル(Code Pro)と200ドル(Code Max)です。CerebrasはもともとLlama 4ベースの月1500ドルを超えるAPIをエンタープライズ向けに売っていましたが、Claude CodeのMaxプランに対抗するような形でこのプラ

新Codex CLIの使い方

GPT-5の公開(2025年8月7日)に合わせ、Codex CLIがChatGPTのPlusやProサブスクリプションに追加料金なしで利用可能になりました。これによりAPI課金を使わずに導入できるようになり、新規ユーザーが増えています。 GitHub - openai/codex: Lightweight coding agent that runs in your terminalLightweight coding agent that runs in your terminal - openai/codexGitHubopenai Codex CLIの最初のバージョンは2025年4月に公開されましが、リサーチプレビュー段階のプロジェクトなので頻繁に変更があります。リリース1ヶ月後にはTypeScriptからRustにスクラッチで書き直され。しばらく2つのバージョンの開発が並行していました。現在はRust版がデフォルトになっています。 以下のような方におすすめです * リサーチプレビューに参加したい:このツールで開発がどの程度できそうか評価してフィードバックする * エ

Copilot ChatのAgentモードでCerebrasのQwen3 Coderを使う

GitHub Copilot Chatには「Bring Your Own Key (BYOK)」機能があり、OpenAIやAnthropic、OpenRouter、Groq、 Ollamaなど様々なプロバイダーのモデルを使用できます。 AI language models in VS CodeLearn how to choose between different AI language models and how to use your own language model API key in Visual Studio Code.MicrosoftMicrosoft しかし、私が利用したいCerebrasのAPIサポートはまだ公式には含まれていません。 幸いなことに、Copilot ChatのVS Code拡張機能のソースコードが公開されているため、自分でプロバイダーを追加することができます。今回は、

次期GPT系モデルかもしれない「Horizon Beta」のコーディング性能を検証する

2025年7月30日、OpenRouter上に「Horizon Alpha」という詳細不明のステルスモデルが登場しました。その後「Horizon Beta」という名前に置き換わりました。このモデルは、OpenAIの次期モデルのテスト用ではないか?と注目を集めています。今回は、このモデルの性能をコーディングタスクで検証しました。 https://openrouter.ai/openrouter/horizon-beta 特徴 * コンテキストウィンドウ: 256K(GPT-4.1の1M、o3/o4-miniの200Kと比較して中規模) * スループット: 126.9 tps(Sonnet 4の64.50 tpsの約2倍。コーディング時に体感で早い) * Reasoning機構: なし 本当にOpenAI系のモデルなのか? 主にRedditやXでOpenAI系のモデルである可能性が議論されています。過去にもQuasar Alpha/Optimus AlphaがGPT-4.1リリース前に登場した経緯があり、今回も同様のパターンかもしれません。 Horizon Beta

Serena MCPはClaude Codeを救うのか?

「Claude Codeがアホになる問題」が勃発している最中、SerenaというMCPサーバーが「Claude Codeのコンテキスト消費を削減し、応答を改善する」という評価でユーザーたちの間で注目されています。 筆者も実際にSerenaを使ってみたところ、確かにコンテキスト効率の改善(入出力トークンの減少を指します)を実感できました。詳しく調べてみると、このツールは非常にユニークな発想で設計されており、一過性の流行として消費されるには惜しいと感じました。 そこで、本記事では、この機能の背景にある技術的な仕組みを詳しく解説したいと思います。実際の検証も交えながら、Serenaのアーキテクチャとその効果を分析していきます。 現在のコーディングエージェントが抱える課題 現在のコーディングエージェントの多くは、コードを単なるテキストファイルとして扱って逐次的な処理をしています。この根本的なアプローチが、制約を生み出しています。 大規模なプロジェクトで作業する際、エージェントは必要な情報を見つけるために膨大なテキストを読み込まなければなりません。関数の定義を探すだけでも、リポジトリ

Claude Codeがアホになる問題

最近一部のClaude Codeユーザーの間で「性能が急激に劣化している」という報告が多発しています。具体的には、指示の内容を忘れて見当違いの作業をするというもので「これはClaude Codeのコンテキスト処理の問題ではないか?」と憶測を呼んでいます。 ※この話題はバージョン1.0.63時点のものです。 「バージョン1.0.24に固定せよ」 この問題に対して、ユーザーからの報告と対処法が以下で説明されています。 Critical: Claude Code context amnesia causes silent code deletion · Issue #4487 · anthropics/claude-codeEnvironment Platform: Claude Code CLI Claude CLI version: 1.0.61 Operating System: macOS 15.5 (Build 24F74) Terminal: Terminal App

Kimi K2とLLMのベンチマークスコア

Kimi K2は、中国のMoonshot AIが開発したオープンウェイトの大規模言語モデルです。2025年1月20日に公開されたKimi k1.5以来のKimiの第4世代目のモデルです。 Kimi K2: Open Agentic IntelligenceKimi K2 is our latest Mixture-of-Experts model with 32 billion activated parameters and 1 trillion total parameters. It achieves state-of-the-art performance in frontier knowledge, math, and coding among non-thinking models. 特徴としては128Kトークンのコンテキストウィンドウがあります。参考までにClaude 4が200kでGemini 2.5 が1M。Grok4は256kです。 また「non-thinking」

完全自律型AIエージェントのベンチマーク(2): Codex、Jules、OpenHandsを加えて

TL;DR * Devinは長時間タスクの完走能力が他のエージェントより優れています。その分コストも高いです。 * Claude Code Actionはタスク実行速度が最も速く、成功率も高いです。コストパフォーマンスも高いです。 * その他のエージェントは内部セッションタイムアウトがあり、タスクを中断します。長時間タスクには向きません。 最終結果 エージェント名 完了問題数/実行時間 コスト 1問あたり 正解数/正解率 結果 🏅Devin 98問/216分 $36 $0.37 92問/91.1% 長時間タスク完遂能力抜群、コスト高 🥈Claude Code Action 92問/42分 $7.89 $0.09 65問/64.4% 最速・高コスパ 🥉GitHub Copilot Coding Agent

Kiroとコンテキストエンジニアリングの時流

Kiro(kiro.dev)は、AWSが開発したIDE型のコーディングエージェントです。CursorやWindsurfのようなVS Codeフォークエディタに分類されます。現在はパブリックプレビュー中で、サインアップするとKiroでClaude Sonnet 3.7 とClaude 4 Sonnetを利用できます。 KiroThe AI IDE for prototype to productionKiro Kiroの特徴は、スペック駆動開発、エージェントフック、ステアリングファイルといった独自の機能を通じて、ソフトウェア開発のライフサイクル全体を支援します。それぞれ見ていきましょう。 スペック (Specs)駆動開発 Kiroの中核をなすのが「スペック=仕様書」機能です。これは、ユーザーが入力した大まかな指示(例:「ユーザー認証機能を追加して」)をもとに、AIが「要件定義」「設計」「タスクリスト」という3段階のドキュメントを自動で生成するものです。 Markdownファイルが.kiro/specs/${task}/配下にタスク単位で生成されます。

GitHub Copilot NESの内部実装が公開、そして続・AIエディタ戦争

Copilot NESとは Copilot NES(Next Edit Suggestions)は2025年2月にリリースされたGitHub Copilotの内部機能です。コードの変更に連動して必要となる次の編集を予測し、タブキーを押しているだけで複数箇所にわたる修正を提案してくれます。通常のコード補完がカーソル位置の続きのコードを予測するのに対して、Copilot NESは「エディタ上の編集操作」の単位で続きを予測して補完します。 GitHub Next | Copilot Next Edit SuggestionsGitHub Next Project: Can we improve Copilot code completion by suggesting the next logical change, wherever it is in your project?GitHub Next この仕組みはCopilot NESの元ネタであるCursor Tab(Copilot++)によって実用化されましたが、Cursorはプロプライエタリなソフトウェアなので内部の詳細が分かり

Grok 4がリリース

xAIのGrok 4が公開されました。 Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck — xAI (@xai) July 10, 2025 モデルカード コンテキストウィンドウは256,000トークンです。Claude 4 Sonnetが200,000トークン。 Models / Grok 4 「Grok 4 Code」って何なの コーディングモデルの名前です。Claude Code的なCLIではなさそうです。OpenAIでいうCodex(モデルの方)になります。Redditのスレによると「Cursorで使える」というメッセージがコンソールにでていたらしいです。 Grok

Devin vs Cursor Background Agents: 完全自律型AIエージェントの性能比較

はじめに Cursor のBackground Agentsが 無事BETA Preview になったので「Devinとどの程度たたかえるのか?」という疑問が湧いてきました。そこでTypeScriptのクイズ101問をすべて解くというタスクでDevinと戦ってもらいます。ここにスーパーサブのClaude Code Actionさんも参加してもらって三つ巴にします。チャンピオンを決めようや・・・ お題はexercism/typescriptのリポジトリを筆者がエージェントタスク向けにフォークしたものを使います。Exercismはプログラミング学習サイトで、GitHubで公開している問題集とテストコードはAider PolyglotやRoo Codeなど実際のエージェント製品のベンチマークで使用されており、エージェント同士の比較に適しています。 GitHub - laiso/exercism-typescript: Exercism exercises in TypeScript.Exercism exercises in TypeScript. Contribute to lais

Cursorの価格設定変更の騒動について

2025年6月にCursorは価格体系を大幅に変更し、月額20ドルのProプランを「リクエスト数制限」から「トークン使用量制限」へと切り替え、さらに月額200ドルのUltraプランを新設しました。 Updates to Ultra and Pro | Cursor - The AI Code EditorIn collaboration with the model providers, we’re introducing a $200 / mo tier for power users.Cursor Cursorの説明によると、以前は月500リクエストまでの制限で、リクエストごとのトークン使用量は考慮されていませんでした。新しい料金モデルは1回のリクエストで消費するトークン数が大幅に異なるため、単純なリクエスト数制限ではコストを正確に反映できなくなりました。そのため、CursorはAPIベースのトークン使用量課金に移行し、Proプランには月20ドル分のトークンクレジットを含み、それを超えた分は追加課金となる形にしました。 まずいことにCursorはこの変更をポジティブに伝えるた

t-wada vs テスト大好郎

先日一部のClaude Codeユーザーの間で「プロンプトに”t-wadaさんの推奨する進め方に従ってください”と書くとテスト駆動開発のプラクティスを実践してくれる」というTIPSが話題になっていました。 なるほど、TDDやテスト駆動開発という言葉は広まりすぎて「意味の希薄化」が発生し、曖昧な理解のまま自動テストやテストファーストと混同され、それがLLMの学習データにも影響したが、人名を与えるとLLMに「具体的な参照点」を与え、より具体的なプログラミングスタイルに限定させる効果があったのか pic.twitter.com/p6SCPj8YdA — Takuto Wada (@t_wada) June 25, 2025 これは確かに面白い現象で、現にClaudeに直接質問するとt-wadaさんの知識を持っていることがわかります。そこから連想してClaude CodeがTDDをするトリガーとして使えるのなら面白いなと思い色々試してみました。 (ところでこの翌日、最近バイブコーディングにはまってSmalltalkのライブラリをLLMで書いているKent Beckも自著のタイトルを

Claude CodeのHooksでタスク完了メッセージをデスクトップ通知する

Claude CodeではNotificationでベル音を鳴らすことができますが、私は音量をゼロにしてMacを使っているため、デスクトップのバナー通知で視覚的に知らせてほしいと思っていました。一部のユーザーは、osascriptやterminal-notifierのコマンド呼び出し指示を各自CLAUD.mdに記載してこれを実現させているようですが、毎回推論コンテキストに載せるに抵抗があり、そこまでは手を出せていませんでした。 しか昨日リリースされたHooks機能は、まさにこの用途に最適でした。ドキュメントにもカスタム通知を設定する例が載っています。 Hooks - AnthropicCustomize and extend Claude Code’s behavior by registering shell commandsAnthropic すでにHooksのさまざまなユースケースが公開されていて、例えばファイルのフォーマッタやSlack・LINEへの通知などを行っているユーザーがいます。 Claude Code の Hooks で作業が終わった後にフォーマッターを実行

Claude CodeのTaskツールの並列実行(parallelTasksCount)は分析タスク向け

Claude CodeのTaskツールは派生元となる親エージェントの処理から子エージェントがメッセージAPI呼び出しを非同期で実行しているが、この時の子の数がparallelTasksCountの設定値になる。デフォルトでは「1」に設定されている。 これを上書きするコマンドは以下になる。設定値を上げるとトークン消費量が増加するので注意してほしい。 claude config set -g parallelTasksCount 2 parallelTasksCountはTaskツール実行時の動作を変える。簡単なテスト方法はClaude CodeにTaskツールを使ってくれと直接頼むことだ。parallelTasksCountの数だけ「Initializing N parallel agents…」がコンソールに出力される。 Tyler Burnamのポストではこの並列数がタスク完了速度に寄与するという説明をしているが、筆者が調べたところによるとそれは正確でなかった。 Taskツールの並列実行は親となるエージェント・内部的にはSynthesis Agentと呼ばれる、が子に対して

Roo CodeをIPCで外部から操作する

Roo CodeのIPCシステムについて Roo CodeのIPCシステムは、VS Code拡張機能と外部プログラム間でリアルタイム通信を実現するクライアント・サーバーアーキテクチャです。外部プログラムからRoo Codeを自動制御し、エージェントレベルの評価システムやテスト自動化などに活用できます。Roo Code開発チームはこのIPCシステムを活用して、エージェントレベルのEvals(評価)システムを構築しています。 Roo Code EvalsQuantitative evals of LLM coding skills.Roo Code このIPCシステムは、ホストマシン上のRoo Code拡張がUnixドメインソケットを使用してIPCサーバーを起動し、クライアント側の外部プログラムがNode.jsのnode-ipcライブラリを使用してサーバーに接続する構成となっています。通信方式はEventEmitterベースの双方向非同期メッセージングを採用しており、すべてのデータはzodで構造化されたJSON形式でコマンドとイベントのやり取りが行われます。 メッセージングプロトコ

【今週の話題】Gemini CLIがリリース

かねてから噂されていたGoogleのGemini公式のCLI型コーディングエージェント「Gemini CLI」がリリースされました。Gemini CLIはClaude Codeのようにターミナル(CLI)から使えるツールです。モデルは標準でGemini 2.5 Proが無料で使え、WindowsでもWSLなしに動作します。 GitHub - google-gemini/gemini-cli: An open-source AI agent that brings the power of Gemini directly into your terminal.An open-source AI agent that brings the power of Gemini directly into your terminal. - google-gemini/gemini-cliGitHubgoogle-gemini Gemini

2025年度のOSSプロジェクトへの寄付とスポンサー募集のお知らせ

筆者は個人が中心に開発しているOSSプロジェクトへの寄付を行なっております。 このリストを毎年見直しており、2025年のポートフォリオの更新を今回行いました。継続が重要と考えているので、これらはOSSが提供され続ける限り無期限で行う予定です。 現在のプロジェクトのリストはこちらです aquaskk GitHub - codefirst/aquaskk: An input method without morphological analysis.An input method without morphological analysis. Contribute to codefirst/aquaskk development by creating an account on GitHub.GitHubcodefirst メンテナのbanjunさん宛 azooKey azooKeyオープンソースの日本語入力システム「azooKey」. azooKey has 14 repositories available. Follow their code on GitHub.

Xcode 26のCodingAssistantを試した

WWDC 2025でXcodeにChatGPTが統合されて自然言語で指示するとSwift書いてくれるというアナウンスがあったので使ってみました。内部の設定ファイルにCodingAssistantという名前がついていたのでそう呼びます。 Writing code with intelligence in Xcode | Apple Developer DocumentationGenerate code, fix bugs fast, and learn as you go with intelligence built directly into Xcode.Apple Developer Documentation 前提条件 Xcode 26を使うために、macOS 26 betaにあげる必要があります。 Xcode 26 beta (17A5241e) - Releases - Apple DeveloperView downloadsView release notesApple Developer 利用イメージ

v0 APIのアーキテクチャ: Chat Completion API自作界隈

はじめに 先日、Vercelがv0 APIという興味深いサービスを発表しました。v0.devは、アプリのプロトタイピングからデプロイまでをWebブラウザ上のチャットで行えるサービスです。v0 APIは、この機能を外部から利用可能にする有料プラン向けのAPIサービスとして提供されています。 v0 APIAccess the model behind v0.Vercel 現在、CursorやClineなどのエディタでコード生成のバックエンドとしてv0 APIを利用することができます。くわえて、Vercel ProユーザーはAI SDKのAI Playgroundからこの機能を試すこともできます。 利用方法 v0 APIは、OpenAIのChat Completions APIの仕様に準拠したエンドポイントを提供しています。そのため、既存のOpenAIモデル対応アプリケーションでは、ベースURLの設定を変更するだけでv0 APIを利用することができます。 ユーザーにとっては、AIエディタに設定を追加するだけで、Next.jsアプリなどのモダンなWebアプリケーション開発において

【今週の話題】Claude Code Action が話題

2025年5月22日に正式リリースされたClaude Codeと同時に公開された、GitHubのプルリクエストやイシュー内でコードの質問や変更を自動で行うことができるGitHub Action「Claude Code Action」がにわかに話題になっています。 GitHub Actions - AnthropicIntegrate Claude Code with your GitHub workflows for automated code review, PR management, and issue triage.AnthropicGitHub - anthropics/claude-code-actionContribute to anthropics/claude-code-action development by creating an account on GitHub.GitHubanthropics これはGitHub上で自由に @claudeのメンションで話しかけられ、完全自律型のコーディングエージェントのように振る舞いますが、Anthropics社がイ

Claude Code本体の難読化されたコードをCursorを使って解析する

Claude Codeのソースコードを入手するには? Claude Codeのソースコードは現在GitHubに公開されていません(計画にはあるようです)。しかし、Node.js環境で実行されるスクリプトであるため、ユーザーはNPMレジストリ経由でパッケージを自由に取得できます。ただし、NPMから入手できるソースコードは難読化(ミニファイ)された状態で提供されています。 ❯ npm pack @anthropic-ai/claude-code ❯ tar zxfv anthropic-ai-claude-code-1.0.5.tgz ❯ ls package/ cli.js LICENSE.md package.json README.md scripts vendor yoga.wasm @anthropic-ai/claude-codeUse Claude, Anthropic’s AI assistant, right from your terminal. Claude can

『LLMのプロンプトエンジニアリング』を読んだ

最近日本語翻訳が発売された書籍『LLMのプロンプトエンジニアリング ―GitHub Copilotを生んだ開発者が教える生成AIアプリケーション開発』を読みました。その感想です。 LLMのプロンプトエンジニアリングLLMのポテンシャルを最大限活かし、期待通りの精度の高いアウトプットを引き出すためには、LLMの能力や特性を正しく評価、把握し、綿密な設計に基づいたプロンプトを組み立てることが必要です。本書では、まずLLMを理解することから始め、その上で、プロンプトにはどんなことを組み込み、どのような構造にすべきか、本来の意味での「プロンプトエンジニアリング」を行う方法を説明しています。著者たちはGitHub Copilotの開発者であり、その実装過程で得られた貴重な知見や、評価手法、設計上の判断など、通常は表に出てこない開発の裏側も詳しく解説されています。AIアプリケーション開発の実際を知りたい開発者はもちろん、生成AIの可能性と限界を理解したいユーザーにとっても、示唆に富む内容となっています。O'Reilly logoJohn Berryman、Albert Ziegler 著、服部

エディタ型からCLI型・自律型へと多様化するコーディングエージェント

はじめに:コーディングエージェントの新たな分類 今年初めに筆者が投稿した「ClineとAIコーディングツールの現状」ではAIコーディングツールを「コード補完」「チャットアシスタント」「コーディングエージェント」の3つに分類しました。しかし現在では「エージェント」が包括的な概念となり、この区別の必要性が薄れています。 さらに現在は役割や機能ではなく * コーディングエージェントがどこまで自律的に開発プロセスに関与するのか * 開発タスクが実行される環境はどこか * ユーザーとの対話インターフェイス が本質的な違いになってきました。 本記事では、こうした変化を踏まえて解説します。 本記事の分類について 「AI Agents Are Here. What Now?」ではAIエージェントの重要な特性の一つとして「自律性(autonomy)」が挙げられています。「自律的(agentic)」であるとは、ある目標が与えられた際に、それをサブタスクに分解し、各サブタスクを人間の直接的な介入なしに実行して解決できることを指します。 AI Agents Are Here. What

【今週の話題】CursorのBackground Agents (Preview)が開始

この機能は、Cursor社がホストするリモートの仮想マシン(Ubuntu VM)上で動作するコーディングエージェントです。Cursor版Devinといえます。 Cursor – Background AgentsHow to use background agents toi parallelize your work.Cursor Background Agentsが編集するコードは、実行時にGitHubからクローンしたものです。そのため、ローカルのソースコードを編集しても、Background Agents側には一切反映されません。Cursorの親ウィンドウ内に、リモート専用のCursor子ウィンドウが開き、これを複数同時に立ち上げることができます。 利用方法 まず、Cursorのバージョンを0.50以上にアップデートする必要があります。次に、Beta設定からBackground Agentを有効にしてください。 また、プライバシーモードを無効にしておく必要があります。プライバシーモードは、ソースコードをCursorのサーバーに保存しない設定ですが、Background

【今週の話題】DevinのCognition AIからDeepWikiがリリース、非公式MCPサーバーやOSS版クローンも登場

Cognition AIが、GitHubリポジトリのURLを入力するだけで、コードベースをAIが自動で解析し、GitHub Wikiでホストされているような形式のドキュメントとして生成する新ツール「DeepWiki」をリリースしました。 DeepWiki | AI documentation you can talk to, for every repoDeepWiki provides up-to-date documentation you can talk to, for every repo in the world. Think Deep Research for GitHub - powered by Devin.DeepWiki

【今週の話題】OpenAI Codex CLIがマルチプロバイダサポート、Rust実装が追加

OpenAI Codex CLIの最新版でOpenAI以外の複数のプロバイダをサポートするようになりました。  feat: support multiple providers via Responses-Completion transformation by dnakov · Pull Request #247 · openai/codexIehlmtANJX95U1uN.mp4 Implemented it as a transformation between Responses API and Completion API so that it supports existing providers that implement the Completion API and minim…GitHubopenai このマルチプロバイダ対応は、dnakov氏のコントリビュートによって実現しました。dnakov氏は、AnthropicのClaude Codeをリバースエンジニアリングしたanon-kodeというツールを開発しており、その知見を活かしてCodex CLIを改造。

リモートMCPがやってくる、そしてA2Aについて

先日 Streamable HTTP Transportに対応したMCP TypeScript SDK 1.10.0がリリースされました。これは、以前のSSE Transport(2024-11-05)を置き換えるものです。Python SDK(最新バージョン1.6.0)にはまだこの更新が含まれていないようです。 Release 1.10.0 · modelcontextprotocol/typescript-sdkStreamable HTTP release This is the first release supporting the new Streamable HTTP transport from protocol version 2025-03-26, which supersedes the SSE transport from protocol

【今週の話題】AIエディタ戦争

マイクロソフトがVSCodeフォークエディタ上での自社拡張をブロック マイクロソフトは、CursorやWindsurfなどのフォークエディタで自社開発のVSCode拡張機能(C++やC#など)の使用を制限しました。 Has the VSCode C/C++ Extension been blocked? · Issue #2976 · getcursor/cursorWhile coding just now I got this msg: The C/C++ extension may be used only with Microsoft Visual Studio, Visual Studio for Mac, Visual Studio Code, Azure DevOps, Team Foundation Server,

OpenAI Codex CLIの仕組み

OpenAIからCodex CLIというOSSがリリースされました。Codex CLIは、Claude Codeのようなコマンドラインで利用するコーディングエージェントのTUIツールです。Node.jsで実装されており、使用しているnpmパッケージからして構造はClaude Codeと類似していますが、設計に違いがあります。 GitHub - openai/codex: Lightweight coding agent that runs in your terminalLightweight coding agent that runs in your terminal - openai/codexGitHubopenai OpenAI Codex CLIの概要 あなたは、OpenAIによって構築されたターミナルベースのエージェント型コーディングアシスタントであるCodex CLIとして、その内部で動作しています。これはOpenAIモデルをラップし、ローカルのコードベースとの自然言語による対話を可能にします。あなたは、正確で、安全で、役立つ存在であることが期待されています。

MCPサーバーを安全に動かすための工夫

現在普及しているStdioServerTransport型MCPサーバーの使用方法は設定ファイルにnpxやuvxコマンドを記述する。 これはその場でダウンロードしたスクリプトファイルを実行することを意味する。 しかしこの実行方式は開発者には悪名高いソフトウェアのインストール手順「curlしてbash(URLでダウンロードしてきたシェルスクリプトをパイプしてノールック実行)」を思い出させる。「curlしてbash」なら単一の信頼した配布元を基準に判断できるがnpxやuvx方式は依存するライブラリも芋づる式に参照してくる。つまり任意のコードをどこかの経路(MCPサーバー本体でなくその内部の別の依存ライブラリかもしれない)を通じて実行される可能性は残る。 curl | bash a victimless crime?It’s a common sight for systems administrators and developers these days:MediumErica Windisch これに対して、Claude Desktopが「今から実行するサーバー起動コマンドについ

Cursorのコード編集はClineよりどの程度早いのか?

CursorとClineを併用しているユーザーは既知だと思うのですが、コードを編集して適用する速度に差があります。大抵はCursorの方が早く完了します。 そこで、どの程度差が生じているのかというのを比較するためにシンプルな比較動画を撮影しました。 環境 * Cline3.9.2 * VS Code 1.99.0 * Cursor 0.48.7 * 全ての拡張機能を無効にする * モデルはClaude 3.7 Sonnetをextended thinkingなしで指定する * ClineのAPI Providerは「Cline」、Cursorはデフォルトの設定(Cursorのサーバーに接続) * カスタムルール設定はなし * 承認待ちが発生しないように設定で全てを許可する 実験方法 * 事前にチャットウィンドウにプロンプトを入力しておき、Cline→Cursorの順でウィンドウを切り替え連続で送信する * 左のウィンドウがClineで右がCursor 実験1:新規作成 このディレクトリに、以下の仕様でNode.jsの簡単なサーバーファイル

React Router v7でコードを書いてくれSonnet

Claude 3.7 Sonnetに代表される現在の主力なコーディングモデルやソフトウェア開発タスクの自動化に利用されるLLMは、知識のカットオフにより2024年後半頃までにネット上に存在する情報をもとにしたソースコードしか書くことができない。例えばAnthropicのAPIを直接利用して確認すると、「React Routerの最新バージョンはv6です」と返答が来る。しかし、最新版はv7だ。v7.0.0はちょうどこの時期にリリースされたため境界にあり、つまりv7の実践的な知識はない。これに限らず、LLMの世界ではNext.jsはv14、Flaskはv2、Railsはv7と一世代遅れたバージョンを認識していることになっている。 これらのアップデートによって入った変更は、既存のソースコードに記述していればLLMが空気を読んで従う。加えて、ユーザーがカスタムルールとしてエディタ側で追加情報を設定したり、外部ドキュメントをその場で参照して補正することもできる。エージェントのfetchツールでWeb検索できる範囲の情報は適切に処理されるが、完全ではないので、我々は都度最新ドキュメントを読んで差

Devinと人類に残されたクリップボード運搬業

Devinやってみたブログ はじめに:20ドルでDevinに入門 Cognition | Devin 2.0We are an applied AI lab building end-to-end software agents.Devin 2.0 Devin 2.0の大型アップデートが来て料金的に個人でも使いやすくなったのもあり、VS Code拡張で開発できるようになったぞ、と噂を聞いて、このタイミングで入門した。 まずVS Code拡張をダウンロードしてきてminifyされたソースコードを解析した。多分、入門の順番としてはおかしいんだけど、この機能が一番気になってたから先にやった。ただ調べてみた結果、この拡張機能自体は、2.0アップデートで新しくなったというより、できることは今年の2月の時点で出てたものと同じだった。 Devin VS Code拡張はどのようなものか これは普通にマーケットプレイスからインストールできる。 Devin [Beta] - Visual Studio MarketplaceExtension for Visual Studio Code

AIエディタのガードレールは機能しているのか?

最近、「ホームディレクトリを消す」「勝手にgit reset --hardしてしまった」などのAIエディタの暴走エピソードの話を見かけた。そこで兼ねてから気になっていた「ワークスペース外のファイルへのアクセスの挙動」を各エディタで調べた。 ワークスペースとは VS Codeにおけるワークスペースは、プロジェクトフォルダー以下(マルチルートワークスペースの場合、追加したフォルダ以下)のファイルの集合になる。 VS Codeでフォルダを開くと「VS Code provides features that may automatically execute files in this folder.」の許可を求めるダイアログが表示される。ここがワークスペースの起点になっている。 ファイル読み取りの仕組み Copilot Editsのエージェントモードは、ユーザーのタスク指示に従ってコード編集やターミナルコマンドを実行する。これはまだExperimentalバージョンで、InsiderビルドのVS Codeにしかない。 AIエディタのコマンド実行の仕組みは通常、Copilotがユ

Web Speed Hackathon 2025に参加しよう

来る2025/03/22(土)からWeb Speed Hackathon 2025が開催されます。 Web Speed Hackathon 2025Web Speed Hackathonとは、予め準備してあるWebアプリケーションのパフォーマンスを改善することで競い合うハッカソンです。 主にWeb技術(フロントエンドおよびNode.js)に関するチューニングを出題いたします。 表示に非常に時間がかかるサービスをどこまで高速化できるかを競います。株式会社サイバーエージェントCyberAgent, Inc. Web Speed Hackathonとは Web Speed Hackathonは課題となる重たいウェブアプリケーションを高速化してスコアを競うチューニングコンテストで、フロントエンドエンジニア版のISUCONです。 課題のボトルネックがフロントエンドエンジニアの業務領域がちな部分に沿って設問されています。と言ってもブラウザで動く部分だけというわけでもなくて過去の開催ではSQLiteからの初期データ読み込みやSSR経路のNode.js処理の改善でスコアが上がりました。 ウ

【今週の話題】IntelliJエージェントはよ、MCPブーム、Clineで遊ぶ、PythonからRustへ翻訳

IntelliJでコーディングエージェントを駆使したい 私はもうJetBrains IDEをメインにしていないのですが、PHPにかんしてはやはりVSCodeよりPHPStormに一日の長があり、IntelliJに返り咲けるチャンスを伺っているわけです。 今まではGooseのJetBrains MCP拡張を入れて試していたのですが、こいつはCline以上の暴れ馬ですべてを焼き尽くしてしまうので、人には勧めづらかった。 そこでClaude Codeがリリースされました。これは順当に良さそうで、MCPに対応していたので、Gooseのように連携できるなと睨みました。 検証結果をZennに投稿。この環境でしばらく過ごしてないのでまだなんとも言えないのですが、同士は試してみてほしい。 JetBrains IDEとClaude Codeを連携させて擬似ClineにするZennlaiso その翌日、なんとなくHackerNewsを徘徊していて発見したのがFirebender。これはブログの記事にしました。Androidアプリを作って操作させてみたところ、最低限の期待は上回るできだったので、

LLMのプロンプトもTSXで書く時代

VS Code拡張向けライブラリprompt-tsxの紹介。 prompt-tsxとは GitHub - microsoft/vscode-prompt-tsxContribute to microsoft/vscode-prompt-tsx development by creating an account on GitHub.GitHubmicrosoft @vscode/prompt-tsxはVSCode拡張で利用できるライブラリで、Copilot Chat向けの@コマンドで呼び出すエージェントの開発や、それ以外のLM APIを使った拡張とともに使うことができる。 利用イメージ 以上のようにLM APIに渡すパラメータをTSX(JSX)コンポーネントとして管理する。 prompt-tsxが必要な背景 prompt-tsxが必要な背景だが、なぜわざわざTSXで書けるようにしたのかというと、リポジトリの“Why TSX?”にはこう書かれている。 なぜTSXなのか? AIエンジニアとして、私たちの製品はテキストプロンプトで構成されたチャットメッセージを使用して

Firebender: ついに登場したIntelliJプラグイン版コーディングエージェント

迷えるJetBrainsユーザー向けの朗報、VSCode偏重だったコーディングエージェント界に一石を投じる。 Firebenderとは FirebenderはAndroid Studio向けのAIコーディングアシスタント。Y Combinatorから出資を受けたスタートアップで、KevinとAmanの二人を中心に開発されている。 Firebender - Most powerful AI assistant in Android StudioWrite code 10x faster with Firebender, the most powerful AI assistant for Android Studio. コード補完、チャット、エージェントによる自律的なコーディングタスクの機能を持っている。2024年のリリース当初は「Android Studioに特化したGitHub Copilotより高速なコード補完」として開発されていたが、2025年になってCursorやCopilot Editsのようなエージェント機能を搭載してアップデートされた。 IntelliJプラグ

Subscribe to laiso

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe