Archive

A collection of 59 issues

Latest

site2skill: どんなサイトでもClaude Skills化するツールを作った

任意のWebドキュメントをClaude Agent Skills化するツール site2skill を作りました。PAY.JPのドキュメントを例に、Claude Codeがドキュメントを参照しながら開発する流れを説明します。 GitHub - laiso/site2skillContribute to laiso/site2skill development by creating an account on GitHub.GitHublaiso LLMが知らないライブラリを使うとき LLMには知識のカットオフ(学習データの期限)があります。新しいライブラリやマイナーなAPIを使おうとすると、LLMは正確な情報を持っていません。例えばClaude Opus 4.5 の知識は2025年8月のものであり、それ以降にリリースされたライブラリや、学習データに含まれていないドキュメントについては、正確なコードを生成できません。 こういう場面では、Webのドキュメントを要約してチャットに貼り付け、それをもとに実装してもらうという作業を繰り返すことになります。この方法は有効ですが、毎回ドキ

MoonBitの新AI エージェント実装「Maria」

この記事は MoonBit Advent Calendar 2025 13日目の記事です。 Moonbit - Qiita Advent Calendar 2025 - QiitaCalendar page for Qiita Advent Calendar 2025 regarding Moonbit.Qiita MoonBit Maria(以下、Maria)は、MoonBit公式の AI エージェントなプロジェクトです。GitHub リポジトリで公開されています。MoonBitのasyncベースで実装されています。 GitHub - moonbitlang/maria: moon agent rewritten in asyncmoon agent rewritten in async. Contribute to moonbitlang/

Anthropic Sandbox Runtime (srt)と次世代のAIエージェントのアーキテクチャ

Anthropic Sandbox Runtime (srt) は、Claude Code on the web などクラウド環境向けに Anthropic が開発した軽量サンドボックスの PoC(概念実証)です。 Making Claude Code more secure and autonomous with sandboxingLearn how Claude Code’s new sandboxing feature protects developers with filesystem and network isolation, reducing permission prompts and increasing user safety. 少なくない Claude Code ユーザーは

Codex CLI が Skills をサポート

Codex CLI の最新版v0.65.0 において、experimental ではありますが Skills のサポートが導入されました[1]。 codex/docs/skills.md at main · openai/codexLightweight coding agent that runs in your terminal - openai/codexGitHubopenai [1]: https://github.com/openai/codex/pull/7412 Claude Skills と同じ形式のディレクトリを配置するだけで読み込まれるため、導入の手間はほとんどありません。設定としては、config.toml に次の一行を追加します。 [features] skills = true スキルパッケージは ~/.codex/

Gemini 3 Proはデザインに強いのか?

Gemini 3 ProとClaude Opus 4.5のリリースが近かったこともあり、世間ではこの2つのモデルの性能比較が盛んに行われていました。中でもクリエイターたちの意見で目立ったのは、「Gemini 3 Proの方がOpus 4.5よりもUIデザインが得意だ」というものでした[1]。 [1]: Design Arena で4部門でトップ、Xランドでの言及も多い。 少なくともGemini 2.5 Pro以前は、UIデザインの評判はClaude Sonnetの独壇場だったはずです。v0やBoltといった多くのサイト作成サービスにSonnetが採用されていることからも、それは明らかです。 ではGemini 3 Proの登場で状況は変わったのか? というのを自分で確かめてみることにしたのが本記事の趣旨です。 なおここで作成したウェブサイトはVercelにデプロイしています。各モデルが生成したUIを以下から実際にブラウザで確認できます。 https://lp-compe.vercel.app/ 結論から言うと、UI再現タスクでは Claude Opus 4.5 が最も高精度かつ

Programmatic Tool Calling(PTC)の何が新しいのか?

AnthropicがClaude(モデル) APIの新機能として「Programmatic Tool Calling」(以下PTC)を パブリックベータとして公開しました。 Introducing advanced tool use on the Claude Developer PlatformClaude can now discover, learn, and execute tools dynamically to enable agents that take action in the real world. Here’s how. 一言で言うと、これは「ClaudeがToolを呼び出す処理をPythonコードとして生成し、 Anthropicが提供するサンドボックス内で実行する」機能です。 従来のTool Useでは、Toolを1つ呼ぶたびにClaudeが次のアクションを判断し、 その結果をすべてコンテキストウィンドウに追加していました。 10個のToolを連鎖して呼び出すと、10回分の推論と、

AntigravityはどういうAIエディタなのか

GoogleがGemini 3と同時にAntigravityという新たなAI コーディングエディタを発表しました。 Google AntigravityGoogle Antigravity - Build the new wayGoogle Antigravity 内部技術としては、Google製のChromiumとV8エンジンを内蔵したエディタをGitHubが作った過程で生まれたElectronというフレームワークでマイクロソフトのWebエディタMonacoをデスクトップ化したVisual Studio CodeのOSS版ディストリであるCode-OSSをフォークしたWindsurfの取得時点のライセンスを使い再構築された[1]Googleの独自エディタアプリです(1周した!)。 [1]: 内部には Windsurf/Cascade 由来と思われるコード痕跡が見られる しサードパーティライセンス記述がある し開発チームにはKevin Houがいる ただし、表層の実装は魔改造Windsurf寄りでありつつも、プロダクト設計はKiroに近い方向へ振れており、AIエージェントを中心

Serena MCPツールを使用したカスタムPlanサブエージェント

💡追記: 2.0.30にて「Fixed MCP tools not being available to sub-agents」としてこの非互換が解消されて現在はPlanサブエージェントを上書きしなくても問題ありません。内部アーキテクチャの紹介記事としてお楽しみください。 はじめに Claude Code v2.0.28のアップデートによりPlan機能がサブエージェント化されました。Plan生成時のコンテキストが切り出され、メインコンテキストの削減に繋がるのが主な利点ですが、この影響でPlanモード実行時に利用されるツールがビルトインツールのみに制限され、MCPサーバーから提供されるツール(Serenaツールを含む)が使用できなくなりました。 Serenaユーザーから「ツールが使われなくなった」という報告を受けた著者はこの問題を特定し、Planエージェントを上書きすることでSerenaツールをサポートする方法を試みました。その結果、うまく動作したので知見を共有します。 💡注意: これは公式にサポートされている方法ではないため、将来のアップデートで動作しなくなる可能性があり

Claude Skillsとは何なのか?

AnthropicがClaudeの新機能 Claude Skills (Agent Skills)を追加したと発表しました。Claude Skillsは、Markdownファイルとスクリプトで構成される「スキルフォルダ」を通じて、モデルに特定の機能や知識を拡張できる仕組みです。 Claude Skills: Customize AI for your workflowsBuild custom Skills to teach Claude specialized tasks. Create once, use everywhere—from spreadsheets to coding. Available across Claude.ai, API, and Code.Box logo もともとClaudeは8月にチャットアシスタントからのコード実行環境をアップデートしていました。それまでは指示に応じてPythonコードを実行しグラフ生成やデータ分析をするちょとした用途でしたが、この時にBashコマンドをサンドボックス以下で自由に実行できる環境が構築されています。 Claude

DeepSeek-V3.2-Expがリリース:コスト効率を大幅に改善したアップデート

DeepSeekは新バージョン DeepSeek-V3.2-Exp を発表しました。このモデルは、直前のV3.1-Terminusをベースに、DeepSeek Sparse Attention (DSA) と呼ばれるDeepSeek独自のSparse Attentionを導入してコスト効率を向上しています。 GitHub - deepseek-ai/DeepSeek-V3.2-ExpContribute to deepseek-ai/DeepSeek-V3.2-Exp development by creating an account on GitHub.GitHubdeepseek-ai 特徴 DeepSeek-V3.2-ExpのSparse Attentionは入力トークンの一部だけに注意を向ける仕組みで、入力長が増えるほど計算量削減の効果が大きくなります。 Transformerアーキテクチャは入力が長くなると必要な計算が二乗に比例して増える仕組みでしたが、DSAでは入力されたトークンを内部でインデックス化し、関連度を素早く見積もることで対象を絞り込み効率化します。

【今日の話題】Sonnet 4.5、Cursorブラウザツール、Instant Checkout

Claude Sonnet 4.5 がリリース Introducing Claude Sonnet 4.5Claude Sonnet 4.5 is the best coding model in the world, strongest model for building complex agents, and best model at using computers.logo * 「最強のコーディングモデル」として発表され、30時間以上の自律コーディングを達成したとの報告。 * SWE-bench Verified で 77.2%(並列実行/Best for N方式では82%、)の課題解決率を記録し、長時間安定して計画を維持できる。 * 一方で「GPT-5

GPT‑5 Codexがリリース

OpenAIが2025年9月15日にGPT‑5 Codexを発表しました。GPT‑5 CodexはGPT‑5を土台にして、エージェントのコーディング能力に適した学習と強化が加えられたモデルです。長時間の自律的な作業に特に強みがあります。 We’re releasing new Codex features to make it a more effective coding collaborator: - A new IDE extension - Easily move tasks between the cloud and your local environment - Code reviews in GitHub - Revamped Codex CLI Powered by

メインブラウザをEdgeに切り替えた理由とAIブラウザの可能性

ChromeからEdgeに乗り換え 最近、筆者はAI統合型のブラウザを常用するべくメインブラウザをGoogle ChromeからMicrosoft Edgeに切り替えました。EdgeのCopilot Modeは8月にGPT-5が搭載され、かなり使い勝手が良くなりました。2年前にこの前哨戦となる「Bing AIチャットをデフォルトのウェブ検索にして使ってみた」を投稿したのですが、当時と比べると雲泥の差です。 この記事では、筆者がEdgeへの移行を検討するに至った背景や、実際の使用感について整理しました。また、AIブラウザの台頭に伴い、セキュリティ面での新たなリスクについても考えることになったのでそれを喚起します。 移行の動機 筆者がメインブラウザをChromeからEdgeに移行した最大の理由は、AI統合型のウェブブラウジングを日常にしたかったからでした。実は2年前にもプログラミングにAI機能を使いたいという理由で、エディタをJetBrainsから強制的にVSCode/Cursorに移行した経験があり、それを思い出します。 現在、ブラウザやOSとLLMの統合は急速に進んでいます

今週の話題:Claudeの劣化問題の修正、Claude Code API差し替え、sonoma-alpha

AnthropicがClaudeの性能劣化に対応 Anthropicが公式に、8月からコミュニティで報告されていたClaude Sonnetの性能劣化を修正したと発表しました。原因は推論スタックのインフラ層にあり、独立したバグによるものであり「モデル本体の意図的な性能ダウン」や「需要対策によるダウングレード」は否定されています。 Model output qualityAnthropic’s Status Page - Model output quality.Model output quality 発表には、2025年8月下旬〜9月初旬にかけてSonnet 4系で品質劣化(degraded output quality)が発生し、8月5日〜9月4日には少数のSonnet 4.0リクエストに出力品質の低下が見られたという記載があります。Opus 4.1にはいまだ未解決の問題もあります。 8月中にはRedditでClaude Codeの応答劣化の件は炎上していました。有料プランの週次制限の開始あたりから加熱した印象です。一部ではCodex CLIに乗り換えようという声がありまし

TypeScriptファーストなコーディングAIエージェントのベンチマーク「ts-bench」を公開しました

AIコーディングエージェントのTypeScriptコード編集能力を評価するための、手軽に再現可能なベンチマークプロジェクト「ts-bench」を公開しました。この記事では、筆者がなぜ ts-bench を作ったのか、今後どうしていきたいかについてお話しします。 GitHub - laiso/ts-benchContribute to laiso/ts-bench development by creating an account on GitHub.GitHublaiso ts-benchの仕組み ts-benchは、プログラミング学習プラットフォーム Exercism のTypeScript問題セットを利用します。各問題には、仕様を説明するドキュメント、エージェントが編集すべきソースコードのひな形、そして正解判定に使うテストコードが含まれています。 ベンチマークタスクは、各問題に対して以下の4つのステップを順番に実行します。 1. AIエージェントの実行: 問題の指示書をプロンプトとしてAIエージェントに渡し、ソースコードを編集させます。 2. テストファイルの復元

Nothing Phone (3)のGlyph Matrix Developer Kitで遊ぼう

Nothing Phoneとは? Nothing Phoneはイギリスの元OnePlus創業者Carl Peiが手がけるAndroidスマートフォンです。独特のデザインのガジェットとして注目されることが多いです。2022年に初代Phone (1)が発売され、熱狂的なファン層を獲得しています。 Phone (3)はその3世代目の端末で2025年7月に発表されました。 Phone (3) | PhonesPhone (3) combines elegantly bold and playful design with a new kind of experience — one that’s more playful, personal, and intuitive with every use. It’s a phone with a soul, that doesn’t

Cerebras Code(Qwen3-Coder)の申し込みが再開

AIインフラを手がける新興企業Cerebrasが2025年8月1日に発表した「Cerebras Code」は、中国Alibabaの「Qwen3-Coder」モデルを用いた月額定額サービスで、個人開発者や小規模チームを対象に、コーディングエージェント向けのAPIを提供します。 CerebrasCerebras is the go-to platform for fast and effortless AI training. Learn more at cerebras.ai.Daniel Kim 8月1週の開始直後に申し込みが殺到したらしく、しばらく受付を停止していましたが[1]、今週から再開したようです。 [1]https://x.com/CerebrasSystems/status/1952512742574768599 料金は月額50ドル(Code Pro)と200ドル(Code Max)です。CerebrasはもともとLlama 4ベースの月1500ドルを超えるAPIをエンタープライズ向けに売っていましたが、Claude CodeのMaxプランに対抗するような形でこのプラ

新Codex CLIの使い方

GPT-5の公開(2025年8月7日)に合わせ、Codex CLIがChatGPTのPlusやProサブスクリプションに追加料金なしで利用可能になりました。これによりAPI課金を使わずに導入できるようになり、新規ユーザーが増えています。 GitHub - openai/codex: Lightweight coding agent that runs in your terminalLightweight coding agent that runs in your terminal - openai/codexGitHubopenai Codex CLIの最初のバージョンは2025年4月に公開されましが、リサーチプレビュー段階のプロジェクトなので頻繁に変更があります。リリース1ヶ月後にはTypeScriptからRustにスクラッチで書き直され。しばらく2つのバージョンの開発が並行していました。現在はRust版がデフォルトになっています。 以下のような方におすすめです * リサーチプレビューに参加したい:このツールで開発がどの程度できそうか評価してフィードバックする * エ

Copilot ChatのAgentモードでCerebrasのQwen3 Coderを使う

GitHub Copilot Chatには「Bring Your Own Key (BYOK)」機能があり、OpenAIやAnthropic、OpenRouter、Groq、 Ollamaなど様々なプロバイダーのモデルを使用できます。 AI language models in VS CodeLearn how to choose between different AI language models and how to use your own language model API key in Visual Studio Code.MicrosoftMicrosoft しかし、私が利用したいCerebrasのAPIサポートはまだ公式には含まれていません。 幸いなことに、Copilot ChatのVS Code拡張機能のソースコードが公開されているため、自分でプロバイダーを追加することができます。今回は、

Subscribe to laiso

Sign up now to get access to the library of members-only issues.
Jamie Larson
Subscribe