# AI & Agent

「AI & Agent」分类下的全部文章。

给 AI agent 接浏览器，最难的不是打开页面，是那些藏在跨域 iframe 里的表单——能读、能填，就是点不动「保存」。记一次把这块硬骨头啃下来的过程。

开源的 iPhone 智能体控制层：浏览器实时遥控 + AI agent 的看/操作 API。三层输入架构(Shortcuts 动词 / 元素树 / 像素兜底),中文直通,真机验证。

Claude Code 昨天（2026-05-28）放出 dynamic workflows，目前还是 research preview。这篇不讲源码，只讲它到底改了什么、什么时候用划算、什么时候纯属浪费 token——以及它和 subagent / skill 的本质区别。

状态栏上那行 prompt-cache 倒计时是怎么算出来的，准不准，会不会骗你。

一页可视化速览：ChatGPT 订阅是怎么被 chatgpt-imagegen 转成命令行生图工具的——OAuth 取 token、Responses API SSE 流、能力边界矩阵、不该用的场景一图说清。

基于 Claude Code 2.1.139 headless 版源码，拆解 /goal 命令如何通过会话级 Stop hook 驱动 Agent 持续工作直到条件满足。

基于 Claude Code 2.1.139 源码，拆解 claude agents、--bg 与 /bg 如何共用后台 job 模型、daemon 与 FleetView TUI。

如果目标是“自己的账号自动化”，真正该拆开的不是功能清单，而是监听层、执行层和存储层。

一份 Slidev 风格的中文演示稿：解释 Agentic Coding、Skill 与 MCP、AGENTS.md 与 CLAUDE.md、沙箱和权限控制，以及团队如何用 Plan、YApi Skill 和 docs-sync 把 AI 编程真正落地。

围绕 Agentic Coding 的核心问题，系统梳理主流工具形态、Skill 与 MCP 的边界、AGENTS.md 与 CLAUDE.md 的作用原理、沙箱与权限控制，以及如何用真实任务和 benchmark 评估 AI 编程，而不是只看 demo。

这篇文章不再停留在“控制面 / 执行面”的总论，而是基于当前实现把桥接层、IPC、配置字段、微信链路、回滚机制和证据索引一一展开，说明 QClaw 如何把 OpenClaw 组织成一个可交付的桌面运行时。

基于官方 release notes，总结 OpenClaw v2026.3.8 的关键变化：备份命令落地、macOS 远程网关 onboarding、Talk silence timeout、Brave 搜索接入、ACP receipts，以及多平台路由修复。