# AI & Agent
「AI & Agent」分类下的全部文章。
让 agent 点进跨域 iframe:chrome-use 啃下这块硬骨头
给 AI agent 接浏览器,最难的不是打开页面,是那些藏在跨域 iframe 里的表单——能读、能填,就是点不动「保存」。记一次把这块硬骨头啃下来的过程。
iphone-use — 把 computer-use 搬到 iPhone 上
开源的 iPhone 智能体控制层:浏览器实时遥控 + AI agent 的看/操作 API。三层输入架构(Shortcuts 动词 / 元素树 / 像素兜底),中文直通,真机验证。
Claude Code Workflows 深度解析:把编排写进脚本之后
Claude Code 昨天(2026-05-28)放出 dynamic workflows,目前还是 research preview。这篇不讲源码,只讲它到底改了什么、什么时候用划算、什么时候纯属浪费 token——以及它和 subagent / skill 的本质区别。
状态栏那行 cache 4m23s,到底准不准?
状态栏上那行 prompt-cache 倒计时是怎么算出来的,准不准,会不会骗你。
ChatGPT 订阅 → 生图 API 可视化速览:chatgpt-imagegen 一图看懂
一页可视化速览:ChatGPT 订阅是怎么被 chatgpt-imagegen 转成命令行生图工具的——OAuth 取 token、Responses API SSE 流、能力边界矩阵、不该用的场景一图说清。
/goal 命令实现剖析
基于 Claude Code 2.1.139 headless 版源码,拆解 /goal 命令如何通过会话级 Stop hook 驱动 Agent 持续工作直到条件满足。
claude agents 与 /bg:Agent View 实现剖析
基于 Claude Code 2.1.139 源码,拆解 claude agents、--bg 与 /bg 如何共用后台 job 模型、daemon 与 FleetView TUI。
做自己的微信账号自动化,应该先想清楚哪三层
如果目标是“自己的账号自动化”,真正该拆开的不是功能清单,而是监听层、执行层和存储层。
从辅助编码到一体化研发:AI 编程团队落地实践(PPT)
一份 Slidev 风格的中文演示稿:解释 Agentic Coding、Skill 与 MCP、AGENTS.md 与 CLAUDE.md、沙箱和权限控制,以及团队如何用 Plan、YApi Skill 和 docs-sync 把 AI 编程真正落地。
从辅助编码到 Agentic Coding:团队如何真正把 AI 编程用起来
围绕 Agentic Coding 的核心问题,系统梳理主流工具形态、Skill 与 MCP 的边界、AGENTS.md 与 CLAUDE.md 的作用原理、沙箱与权限控制,以及如何用真实任务和 benchmark 评估 AI 编程,而不是只看 demo。
QClaw 的实现原理:它如何把 OpenClaw 产品化成桌面应用
这篇文章不再停留在“控制面 / 执行面”的总论,而是基于当前实现把桥接层、IPC、配置字段、微信链路、回滚机制和证据索引一一展开,说明 QClaw 如何把 OpenClaw 组织成一个可交付的桌面运行时。
OpenClaw v2026.3.8 发布解读:备份、远程网关、Talk 模式与多端路由继续补强
基于官方 release notes,总结 OpenClaw v2026.3.8 的关键变化:备份命令落地、macOS 远程网关 onboarding、Talk silence timeout、Brave 搜索接入、ACP receipts,以及多平台路由修复。
