技术博客.
聚焦 AI 应用落地、Agent 工作流、RAG、Tool Calling、系统集成与工程实践。记录从原型到生产级的每一段技术沉淀。
多模态 Agent:让 AI 也能「看」世界
文字只是信息的一部分。图像、视频、音频中蕴含着更丰富的内容。本文介绍多模态 Agent 的核心技术:视觉理解、图像生成、跨模态检索。
Agent 安全:先缩小攻击面,再谈更强能力
这篇文章基于 OpenAI 当前 safety best practices、safety checks 和 Agent Builder 安全指南,重写 Agent 安全主线:提示注入、工具权限、结构化数据流、HITL、内容审查、身份标识和日志脱敏。重点不是继续罗列风险名词,而是把防护手段落到系统边界设计上。
Agent 调试:先复现坏轨迹,再讨论优化
这篇文章基于 LangChain、LangGraph 和 LangSmith 当前 observability / test 文档,重写 Agent 调试主线:trace、metadata、坏轨迹归类、局部复现、节点级测试、差分对比和最小修复。重点不是堆日志代码,而是建立一套能稳定定位问题的排障方法。
工具调用入门:让模型从回答者变成执行者
这篇文章从工程实现角度解释 Tool Calling / Function Calling 的基本机制、工具契约该如何设计、执行器如何接住模型返回的调用指令,以及在多工具场景下常见的几个坑。
记忆与上下文管理:不是记得越多越好,而是取用得刚好
这篇文章基于 LangGraph 和 LangChain 当前官方 memory 文档,重新梳理短期记忆、长期记忆、上下文裁剪和按需写回的设计方式。重点不是早期 `ConversationBufferMemory` 这类 API,而是 thread、checkpointer、store、runtime 和 context engineering 这些更接近当前工程实践的能力。
多 Agent 协同:不是 Agent 越多越强,而是上下文分配得更合理
这篇文章基于 LangChain 当前官方 multi-agent 文档,重写多 Agent 协作的判断标准和几种核心模式:subagents、handoffs、skills、router 和 custom workflow。重点不在框架名单,而在什么时候真的该上多 Agent,以及如何用 context engineering 避免系统越拆越复杂。
生产级 Agent 架构:从 Demo 到可治理系统
这篇文章从请求入口、任务编排、工具隔离、状态持久化、观测、成本和人工兜底几个维度,梳理生产级 Agent 系统需要具备的核心能力。重点不是罗列组件,而是说明这些能力如何串成一条可治理的执行链路。
Agent 评估体系:先定义什么叫好,再决定怎么打分
这篇文章基于 LangSmith evaluation 文档和 OpenAI 的 agent evals 指南,重写 Agent 评估体系的核心结构:离线评估、在线评估、数据集、实验、evaluators、tests 与 evals 的关系,以及如何把生产坏例子回流到评估集。重点不是继续背 benchmark 名字,而是建立适合自己系统的评估飞轮。