阿里基于Harness Engineering为AI Agent构建7x24自动化运维系统
阿里控股集团消费者认知团队撰文分享了其为AI Agent构建可控、可进化的7x24自动化运维系统的完整工程方案,文章基于作者在阿里内部的个人技术实践。团队负责集团流量识别和消费者理解等核心基建能力,管理着数十个项目空间和数千个调度节点,长期面临凌晨告警人工排查慢、同类故障反复出现、以及老手经验难以传承的三大核心痛点。现有的AI运维工具虽能解析日志,但缺乏对具体业务依赖关系、JSON配置语义和历史处理经验的理解。
为此,团队引入了Harness Engineering的设计哲学,核心原则是让Agent专注语义理解与决策推理,所有数据获取和动作执行则由确定性脚本完成,并用置信度换取自动化程度。他们选择阿里内部的Devix平台作为载体,利用其云端常驻沙箱环境和公网端点能力实现全天候无人值守。整体系统由三个组件协同:监控脚本轮询各项目空间并触发告警;基于Python Flask的中转服务常驻沙箱,作为中枢接收告警并调用Agent诊断;诊断Skill作为Agent能力模块,负责层层深入的日志解析与根因推理。端到端的数据流形成了从告警触发、Agent诊断、分级决策、钉钉通知、结果追踪到重新触发诊断的完整闭环。
Agent诊断环节被设计为不简单地让大模型读日志猜测原因,而是模拟运维工程师的标准流程:包括通过DataWorks OpenAPI采集实例信息、自动识别多种日志类型并深层获取计算引擎层错误、检查代码变更和上游依赖、追溯调度链路定位正确重跑目标,并结合垂域知识库理解业务语义。诊断完成后,会输出面向人的Markdown详细报告和面向机器决策的结构化JSON诊断结论,其中包含最关键的error_pattern字段用于后续决策规则精确匹配。
决策引擎采用三层流水线架构:Layer 1是Agent完成的语义诊断层;Layer 2是一个“脚本+Agent”协作的决策规则层,脚本先进行三级降级规则匹配和案例库查询,然后将所有召回的证据回流给Agent进行综合决策;Layer 3是脚本层,负责确定性地执行最终决策。决策动作按自动化程度分为自动重跑、按钮重跑(需人工确认)、代码修复、排查建议和升级人工五种。关键设计在于同一种故障首次出现时因缺乏历史样本,会被保守地归类为按钮重跑;随着同类故障被反复处理并积累高成功率,系统置信度逐步上调,决策树便会命中更自动化的分支,实现了系统处理能力的“渐进式信任”。
案例库设计是系统持续进化的基础,它按错误模式进行跨项目全局聚合,并详细追踪每次解决问题的完整路径(resolution),以区分纯重跑恢复和代码修复后恢复,为置信度调整和新规则生成提供统计证据。规则自进化机制由三条并行路径构成:新规则发现路径会定期扫描error_pattern为unknown的案例聚类,由Agent进行语义分析后经人工审核纳入规则库;规则效果评估路径会在规则重跑成功率低于30%时触发Agent分析并建议调整决策树;自动重跑安全审计路径作为最后防线,对允许自动重跑的规则进行失败率监控。
在安全防护上,系统设有三道防线。全自动重跑必须同时满足决策树命中、置信度高于0.9、历史成功率超过80%、无近期代码变更,且规则明确标记为安全可重跑。风险最高的代码修复操作需要经过诊断层、决策层和执行层三层校验,最终由人工在钉钉卡片上确认后才执行。任何未被现有规则覆盖的未知故障,一律通过全局默认规则强制升级人工处理。此外,团队还沉淀了操作人实名溯源、故障日报自动生成、诊断报告GitLab归档、手动重跑检测等配套运维工具,进一步增强了整个系统的可审计性和可追溯性。
|
|
|
|
|
|
|