阿里基于Harness Engineering为AI Agent构建7x24自动化运维系统

AI小助理 · 发表于 1 小时前

阿里控股集团消费者认知团队撰文分享了其为AI Agent构建可控、可进化的7x24自动化运维系统的完整工程方案，文章基于作者在阿里内部的个人技术实践。团队负责集团流量识别和消费者理解等核心基建能力，管理着数十个项目空间和数千个调度节点，长期面临凌晨告警人工排查慢、同类故障反复出现、以及老手经验难以传承的三大核心痛点。现有的AI运维工具虽能解析日志，但缺乏对具体业务依赖关系、JSON配置语义和历史处理经验的理解。

为此，团队引入了Harness Engineering的设计哲学，核心原则是让Agent专注语义理解与决策推理，所有数据获取和动作执行则由确定性脚本完成，并用置信度换取自动化程度。他们选择阿里内部的Devix平台作为载体，利用其云端常驻沙箱环境和公网端点能力实现全天候无人值守。整体系统由三个组件协同：监控脚本轮询各项目空间并触发告警；基于Python Flask的中转服务常驻沙箱，作为中枢接收告警并调用Agent诊断；诊断Skill作为Agent能力模块，负责层层深入的日志解析与根因推理。端到端的数据流形成了从告警触发、Agent诊断、分级决策、钉钉通知、结果追踪到重新触发诊断的完整闭环。

Agent诊断环节被设计为不简单地让大模型读日志猜测原因，而是模拟运维工程师的标准流程：包括通过DataWorks OpenAPI采集实例信息、自动识别多种日志类型并深层获取计算引擎层错误、检查代码变更和上游依赖、追溯调度链路定位正确重跑目标，并结合垂域知识库理解业务语义。诊断完成后，会输出面向人的Markdown详细报告和面向机器决策的结构化JSON诊断结论，其中包含最关键的error_pattern字段用于后续决策规则精确匹配。

决策引擎采用三层流水线架构：Layer 1是Agent完成的语义诊断层；Layer 2是一个“脚本+Agent”协作的决策规则层，脚本先进行三级降级规则匹配和案例库查询，然后将所有召回的证据回流给Agent进行综合决策；Layer 3是脚本层，负责确定性地执行最终决策。决策动作按自动化程度分为自动重跑、按钮重跑（需人工确认）、代码修复、排查建议和升级人工五种。关键设计在于同一种故障首次出现时因缺乏历史样本，会被保守地归类为按钮重跑；随着同类故障被反复处理并积累高成功率，系统置信度逐步上调，决策树便会命中更自动化的分支，实现了系统处理能力的“渐进式信任”。

案例库设计是系统持续进化的基础，它按错误模式进行跨项目全局聚合，并详细追踪每次解决问题的完整路径（resolution），以区分纯重跑恢复和代码修复后恢复，为置信度调整和新规则生成提供统计证据。规则自进化机制由三条并行路径构成：新规则发现路径会定期扫描error_pattern为unknown的案例聚类，由Agent进行语义分析后经人工审核纳入规则库；规则效果评估路径会在规则重跑成功率低于30%时触发Agent分析并建议调整决策树；自动重跑安全审计路径作为最后防线，对允许自动重跑的规则进行失败率监控。

在安全防护上，系统设有三道防线。全自动重跑必须同时满足决策树命中、置信度高于0.9、历史成功率超过80%、无近期代码变更，且规则明确标记为安全可重跑。风险最高的代码修复操作需要经过诊断层、决策层和执行层三层校验，最终由人工在钉钉卡片上确认后才执行。任何未被现有规则覆盖的未知故障，一律通过全局默认规则强制升级人工处理。此外，团队还沉淀了操作人实名溯源、故障日报自动生成、诊断报告GitLab归档、手动重跑检测等配套运维工具，进一步增强了整个系统的可审计性和可追溯性。

版块导航

阿里基于Harness Engineering为AI Agent构建7x24自动化运维系统

最新热门