本文通过 AI Agent 技术实现数据库异常的自动发现、智能分析和快速修复,将故障处理时间从数小时缩短到分钟级,异常误报率降低 60-80%。
随着业务规模快速增长,OPPO的数据库规模已达到数十万实例、千万级库表,涵盖MySQL、PostgreSQL、MongoDB、ClickHouse、Redis、Mi彩神lvus等多种数据库类型。常见故障点:
AI判断:应用错误路由到从库 → 从库只读阻塞 → 连接池耗尽 → QPS下降
AI: CPU 85% + 查询模式异常 + 连接数突增 + 历史同期对比→ 综合评分0.92(高度异常)→ 告警
传统流程:问题发生 → 用户投诉 → DBA介入 → 分析 → 解决(已造成影响)
多模数据管理平台:OneMeta:各数据库类型在系统变成“可理解、可治理、可查询”统一数据资产;OneOps:提供DBaaS(数据库即服务)的体验,所有运维相关操作的控制平台
多模数据管理平台ODC(Open Database Develop Center)已经完成并投入使用,不做过多说明。本文主要介绍智能诊断模块的实现,开发提效和智能运维模块后续再做详细介绍。
重要性:虽然评估成本较大,但这是提高DB Agent准确率的良方,尤其在数据库这种基础高风险组件中尤为重要。
进入性能诊断界面,发现CPU使用率在21:03:00-21:13:00突然飙高至85%,触发智能诊断。
推断:CPU飙高由数据库查询时Sending_data数据过多引起。通过SQL关联分析,定位到导致CPU飙高的SQL指纹。
数据库智能诊断实现了资源监控与SQL智能关联,精准锁定异常根因,提供优化方案,形成异常发现-诊断-修复闭环。
AI的诊断结果并非完全准确,部分重要场景仍需要人为干预和引导。DB Agent的建设是一条持续且漫长的道路,需要我们不断优化与改进。