实战|智能运维平台的建设实践

                       

欢迎金融科技工作者积极投稿!

   

投稿邮箱:newmedia@fc ** g.com.cn

   

   -金融电子化

   

信息技术总部副总经理 文

   

光大证券有限公司信息技术部

   

近年来,证券业务创新的快速发展,如建立科技创新委员会和试点注册制度、股票转让新第三董事会改革、创业板改革对技术体系的快速响应提出了更高的需求,业务灵活、版本快速迭代、系统频繁变更升级给系统的安全、稳定、高效运行带来了巨大的挑战。另一方面,新一代信息技术正在应用于行业的各个领域。智能运维旨在通过挖掘和分析大量的运维数据来提高运维水平,这是技术赋予运维和行业运维保障能力的典型应用。光大证券积极探索智能运维的应用。2018年,智能运维平台推出,获得第七届证券期货科技奖三等奖。经过不断的优化迭代,该平台在运维工作中发挥了越来越重要的作用。

   

智能运维平台功能框架

   

目前,我公司建设的智能运维平台的核心包括两种场景:异常检测和异常定位。异常检测能力包括业务指标异常检测和日志异常检测场景,异常定位能力包括业务细节多维定位和机器指标定位场景,底层以运维数据工厂和运维图谱为支撑,覆盖应用层和基础层(见下图)。

   

图 平台功能图

   

在应用层中,主要从业务和用户体验的角度,重点检测响应时间、响应率、成功率等指标,有助于及时发现系统异常,提前揭示潜在风险。同时,在应用层中,关键模块日志将通过运行指标和运行日志进行实时主动异常检测,以揭示绝大多数应用程序异常。平台检测到运行指标或日志异常后,会自动触发异常定位,即异常原因定位。在应用层面,会触发交易细节的多个维度分析,自动遍历所有业务维度的组合,大大提高异常定位的效率和广度。多维定位的结果可以揭示一些原因的外观和线索,如成功率下降是否集中在某些版本或返回代码上,成功率下降是否集中在某些线路和类型的交易上。调查结果可以帮助小组运维人员快速判断异常调查的方向。

   

平台将在基础设施层使用CMDB找出应用所依赖的基本组件,如主机、数据库、网络、存储等,分析这些组件的关键指标和日志,得出异常波动的指标,减少运维人员检查基础异常的时间。

   

此外,无论是在应用层还是基础层,传统的监控工具,特别是专业部件监控工具仍然发挥着非常重要的作用,专业工具报警将自动纳入异常原因列表汇集分析、算法异常程度和人工操作维护经验设置权重、呼叫关系、可能的原因排名,帮助操作维护人员快速确认异常的可能原因。

   

智能运维平台核心落地场景分析

   

1单指标异常检测

   

在单个指标检测方面,主要包括静态阈值、统计算法、定时检测算法等。这些算法适用于不同的数据,通常与我们的生产环境相结合,核心是根据不同的数据特征使用不同的算法或组合进行异常检测。此外,在实践中,交易系统的主要运行指标通常以天为周期,为检测提供了强有力的条件。所选的检测算法包括不同的数据特征SARIMA、K-Sig ** 、TSD、GBRT等。

   

此外,我们还积累了一些经验。例如,与1分钟水平相比,10秒收集的指标不仅进一步提高了故障发现的效率,而且具有更明显的数据特征和更好的效果。由于证券公司有固定的交易时间,我们发现交易时间各操作指标的检测效果较好。相反,由于一些不确定的变化和重启,非交易时间的检测效果较差。目前,光大证券已接入1万多个业务运营指标,涵盖集中交易、两融资、在线交易等核心交易系统。

   

2日志异常检测

   

日志数据往往隐藏着大量有价值的信息,甚至直接是异常的根本原因。通常,对于重要的操作日志,传统的方法是设置关键字监控或配置正则表达式。但关键字监控的实际使用效果并不理想,如日志类型太多,很难覆盖所有异常关键字。另一种方法是正则分析,即对某种类型的日志进行准确的结构分析,该方法更适合特定格式的日志提取业务或关键指标,不适合直接进行日志异常检测,最重要的原因是正则表达配置复杂,日志有时需要写几十个正则,历史上没有日志不能使用现有的正则来完成分析。为了解决关键词和正则表达式检测方法的不足,我们通过自动智能日志模板分析算法自动从日志中提取不同的模板和变量,然后根据模板覆盖的日志数量进行智能检测。例如,我们需要在实践中找作和维护人员发现所有异常操作经验。哪些可以忽略,甚至可以直接设置关键字等。通过操作和维护经验,即常规设置和算法检测,日志的异常检测可以达到预期的效果。目前,我们已经实现了交易系统的核心操作日志、操作系统、数据库等一般组件的日志监控,并多次发现异常。

   

3业务细节多维定位

   

对于核心系统交易量、响应时间、成功率、响应率等指标,往往是通过SparkStreaming或Flink等流计算,基本数据是每个交易流。每笔交易通常都有多个维度属性。当此类业务指标出现问题时,快速判断异常程度最高的维度属性通常可以帮助管理员快速缩小故障排除范围,从而提高故障处理效率。典型的股票交易细节包括来源省份、城市和证券交易的客户端版本、客户端的系统类型和主机IP等待多个维度,每个维度都包多个属性值。IP、客户号等的值很多,很分散。手动计算和比较一个维度需要很长时间,而一些现象往往出现在多个维度的组合中。目前,功能耗时增加,可能集中在使用上APP6.00(客户交易端版本)和手机是Android操作系统。维度组合越多,计算就越困难,时间就越长。因此,手动枚举所有维度定位维度往往需要很长时间。

   

业务细节多维定位场景采用蒙特卡洛树剪枝等算法,当业务指标异常时,可自动从多维属性组合中分析异常维度组合。目前,在实际实施中,核心交易系统包括集中交易、两种金融、在线交易等系统的业务细节数据已实时访问。当业务指标异常时,可以准确、快速地定位和分析异常前后的交易细节数据,自动找出异常维度或维度组合,为应用管理员提供异常线索。与人工方法相比,定位速度大大提高。

   

4定位异常机器指标

   

遇到业务异常,特别是性能问题时,通常会检查操作系统、数据库、网络等相关组件的关键指标是否发生变化。以主机为例,通常使用CPU、MEM、I/O几个指标,如CPU几十个基本性能指标,如利用率、内存利用率、磁盘繁忙率、网络进出流量、机器负载等,往往需要大量的精力来检查。通过使用聚类、核密度估计、极值理论等算法,可以快速判断和定位哪些指标不同于其历史和其他机器。

   

例如当智能运维平台检测出某个交易指标响应时间异常之后,多维度分析表明来自某两台处理机请求响应时间异常导致整个功能号延时增加,同时通过异常机器指标定位到这两台处理机的CPU指标异常。整个过程可在1分钟内完成,从检测到功能号异常,再到定位问题。

   

平台建设收入

   

近年来,我们继续在智能操作和维护领域工作,特别是在我们的生产环境中取得了良好的效果。主要体现在以下几个方面:首先,智能操作和维护平台数据包括从业务到基础数据,如日志、指标、工作订单等,同时提高数据管理能力,打破数据障碍,监控范围更广,多次发现传统监控未监控异常,特别是一些潜在的风险、瓶颈。其次,由于大数据技术,特别是实时流计算和算法的应用,检测速度更快,粒度更细,更准确,业务指标和日志的实时监控已达到第二级。最后,由于算法的应用和基于操作和维护经验的规则设置,在检测到异常后,可以更快地检测到异常原因,有效地减少MTTR,提高障碍物排放效率。此外,通过开源技术取代商业软件,直接节约了数百万元的经济成本,有效降低了运维成本。随着智能运维的不断深入建设,该平台已成为光大证券IT稳定、安全、可靠的运维方向IT运营的体验、效益、效率转型的重要抓手。

   

(栏目编辑:张丽霞)

   

金融电子化新媒体部主任 / 匡源 编辑 /傅甜甜 潘静

扫码免费用

源码支持二开

申请免费使用

在线咨询