日志分析与智能运维的那些事

2018-01-01

日志分析的发展

       日志本身来源于服务器、设备和传感器等机器设备,且所有日志前都带有时间戳,所以,其学术定义为“时间序列机器数据”。服务器、网络设备、应用软件以及用户信息等内容都包含在日志中,甚至还有物联网传感器等信息。随着人们对日志分析的关注度不断提升,日志分析也经历了以下几个阶段。


       在Gartner最新的报告中指出,到 2019 年,全球25%的公司都将系统性部署实施 AIOps 平台支持两个及以上的主要 IT 运维功能。到2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统运维中的监控、服务台及自动化流程。


        Gartner 报告称,2012 年企业 ITOA 支出为 30 亿美元, 2013 年超过 80 亿美元,2014 年增速达 100% ,预计到 2018 年将成为主流市场需求。ITOA 需要的数据源有机器数据(日志)、通讯数据、代理数据、探针数据,其中日志数据占比可达 80 %。随着 ITOA 概念渗透率逐步提升,日志分析的价值度也逐步提升。

实时搜索日志分析平台的应用

        那么AIOps究竟在日志分析中有哪些典型的应用场景呢?根据我们的实践经验,现总结出如下场景:


  • 全局日志检索:以一个典型金融行业为例,他们有上百个业务系统,面对每天产生的大量日志数据(TB级),日常运维过程中,当运维人员需要排错或日志巡检时,需要逐台登录服务器, 无法集中查看和管理日志数据;另外,日志查询方式比较原始, 比如 Windows 服务器,手动查看Event Log, Linux服务器则只能通过less、grep和awk等常见的Linux指令,无法从时间段、关键字、字段值统计等方面进行多维度查询。AIOps平台通过收集各类数据源(包括操作系统、系统软件、数据库、应用日志等),统一进行管理。不同于以往每次仅可查看数量有限的几种日志,运维人员可通过智能运维平台所提供的关键字、统计函数、单条件、多条件、模糊查找等功能,在多个系统中快速定位故障信息,帮助运维人员从全局视角查看系统的运维数据信息。



  • 复杂多维报表,应用深度监控:AIOps将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如应用日志、交易日志、系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标。



  • 快速发现故障,精准告警:实时采集各类运维数据(日志、监控系统告警、性能数据等),通过对历史数据的挖掘和分析,AIOps 可以找出哪些告警和事件是频繁一起出现的,并将其认看作同一类故障的告警,从而把多个告警和指标合并,推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。



  • 缩短故障解决时间:可以通过运维数据可视化(复杂多维报表,热力图)及精细化告警信息,结合以前发现问题的经验知识库和模型,从而将运维信息从平面变为立体,立体展现故障树分析,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。



  • 预测未来:可以进行数据挖掘,生成分析类报表,进行趋势/容量/故障预测。例如,某些故障之间有时间上的先后关系,交换页不足、内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。



  • IT辅助决策支持:可以通过采集海量多维度数据,构建多元结构化底层数据仓库,以搭积木的方式适配各类运维场景,并在场景里刻画系统和人员画像,通过画像形式来辅助企业进行IT决策。


写在最后

        规模不断扩大的 IT 系统、日益复杂的系统架构,以及海量的 IT 日志数据使得运维人员压力山大,3.0实时日志搜索分析平台的出现,将大大释放运维人员的生产力,使得运维人员专注于提高业务的连续性。


        因此,企业搭建实时日志检索分析平台已迫在眉睫。



参考链接:

https://www.gartner.com/newsroom/id/3674017

https://en.wikipedia.org/wiki/IT_operations_analytics

http://os.51cto.com/art/201512/502040_all.htm