解决方案
  • 来源:
  • 日期: 2017-02-08

一、什么是智能运维?

       智能运维是相对传统运维的一种升级和进化,智能运维能够实现业务系统的自动化故障智能检测,自动判断哪些异常、哪有有告警,从而能够辅助管理者进行故障根源判断和处理

二、传统运维软件出现这么多年,为什么现在会提出来智能运维?

       几年前一般的企业只有几十个或者几百个服务器资源,而今天随着云计算、虚拟化技术的发展,互联网技术的广泛应用,一个企业拥有几千台或者上万台服务器资源也是常见的。这30-40倍的增长使得在运维层面的负担变的更加严重。在监控层面要想获得每一个服务器的每一个指标更加困难。

       另一方面,业务系统复杂度也在增长,架构更加复杂,cache数据、非关系型数据库、大数据架构、离线的数据处理、app、PC端应用等,这些以传统监控方式一个一个配置已经不能满足管理需求。随着管理资源的数量和负责度增加,监控出现了太多的指标和图表,人的精力是有限的,工程师规模却没有太大的增长。那么如何从海量的指标中找到工程师关注的指标、关注的图表,传统的监控一个一个配置方式已经不能满足需求。所以,今天的运维管理人员更需要智能化的运维来帮助他们降低运维的压力。

三、如何利用大数据技术实现智能化运维

       从数据采集维度首先要获得更加全面的海量数据。从业务的角度出发,首先监控要从三个部分采集更多的基础输出,包括基础架构(软硬件、日志、网络信息、容器虚拟机)部分;用户端(CDN、WEB、移动端、PC客户端)数据,只控制了server端,用户端出现问题也无法使用;应用部分(软件层面、应用层面),包括WEBServer+APP Server+File Server+Load Balancer等。从采集数据的内容来看,基础架构数据更多的事性能数据、销售数据等,例如磁盘、CPU等;用户侧数据更多是流量、错误率、用户访问情况、用户体验、操作信息、操作记录这些用户关心的数据;

       从数据处理层面实现数据聚合。监控系统将采集回来的数据进行时间序列处理,原始的日志信息等很难用作处理判断的,只有将它转换成可识别的结构化数据或者时间序列数据,我们才能方便进行判断。

       最简单的方式就是把每一个单位时间采集的原始各类信息数据转换为时间序列数据,然后对单位节点的数据之上再去做聚合。还有一种方式是聚合是按照业务维度聚合。例如一个用户的访问系统时间、访问的地域、使用的运营商、用户的查询的内容等,这一类信息包含了用户访问系统的业务维度是什么样的数据。系统将监控数据按照业务维度进行聚合,按照业务维度计算,这个是在业务维度进行聚合,用户看到的就是一种二维的业务运维维度。通过数据处理实现异常自动的检测。

       传统的监控方式一种是恒定阈值的方式(cpu小于10%报警),一种是同环比(周期性的对比,响应时间上涨20%报警等)。这些告警方式都比较简单,简单易懂。但是缺点一样明显,需要大量的工程师的投入,体现在两个方面,一个就是监控的配置,一个是随着环境变化人工阈值变化维护。

       但是一些情况下,传统的监控方式是无法实现准确告警,例如数据在波峰的突降或者波谷的徒增情况,传统的阈值监控就无法识别,出现遗漏。第二种就是缓慢偏移情况,系统的运行数据缓慢的偏离的阈值的设定,这类情况可能很难触发恒定阈值,但是业务系统已经出现的问题,传统恒定阈值是很难识别的。第三种就是不断漂移的阈值范围,例如流量信息在不同的节假日的或者上班高峰访问流量是不确定的,这类监控是无法通过人工的设定去捕捉的,这样容易出现很多监控误报。

       利用大数据如何解决人工的阈值设定呢,首先可以利用统计学方式,根据数据的正态分布规律,利用标准差或者方差的方式推断阈值来代替人工设定的阈值,这个方式可以解决大量的人力;另外一种方式针对同环比情况,可以利用同环比方差计算,例如把原始数据切分成很小的时间窗口,针对每一个小的时间窗口他的同环比区间内我们去计算均值和方差,最后会得到一个整体趋势性数据的阈值范围。

       那么让机器去识别如何利用这两种数据呢,这里就需要利用分类的算法,让机器自动区分,数据是否是具有周期性分布,还是同环比情况。

       当然数据还是不断变化的,这种情况可以利用数据针对不同的节假日、上班高峰的大量历史数据进行比较,这里需要大量的历史数据,同时需要对数据的对比分析,从中通过算法识别出来规律,从而避免监控移动或者误报。

       利用大数据技术实现智能运维其实还有很多领域可以突破,这里只是列举很小的一部分。例如数据可视化技术让开发、运维人员更加直观的处理问题;利用基于大数据预测、预警的能力来实现故障预判,在故障发生前就提前进行预判,从而提升业务系统可用性;利用大数据的处理能力,采集处理更多的服务端的数据,这样使得监控运维的数据信息更加完整,形成全方位的运维数据覆盖,实现用户、服务、计算资源的无死角管理。

       未来我们还是希望能够让系统自动理解故障趋势和模式,通过某种方式自动的理解运维人员思维方式,更深入的服务。例如通过监控系统通过历史数据去分析、去学习,自主的分析分体和识别问题,帮助工程师识别问题,或者利用学习功能自动发现应用或者环境的变更,从而自适应的调整运维模式,这些都是可以利用大数据技术实现。

原创 2018-03-23 塔塔 德塔大数据研究院

上一篇: 智能软件
企业文化

智能,令工作更轻松;

智慧,让生活更美好;

诚信、公正、真诚、责任、进取;

成熟的销售团队、一流的技术服务

高效的管理模式、专业的研发团队

联系我们

上海浦敏科技发展股份有限公司

热线电话:021-62304651

地       址:上海市普陀区安远路518号1405室

公司网址:www.pumintech.com

Copyright © 上海浦敏科技发展股份有限公司 备案号:沪ICP备17047763号  沪公网安备 31010702006353号

 

本站部分图文来源网络,如有侵权问题请通知我们处理!