打通业务与运维边界,七牛云发布智能运维平台PISA
来源:蓝鲸财经 2021-07-12 16:24:02
随着企业数字化转型的加速,IT系统结构愈发复杂、技术组件愈发多样,传统的运维手段在监控告警和根因定位等方面面临诸多挑战。
7月9日,七牛云发布了全新平台Pandora智能服务分析(PandoraIntelligentServiceAnalysis,简称“PISA”)。
据了解,PISA是基于七牛云的机器数据分析平台Pandora开发的智能服务分析工具。通过PISA,Pandora的能力被充分地利用并开放给开发者,使得运维开发人员能够更加简单直接地根据自身业务场景灵活使用Pandora各项能力。
被动变主动,打通业务与运维边界
如今的运维体系现状是有团队、有工具、有数据,但手工和简单的工具越来越难以满足集中治理、快速排障、异常预警等一系列刚需。整个运维环境中缺少最具有价值的“连接者”角色。
据了解,PISA能够同时使用多个数据源、数据采集方法及分析和展现技术,广泛增强IT运维流程和事件管理效率,可用于性能分析,异常检测,事件关联分析,ITSM和自动化等应用场景。
从架构上来说,PISA分为底、中、上三层。底层以Pandora核心计算引擎为基础,输出强大、稳定、高性能、低成本的计算能力。中层依靠Pandora开放平台,为开发者提供丰富、开放、易用的支撑功能。上层是应用层,依托七牛云丰富的AIOps经验落地智能运维服务的应用,帮助最终用户灵活应对不同业务和IT运维分析场景。
当客户在代缴水电费出现问题时,以往传统的处理方式往往是,客户电话反馈问题后客服提交工单给IT进行运维排查,运维排查问题并通过客服向客户反馈结果。然而此时,故障已经发生,客户体验难以挽回。
那PISA是如何带来化繁简改变运维业务流程呢?从本质上看,其打通了业务和运维。
首先,一个平台中接收所有监控系统的警报,让运维人员集中处理IT事件,避免多平台切换,通过智能算法将告警压缩合并,为运维人员提供预警,预防于事前、告警于事中、回溯于事后。
而业务部门可通过场景墙概览各个业务场景的健康度评分,可以查看各项关键指标的运行状态及趋势图,赋能分析业务场景的健康状态,精准定位源头、提升跨部门沟通效率。
这样的方式直接改变了运维业务流程。快速定位运维问题的同时,通过长期数据积累与机器学习,最后帮助企业预防IT风险。
仍以缴水电费为例,在客户致电问题之前,银行的IT部门就能够收到代缴费服务可能出现问题的告警。随后,相比于传统逐层、逐块排查的运维排查方式,PISA能够通过业务交易健康服务分析器迅速发现问题并修复故障。
从七牛云的PISA平台实践成果来看,七牛云首席产品官陈超公布了一组数据:平台可帮助企业误报漏报率有效减少20%,预测未来10-120min服务分数,提前发现故障。
助力金融、汽车等行业数字化转型
2020年8月24日,在全球因疫情影响全面线上办公的时候,Zoom停服3小时。在对用户带来不便的同时,也让更多的人认识到服务稳定性的重要。
目前,PISA的应用场景包括金融、能源、汽车制造、生物医药等行业。
以银行业为例,整个行业基本已具备结合业务场景收集比较完整的IT指标数据的能力,但还没有一套指标数据分析体系为IT管理与业务分析提供可量化、可视化、集约化的决策支撑。
在银行业务交易场景中,每一项服务都有KPI,例如交易额、交易耗时、交易失败率、吞吐量等等,业务指标的梳理是第一步。
这些指标都是分钟级数据,因为过去只要影响到业务层面的故障,都会被监控到。例如,银行的交易量呈现一定的周期性,在早上9:00-11:00,下午1:00-3:00会出现波峰,如果设置固定阈值,会出现误报漏报的情况,而动态阈值能够更加准确进行异常检测。
接下来就是搭建各层指标之间依赖的关系矩阵。只要能准确捕捉到这些指标的异常波动,就可以检测到所有影响业务的异常,用来预测未来的服务健康分数。最后达到提前识别潜在的风险并进行风险规避的目的。
另外,汽车行业的数字化转型已成为业内共识,运维正发挥着前所未有的效力,包括了预测性维护、故障预诊、远程智能运维、工业数据分析。
除了生产制造智能化,车企数据资产及业务价值实现也是重要的一环。
以近期不断有新能源汽车在执行刹车过程中引发了严重的安全事件为例。Pandora平台基于可以收集到的汽车的一些关键数据(如车转向角度、油门角度、车速、车辆固件升级,车辆操作指令等),定制触发规则,将安全数据可视化,从而可以更方便定位安全事件的原因。
这样一来,管理人员能一目了然:问题是什么、问题在哪里、问题在哪个环节、是谁要进行排除等工作的关键因素。
随着越来越多的金融机构与实体企业推进数字化转型,对于IT系统改造与运维服务的需要也将迎来高速发展期。