指标平台的话题在数据界越来越热⻔,往往热⻔的东西总是新出来的。但实际上,和商业智能 (BI)的概念⼀样,指标平台的概念可能⽐您想象的还要⻓。指标平台最开始出现,是在像 Airbnb、Uber 和 linkedIn 这样的⼤型科技公司。
他们发现,为了了解公司的业务并对其进⾏分析,需要有⼀个集中的地⽅来进⾏指标的定义和管理,因为只有在⼈们信任数据,且每个⼈使⽤的数据都保持⼀致时,项⽬洞察和商业分析才有价值。然⽽现实情况是,混乱的数据孤岛、增⻓的数据量、复杂的计算,才是每个数据故事的开头。分散的指标给数据分析师带来了诸多困扰,在多样的前端需求(CRM,BI, Python,SQL,API)和多种数据来源(ERP,APP,Web,RDBMS,Excel/CSV)之间,需要有⼀层平台,来帮助他们实现数据的存储、计算和控制。
指标平台是供组织集中管理、存储关键指标的平台,提供统⼀业务模型、指标管理、指标加⼯、数据服务于⼀体的完整的解决⽅案。它是⼀种集中组织数据的⽅式,以可重复的⽅式访问关键指标,⽤⼾可以使⽤多种应⽤在下游消费这些指标。
中台即连接后台与前台的“中间层”,根据前台的需求去后端找数据,并加⼯成”数据服务 API”,供前端所有系统来使⽤。指标平台作为数据中台的特性有:⼀致性、访问性和复⽤性。作为数据架构的⼀部分,指标平台作为⼀个标准化的单⼀可信源,开始受到重视,有了指标平台,您可以:
指标能够直接反映企业的⽣产运营状况,从⽽为企业决策提供数据⽀撑。⼀⽅⾯随着国家⼤数据战略实施与企业数字化转型的驱动,指标的重要作⽤⽇益凸显;另⼀⽅⾯指标管理上的诸多痛点使得全企业实施统⼀的指标管理成为必然要求。但要想把指标管理好并不容易,不仅需要科学合理的⽅法论,还需要有效的技术⽀撑。
指标作为⼀种业务元数据,与企业元数据有着千丝万缕的联系,所以可以把指标管理当做元数据管理的⼀个应⽤。那么,如何管理指标?如何通过分解业务实现指标的管理?为了解决这些问题,我们先从企业⽬前指标管理的痛点谈起。
由于企业业务发展的历史原因,企业内部信息系统的建设多为烟囱式建设。各部⻔按照部⻔内的需要主导了不同信息系统的建设,⽽没有从全局视⻆考虑如何整合各个系统。烟囱式的系统建设,数据⼝径的不⼀致会导致决策者⽆法从统⼀视⻆去了解企业经营的状况,在企业整理经营汇报时,会出现不同业务部⻔对业务经营现状得出完全不同的调整建议的问题。
数据⼝径是指统计数据所采⽤的标准,即进⾏数据的相关⼯作所依照的指标体系。数据⼝径包括采集⽅式、统计范围等指标。在企业内各部⻔、各渠道的业务员,会根据⾃⼰业务范围内的指标进⾏命名,这样就会造成⼝径不⼀致的情况。指标⼝径不统⼀就会导致⼀个简单的业务问题在不同团队那⾥会得到不同的汇报数字。更糟糕的是,没有⼈知道究竟哪个数字是对的。例如下⾯图例⾥⾯的销售额计算结果不⼀致。
建⽴完整的指标体系在企业中尤为重要。如果没有指标,我们能够知道的信息就会变得很少,亦或是获取信息的 成本会变得很⾼。如果只有指标,⽽没有体系,我们能够知道的信息就会变得很窄,亦或是获取的信息就会变得 很乱。进⽽,体系的缺位会导致组织的“数据指南针”失效。越是在⼤型组织当中,指标体系越为重要,因为决策者离⼀线业务较远;公司的业务虚拟属性越强,指标体系越为重要,因为公司与客⼾的距离较远。简⽽⾔之,建⽴指标体系的⽬的就在于获取全局性的、有体系性的信息;进⽽通过这些信息去驱动业务的发展,达成组织⽬标, 这就是指标体系之所以如此重要的原因。
“指标计算结果出错了,问题出在哪⾥,是计算过程的问题还是因其他指标出错导致的连环出错,还是说数据在录⼊的时候就出错了?是谁的责任?”
指标⼤多都是经过多种计算得到的,有些指标需要经过很⻓的加⼯过程才能得出。如果⽆法追溯指标的加⼯过程就难以知晓指标所⽤的数据来⾃哪⾥,且⽆法快速找出指标出错的原因和对应的责任部⻔,使得指标的⼀致性、完整性和准确性得不到保证。
另外出现问题时部⻔之间互相推诿的情况时有发⽣,导致指标问题难以得到解决。
企业不仅需要管理数据的系统,更需要⼀个完整的规则系统以及规章流程。数据治理基本上涵盖了企业所有与数据有关的内容,因此在整个企业范围内,包括⼯作流程、涉及⼈员和使⽤的技术等等,都需要经过仔细考量,以保证数据的可⽤性、⼀致性、完整性、合规性和安全性,确保在整个数据⽣命周期中,都具有较⾼的数据质量。
⼀旦数据的质量难以保证,那么多少⾼⼤上的分析算法都成了空中楼阁。底层的基座决定上层建筑。如果给数据分析算法灌进去的数据是“垃圾”,那么分析的结果也⼀样是“垃圾”。这就是⼤数据界经典的效应:GIGO(Garbage in Garbage out)。
指标平台旨在管理企业的海量指标,以及指标的各类衍⽣和复杂计算,这就涉及到指标成倍的存储和计算。随着数据量产⽣速度越来越快,传统平台存储与计算能⼒遇到瓶颈,查询耗时较⻓,⽆法快速响应。虽然指标平台前期建设也需要⼀些指标的计算设计,但是后期指标平台可以通过派⽣、复合,减少⼆次创造指标的重复劳动问题和资源浪费问题。
将指标物化在数据仓库层是⽬前来说常⽤的⼀个解法,数据仓库⽀持将指标定义在视图(View)中,然后让其他⼯具去查询视图。不少企业⽬前就是在使⽤视图来解决分析指标的计算和查询问题。使⽤视图的问题是仅能针对⼀些查询需求进⾏物化,在各类查询需求繁多的时候,数据⼯程团队需要准备⼤量的视图,开发成本极⾼,数据 管道复杂不说,还很容易出错。
当上游的数据出现问题的时候,下游系统很难知道,就⽆法及时同步修复,这会导致数据的消费者如数据科学家,⼯程师需要花费⼤量时间来 debug 数据不⼀致问题,这使得他们的⼯作效率⾮常低下。
⽐如下图为引⼊指标平台之前的 Airbnb 数据平台:建⽴在核⼼数据之上的衍⽣表⼤量激增,带来了⼀系列问题。
在⾃助式分析逐渐普及的趋势下,传统数据平台不能够⽀持灵活的⾼并发的分析⽅式,⾃助式体验不好。⽐如有时候决策者想要下钻分析到局部,但是系统却不能响应即席分析。此外,数据查询以后进⾏的聚合计算会导致数据获得缓慢,这样决策的效率就会受到影响⽽延后。灵活性、可扩展性、实时性、⾼并发性等特性逐渐成为了分析平台必不可少的需求。
在不久以前,如果组织想要⼀个集中的指标平台,他们必须⾃⼰建⽴。这需要⼤量的基础设施投资,有时还需要数据⼯程团队的⻓周期⼯作。⽆论是⾃⼰开发,还是直接购买,都需要付出前期的成本。那么企业⼤量投⼊后,能从指标平台获得哪些价值,我们接下来介绍。
因为指标是⽤量化管理的⽅法将业务进⾏统⼀管理,指标平台实现了可以⽤指标为统⼀语⾔来了解业务发展,整体理解业务的真实状况,贴合业务的价值和⽬的。业务⽤⼾也可以通过指标所描述的对象和场景来理解业务,⽐如,有的业务场景看重费率、有的业务场景看重客单价。
通过对历史数据的对⽐分析,指标的不同特点可以反映业务问题。例如指标在各个维度的特点,指标有没有随着时间产⽣周期性变化,还可以分为在不同的业务⽣命周期和⽤⼾⽣命周期。在同样的指标下,不同业务场景表现如何,例如游戏平台、内容平台、课程平台的活跃时⻓都会有所差异,这种差异既和业务形态有关,也和⽤⼾需求有关。
判断业务好坏也可以通过设置指标参照的基准,这个基准除了⽤于判断业务表现以外,还可以衡量业务成⻓。⽐如⾏业参考值、最⼤值、均值、成熟度曲线、不同业务组的整体值、上⼀时间周期对⽐同⽐环⽐、年累计等等。
指标的变化只是描述了历史变化,其中变化的原因才能说明业务的问题。同样的⼀个指标变化,背后的原因在不同场景下可能不⼀样。客单价降低,如果是因为扩充了低单价品类商品或者新⽤⼾⽐例增加引起的,那就不⽤太紧张,但如果是因为缺货、⽼客客单价下降等,那可能就有⽐较⼤的问题。指标的关联因素实际上会影响指标的变化,指标的关联因素主要考虑的是,该指标发⽣波动是哪些因素造成的,指标和另外的哪些指标会共同变化,等等。对“影响因素”的认识,常⻅的场景就是波动或者归因分析。
运营管理效率是⼀家企业执⾏⼒的体现,是将战略⽬标在组织层⾯进⾏分解,然后逐步落实并实现的过程。在⼤数据时代,企业必须要建⽴⼀套数据感知响应系统,通过即时的数据采集、数据分析及决策,实现即时响应,并在快速迭代中形成应对外部环境的最佳策略。
企业需要采集数据并建⽴指标体系,对运营的各个环节进⾏数据化和指标化,让所有运营活动都⽤数据表征,这样就能够精细化运营管理的各个环节,提升过程管控的⼒度和粒度,提⾼管理的精细化程度。
业务发展的过程中会产⽣⼤量的数据,企业需要对数据背后映射的价值进⾏洞察。只有把数据和业务结合起来,通过处理和分析才能体现数据的价值。通过指标体系来监测业务数据,分析业务的发展情况,能帮助企业更好的提⾼数字化⽔平,提升运营效率。构建指标平台既可以更加全⾯清晰的展⽰企业应⽤的数据,也可以帮助企业沉淀数据资产,利⽤现在的机器学习等预测能⼒,挖掘数据价值,为商业决策提供数据⽀持。
指标的基本概念
现代管理学之⽗彼得·德鲁克有⼀句⾮常经典的话:“What gets measured gets done”,意思是只有⼀个事情能被量化,才能够被解决。就好⽐家⾥有了⼀台秤,才能衡量减肥的效果。那么如何量化管理企业呢,这个统⼀的标准去衡量业务,就是指标的由来。
什么是指标?
指标意思是衡量⽬标的参数;预期中打算达到的指数、规格、标准,⼀般⽤数据表⽰。
指标分类
维度是度量的环境,⽤来反映业务的⼀类属性,这类属性的集合构成⼀个维度,也可以称为实体对象。维度属于⼀个数据域,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、⽉、周、⽇等级别内容)。维度是帮助度量值使⽤者理解度量值含义的上下⽂。
维度属性⾪属于⼀个维度,如地理维度⾥⾯的国家名称、国家 ID、省份名称等都属于维度属性。
⼀般来说,度量是数据表中的数值数据。度量就是被聚合的统计值,也是聚合运算的结果,它⼀般是连续的值,如销售额,或销售商品的总件数。
根据部⻔管理职能和业务覆盖范围,将指标数据项进⾏结构化归类,划分⼀⼆三级主题,并以此作为后续指标应⽤和建设的重要依据。
原⼦指标和度量含义相同,也叫基础指标,是基于某⼀业务事件⾏为下的度量,是业务定义中不可再拆分的指标, 具有明确业务含义的名称,如⽀付⾦额。
派⽣指标=1 个原⼦指标+多个修饰词(可选)+时间周期。可以理解为原⼦指标业务统计范围的圈定。如原⼦指标:⽀付⾦额,最近 1 天海外买家⽀付⾦额则为派⽣指标。
复合指标是在事务性指标和存量型指标的基础上复合成的。例如,浏览 UV- 下单买家数转化率,销售额-库存。
下⾯⽤⼀个表格来展⽰⽰例的各类指标:
指标计算
指标除了定义多样化之外,也有复杂的公式,这⾥对指标计算类型⼤致做⼀个分类如下。
指标体系⽅法论
介绍了这么多类型的指标,这些指标去哪⾥找,怎么样体系化管理这些指标,如何把公司复杂的业务量化成为⼀ 个个管理指标,就需要⼀套⽅法论来进⾏梳理。接下来我们介绍的就是指标建设的⽅法论。
OSM 模型
⾸先需要对公司的、业务的、产品的阶段性⽬标进⾏确定。所选取的业务⽬标是否真正的可以反映公司的经营战略。制定业务⽬标是最为重要的,是公司的战略⽅向。指标设计要贴合业务的核⼼价值⽬的,可以衡量业务的真实状况。总的业务⽬标可以细分到每个⼦⽬标,例如提升 GMV (gross merchandise value,商品交易总额) 推导公式:
GMV = ⽤⼾数*转化率*客单价
进⾏拆分,这样就出现了三个⼦⽬标,分别是提升⽤⼾数,提⾼转化率,提升客单价。
接下来是细分业务的策略。为了实现总的业务⽬标,需要各个下属部⻔对于总的⽬标的拆分⼦⽬标的实现进⾏计划。
例如为了⼦⽬标提升⽤⼾数,可以进⾏培育/拓展⾼质量渠道。通过线下导流线上公众号、社群推⼴引流以及其他推⼴渠道,提升⽤⼾的转化效果。
为了提⾼转化率,可以进⾏提升⾸⻚分发效率、优化搜索体验。也可以优化⽤⼾下单购买环节的流程体验。为了提升客单价,可以进⾏运营促销活动,也可以定向商品运营、采⽤商品组合销售增加单次购买⾦额。
确定了细分业务策略以后,就可以设计指标来量化评估。例如提⾼渠道拓展的质量,就可以⽤下单转化率、新⽤⼾登录数、下单转化率来评估。通过这些衡量指标来反映整体业务⽬标的完成情况,如果不能够真实反映,需要额外提出指标建设需求,形成闭环。
北极星指标
北极星指标是 OMTM(one metric that matters):唯⼀重要指标;之所以叫北极星指标,是因为这个指标⼀旦确定,就会像夜晚⾼悬于天空的北极星⼀样,指引整个公司和产品的前进⽅向。
北极星指标的作⽤是:
下⾯是⼀些北极星指标的例⼦:
指标体系建⽴流程
指标体系建⽴的⽅法是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。流程上可以分为四个步骤,找指标、理指标、管指标、⽤指标。
结合集团战略和岗位职责,设定全⾯的衡量指标,并分解到具体业务过程。可按照作⽤层⾯分为企业级、业务级、运营级。
• 指标分类从业务管理需求出发,⾃上⽽下 (Top-Down) 逐层展开:
o 需要确定业务领域
o 识别业务环节
o 定义业务分析主题
• 具体指标以业务系统为导向,⾃下⽽上 (Bottom-Up) 逐层筛选:
o 确定指标范围
o 整理指标维度框架
o 基本指标与维度映射
o 数据指标体系分析
指标的梳理过程包括:
• 指标规范定义的核⼼元素及⽬标:定义统⼀、⼝径统⼀、名称统⼀、来源统⼀、参照统⼀。
• 为指标的分析和使⽤提供参考依据。
• 明晰指标的数据来源,统⼀指标取数规则。
经过指标梳理后,形成的材料为指标元数据字典。指标元数据字典是对业务指标成体系化的汇总,⽤来明确指标的⼝径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息。简单点说是为业务数据标准化提供的基础,⽅便对指标进⾏统⼀管理(包括统⼀修改,共享和维护)。
指标是指标字典的单位,是指衡量⽬标的⽅法,由维度、汇总⽅式和量度组成。
维度:是看待事物的视⻆与⽅向,决定了根据什么⻆度去衡量指标。汇总⽅式:是统计汇总数据的⽅式,常⽤的汇总:求和,求均值。
量度:是对⼀个物理量的测定,通常以数字 + 计算单位表⽰,量度是数据的重要组成部分,⽤来明确数据的计量单位。
⽰例:订单总⾦额:⽤⼾在统计周期内完成⽀付的订单⾦额总和
(按照⽀付时间统计,不考虑订单是否取消,币种为⼈⺠币,计量单位为元。)
该⽰例中,维度为⽀付时间,汇总⽅式为求和,量度为元。
管指标数据的⼯作和其它数据管理⼯作并⽆太⼤差别,即通过推动数据治理体系建设,制定主数据、业务数据、 统计数据的标准和规范,提升数据质量。
常态化数据管控团队可以由数据管理领导⼩组、信息管理部⻔、业务部⻔、数据专项管理组、信息化项⽬组共同组成。
企业仅仅制定指标体系,并不能起到规范数据的作⽤,只有将指标体系落实在实际应⽤中,才能发挥其管理作⽤, 因此构建指标体系往往和应⽤系统建设同步进⾏。通过指标数据体系的应⽤,我们将规范企业内指标使⽤的规范 性,提⾼数据的准确性、⼀致性和可追溯性。我们会在下⼀章展开指标体系的应⽤。
指标数据标准
指标数据标准是为满⾜内部分析管理需要和外部监管要求,对基础类数据加⼯⽽产⽣的指标数据标准化规范。指 标数据标准通过基础属性、业务属性、技术属性和管理属性来描述指标数据规范化要求。例如,在基础属性中需 要定义标准名称,明确指标分类;在业务属性中需要明确指标的业务含义、业务⼝径和指标维度等;在技术属性 中需明确指标取数范围、指标取数⽅式、指标条件、指标数据类型、⻓度和精度等。为确保指标数据标准定义的 完整与严谨,我们总结形成了⼀整套指标数据标准的信息项属性架构:
指标标准要求
指标数据定义规范注重反映集团战略⽬标和业务发展过程的全局性,充分考虑各类国际标准、国家标准、⾏业标准,强调数据标准落地建设,对指标数据定义有如下要求:
完整性要求:指标的信息应避免缺项,保证内容完整。
唯⼀性要求:保证指标选取的全⾯,避免指标之间重复。
准确性要求:每项指标都必须准确体现业务需求,能够科学地反映评价对象的某⼀⽅⾯信息。
规范性要求:集团对指标数据标准的定义和分类提出了明确要求,各专业、各层级应严格按照本规范的要求开展指标数据标准⼯作。
谁来制定指标数据标准?
类似基础数据标准的管理,在指标数据标准管理⼯作中,同样需要数据治理归⼝管理部⻔来牵头指标数据标准的制定⼯作,并建⽴业务归⼝部⻔与技术主管部⻔的协作机制。
数据治理归⼝管理部⻔:对于指标数据标准管理⼯作⽽⾔,数据治理归⼝管理部⻔是作为牵头者的⻆⾊,需要做 到组织数据治理⼩组会议,将技术管理与业务管理的相关⼈员协同起来,完成指标数据标准制定⼯作,并提供资源协调、统筹安排等便利。
指标标准业务归⼝部⻔:指标标准业务归⼝部⻔作为指标所属领域的业务主管部⻔对指标数据标准进⾏归⼝管理。 业务涉及多个板块的,以指标产⽣部⻔对数据标准进⾏归⼝管理;多个部⻔同时计算的,以业务牵头主管部⻔进⾏归⼝管理。其职责主要包括,确定指标数据的使⽤部⻔、基础属性、业务含义和业务⼝径等标准,并对指标的 技术⼝径的统计结果进⾏测试和确认。
技术主管部⻔:技术主管部⻔作为指标标准管理的技术⽀撑,对指标的取数⽅式和指标条件进⾏确认,并统筹指 标数据标准的落地实施⼯作。
谁会使⽤指标平台?
• 业务⽤⼾
此类⼈员占指标平台⽤⼾的⼤部分,主要是领导和⼤部分业务⼈员。这些⽤⼾不需要了解最底层的相关技术,底层技术对于这类⽤⼾来讲是透明的,他们只需要能够使⽤技术部⻔提供上来的指标即可。
• 开发运维⼯程师
此类⼈员是指标平台运转不可缺少的⼀部分,系统为这部分⼈提供了⼀个便利的环境,即可以⽅便的配置指标,可以能够快速查询和使⽤各类指标。
• 数据分析师、数据科学家
此类⼈员是指标平台使⽤的⾼级⽤⼾,他们知道如何做数据建模和复杂的分析。从指标平台中他们也可以借助增 强分析的能⼒来减少他们⽇常创建重复指标分析的⼯作。
指标需求对接流程
通过指标平台新增指标需求,区别于原有的指标需求建设周期,需求对接的流程⼤⼤缩短。业务⽤⼾提出指标需 求后,会有评审⼈来判断是否可以通过已有的指标进⾏衍⽣或者复⽤,这样就可以⼤⼤地减少指标建设的重复性⼯作。
指标平台功能规划
指标平台能够为企业梳理出⼀套完整的指标体系,并建⽴统⼀的指标管理中⼼,提供指标管理、标准定义管理、 模型管理、数据源管理、⾎缘分析等主要功能,可以清晰的描绘企业指标数据从⼝径、来源、计算、存储、应⽤ 的全过程,为经营决策、监管报送、⻛险管理、财务管理等各类指标数据提供数据共享、规范管理以及⼝径统⼀ 保障。⼀个通⽤的指标平台应当具备哪些功能呢?
指标定义
⽀持图形化、向导式定义指标,提供常⽤计算逻辑,⽀持业务分析师快捷定义,界⾯友好,使⽤⻔槛低,⽆须 IT⼲预。提供常⽤计算逻辑,满⾜ 80% 的分析场景。基于指标逻辑,反向精细定义索引,沉淀语义,⽀持资产复⽤。
指标看板
指标看板需要绑定⼀个维度和⾄少⼀个指标,其中绑定的第⼀个指标为主指标,其余为次要指标。同核⼼指标类似,指标看板也可以展⽰多个指标卡⽚。不同的是,指标看板的不同卡⽚之间展⽰的是同指标在不同维度下的值,不同指标的值会在同⼀个卡⽚中显⽰。指标看板可以⼀⽬了然地展⽰数据或销售业绩状况,以⽅便您及时掌握现状,从⽽快速制定并实施应对措施。因此,指标看板是发现并解决问题的有效地⽅法之⼀。
指标应⽤
指标应⽤可以包含指标看板,通过看板把指标可视化展⽰,降低业务⽤数和制作报表的⻔槛。指标卡⽚也是应⽤其中之⼀,可以实现构成分析、异动归因、指标元数据、趋势图、同⽐环⽐、数据下载、下钻分析、不同⽇对⽐、相关指标、指标分享、指标评论等功能。应⽤还有平台化指标管理,统⼀⼝径,以标准的 API 接⼝对应⽤赋能。指标平台也应该提供标准的对接⽅式来提供给其他 BI 应⽤。
指标⾎缘
数据⾎缘关系,即数据的全⽣命周期中,数据与数据之间会形成多种多样的关系,这些关系与⼈类的⾎缘关系类似,所以被称作数据的⾎缘关系。
从技术⻆度来讲,数据 a 通过 ETL 处理⽣成了数据 b,那么,我们会说,数据 a 与数据 b 具有⾎缘关系。不过与⼈类的⾎缘关系略有不同,数据⾎缘关系还具有⼀些个性化的特征。
例如:有⼀天,⼀个业务员发现他上个⽉的绩效数据不对的,那么这个问题提交到数仓开发的时候,数仓开发会怎样去查找这个问题呢?
数仓开发⾸先会找到这个报表指标⽤的是哪个表-字段,再找到这个表的数据创建脚本,认真查了⼀遍指标的计算逻辑。确认当前表-字段的计算逻辑没问题后,会往上查找这个表直接依赖到的表-字段。再继续⽤同样的⽅法确认这些表-字段,如此⼀层层定位问题。
另外,⾎缘关系也是指标的派⽣关系、指标数据的影响因⼦,通过这个关系,对于指标数据异常的智能发现提供了最直接的溯源依据。⽐如平台经纪⼈的活跃指标突然下降,程序可以通过这个指标的上游关系⾃动的回溯,快速找到出现异常的最源头表的字段。这样对数据异常的排查难度会⼤⼤降低。
指标分享
例如您算出了⼀个复杂的投资计算公式组成的指标,需要通过⼀个平台分享给您的同事、⽼板等⽤⼾,以免重复性的指标创建⼯作在企业中浪费⼈⼒成本。其次,通过指标分享,⽤⼾还可以发现哪些“流⾏”的指标被分享的最多, 从⽽结合指标卡⽚和指标推荐的能⼒,提升⽤⼾体验。
指标推荐
搜索式指标分析,改变传统分析⽅式,有效缩短分析路径。基于查询历史和⽤⼾偏好,系统⾃动推荐热度指标和 关联指标,实现企业内分析⽅法复制。
异动预测
智能探查指标数据特征,系统⾃动为⽤⼾查找业务的关键驱动因素。AI 智能算法嵌⼊可视化图表,⽆需提前定义监控逻辑,根据历史数据识⾃动别异常值。
指标洞察
智能探查指标数据特征,系统⾃动为⽤⼾查找业务驱动因素。避免分析“偏⻅”,获得全⾯洞察结果。快速创建和分享、上报分析⻅解。
指标计算引擎
指标平台有着丰富的需求和功能,那么对于指标平台底层的计算引擎就有着很⾼的要求。市⾯上有很多计算引擎都可以⽀撑指标平台的应⽤,但是很难有⼀个引擎满⾜指标平台中对于明细查询、聚合查询、⾼并发访问、查询 效率、增强分析等各类需要。下⾯罗列出来的是指标平台底层的计算引擎需要具备的常⻅特性:
根据这些特性,我们对⽐了⼀些计算引擎产品,详细展开来看。
Apache Kylin
⼤数据 OLAP 主要分两派,MPP 和预计算,都是为了解决⼤数据查询下很慢的问题。Apache Kylin 是预计算, Apache Kylin 提前将 Hive 数据做多维度聚合汇总⽣成⼀个数据⽴⽅体 (Cube),当⽤ SQL 查询时转化为查询Cube,构建为 Key Value 数据存成 Parquet ⾥,基本上可以达到⼀个亚秒级别的查询。
指标管理的核⼼就是将定义的指标进⾏组合时,⽣成 SQL 提交给 Apache Kylin,接收结果并展⽰。
从可⽀持海量数据计算、亚秒级查询响应、⽀持标准 SQL、以及可维护性,涉及的技术栈以及社区活跃度上, Apache Kylin 都符合作为数据引擎来⽀撑企业指标体系建设的要求。
Spark
⽬前⼤数据⽣态主要部分是 Hadoop 软件框架和 Spark 内存计算引擎。Apache Spark 是专为⼤规模数据处理⽽设计的快速通⽤的计算引擎。
Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从⽽不再需要读写 HDFS,因此 Spark 能更好地适⽤于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
但是 Hive、Spark、Impala、ClickHouse、Flink 都是实时聚合查询,⽆法⽀持⾼ QPS。Spark 因为是基于内存运算的,如果数据量超出内存偶尔也会出现挂掉的现象。
Druid
Druid 是⼀个⾼效的数据查询系统,主要解决的是对于⼤量的基于时序的数据进⾏聚合查询。数据可以实时摄⼊,进⼊到 Druid 后⽴即可查,同时数据⼏乎是不可变。通常是基于时序的事实事件,事实发⽣后进⼊ Druid,外部系统就可以对该事实进⾏查询。Druid 提供低延时的数据插⼊,实时的数据查询。也正是由于 Druid 对于时序的设计, 必须在时间维度下做预计算,才能实现⾼ QPS 和秒级响应,对⾮时间维度下、⾼基维度下的聚合查询效果不佳,且不⽀持标准 SQL 语法,实现成本⾼。
ClickHouse
ClickHouse 是⼀个列式数据库管理系统(DBMS)。ClickHouse 可以⽀持从原始数据的直接查询,ClickHouse ⽀持类 SQL 语⾔,提供了传统关系型数据的便利。
ClickHouse 擅⻓明细级别的⾼性能查询,在复杂或者⾼基维度的聚合查询中,⽆法同时满⾜⾼性能和⾼ QPS。
此外,Druid 和 ClickHouse ⽆法兼容原⽣ Hadoop ,需要额外搭建集群存储和处理数据。这⼜在运维的层⾯上增加了⻔槛和复杂性。
指标平台在分析⼯具逐渐丰富的今天,弥补了数据仓库和前端应⽤中缺失的⼀环。有统计表明,超过 70% 的 BI 项⽬都失败了,最终究其原因是⽤⼾⽤不起来、不会⽤数据分析⼯具把业务和数据进⾏转换。在这样的⼤环境下很多公司根据痛点,⾃⼰开发了指标平台。有了数据指标平台,规范了⽤⼾使⽤数据,⼜给⽤⼾创建多样的指标提供了便利,同时也可以⽤量化管理的⽅法来反映公司发展的关键性策略,这些从侧⾯说明了指标平台市场⽕热的原因所在。
本文摘编自 Kyligence 发布的《指标平台建设方法与实践白皮书》,全文下载:
更多指标相关内容推荐: