如何掌握商业数据分析的能力?

上期我们说了基于数据科学下的商业分析都有哪些分析方法《数据科学商业分析的五种方式》。

如何掌握商业数据分析的能力?

让我们来回顾一下,如下图所示:

如何掌握商业数据分析的能力?

五个层次层层递进,经过前四个层次的分析以后,可以对企业的决策和行动提供有力支撑,但面临海量数据,自动化分析的趋势变得非常迫切。接下来具体讲讲,这5种分析对应的商业分析场景。

描述性分析

描述性分析做为商业数据分析的第一个层次,主要回答『发生了什么』的问题,接下来将对如何通过数据发现、描述和回答『发生了什么』的方法和工具进行介绍。

一、方法

1、了解业务场景

如果想通过数据发现和回答『发生了什么』的问题,第一步并不是急急忙忙的直接去分析数据,而是首先要了解和还原数据产生的业务场景,包括:数据涉及到的部门和岗位有哪些,这些部门和岗位之间的业务流程是怎么样的,在不同业务流程中有哪些输入,对数据做了什么处理,又是如何输出和传递给下游部门的。如果不了解业务场景就去做数据分析,就如同盲人摸象,因此这一步至关重要。

2、 探索性分析

探索性分析又细分为以下三个步骤:

① 提问,理顺初步分析思路和目标

在了解清楚数据产生的业务场景后,可试着问自己一些what happened的问题。比如,本月销售额是多少?环比和同比变化分别是多少?本财年销售的变化趋势是怎么样的?通过相应问题,可以理顺初步的分析思路和分析目标。另外,在上一步了解业务背景的时候,也要注意和相关业务的关键干系人沟通,获取他们想知道的what happened的问题有哪些。

需要注意的是,这里说的是初步的分析思路和目标,因为在随后做分析的时候,新的灵感可能会被不断激发,分析的思路和目标也在不断调整,这是一个循环往复的过程。

② 收集数据

有了初步的分析思路和目标以后,就可以确定需要收集哪些数据了。比如上文提到的销售额分析可能用到的数据为销售订单数据、销售开票数据。

③ 选择相应分析方法

根据分析的思路和目标,就可以对收集到的数据选择相应的分析方法了。具体的方法包括:

对数据位置的探索,包括:最大值、最小值、均值、中位数、分位数等

对数据分布的探索,包括:偏差、方差、标准差、茎叶图、直方图、箱形图(也叫盒须图)、密度图等

对数据趋势的探索,包括:同比、环比、趋势图、条形图等

对数据聚合的探索,包括:排序、筛选、计数、重复项、分组、求和、比例、条形图、饼图等

3、提炼指标

对数据做探索性分析后,可对数据反映的事实有一个直观的感受,比如,通过分析一个仓库的月度收发存数据,可以大概知道这个仓库的货物周转情况。但是要想更准确、简洁地描述发生了什么,还应该提出更高的要求:即总结和提炼出相应指标。比如描述库存周转的整体情况,库存周转率、库存周转天数等指标更有效。这些指标可以做为企业日常经营管理的KPI,让相关人员快速、准确地了解到企业当前的经营情况。

二、工具

1、个人使用

描述性分析中最常用的工具就是Excel,但是随着商业环境中产生数据的增多,Excel的运行效率变得相对低下,并且Excel主要侧重于表格中的数字分析,但是因为人类对图形的敏感度和理解力天生就比数字高,正所谓一图胜千言,因此近年来可视化分析工具逐渐流行起来,此类工具主要是通过图形去对数据产生洞见,发现其中的规律,而不仅仅是用做结果的展示。

FineBI就是其中之一。其上手比较容易,很多功能设计的也比较便捷和人性化,运行效率较高(10万行以上的数据FineBI较Excel有明显优势),输出的可视化图表也很美观,可直接用在数据分析报告dashboard里(Excel默认输出的图表都很丑,后期还需要做不少调整和美化,才能放到数据分析报告里)。

2、企业使用

对企业来说,描述性分析的工具主要是报表和BI。

报表一般是嵌入至各专业系统中,如CRM、SRM、ERP、WMS、MES等。

商业智慧BI一般是单独的系统,其从各专业系统中抽取数据,经过处理后,通过表格或图形展示出来。过去Oracle的BIEE,IBM的Cognos,SAP的BO曾经在企业数据化建设上一度受欢迎,这些工具过去庞大且上手难度大,在业务部门难以推广。后来出现了新一代的自助式BI,目前多见的有Tableau、Qlikview,PowerBI等。这类自助式BI之所以受欢迎是,商业智慧分析平台市场的主流已经从IT资讯部门主导的静态展示分析转向业务部门主导的动态探索分析,这样才能激发员工的主动性和创造力。

如何掌握商业数据分析的能力?

诊断性分析&预测性分析

明确为什么发生以及未来会发生什么,这就是诊断性分析(Diagnostic Analysis)和预测性分析(Predictive Analysis)的作用。如何对问题做这样的分析:

1、寻找相关特征(feature)

在诊断性分析中,首先需要知道和结果可能相关的因素(在数据分析里,这些因素被称为特征)有哪些,这个过程一方面依赖于我们对业务的了解程度,另外也要多和业务人员进行头脑风暴,只要是可能相关的,都纳入考虑,也可以基于现有特征构造新特征,至于是否相关可在后面的分析中进行验证。

比如和汽车油耗可能相关的特征包括:车重、排量、轴距、变速箱类型(手动、自动)、驱动方式(两驱、四驱)等。

2、相关性分析(Correlation Analysis)

列出和结果可能相关的特征后,下一步就是要验证这些特征和结果到底是否相关。具体方法包括:

2.1 定性分析

2.1.1 二维散点图

若分析的仅是一个特征与结果的相关性,则可以通过画二者的二维散点图进行分析,通过图形描述,可以初步且直观判断二者的存在何种相关关系:正相关、负相关、无关;如果相关的话,是线性相关还是非线性相关(抛物线、指数等)。下图为不同性别年龄与身高关系的散点图,可以看出在青少年时期,这二者是呈线性正相关的。

如何掌握商业数据分析的能力?

2.1.2 矩阵散点图

在现实中,仅有一个特征与结果相关的情况是少之又少的,大部分情况都是存在多个与结果相关的特征,此时需要矩阵散点图进行分析。矩阵散点图样式如下:
如何掌握商业数据分析的能力?

如何掌握商业数据分析的能力?

其实质就是针对每一个特征与结果分别做二维散点图,以分析其相关性。当然,在矩阵散点图上也可分析特征与特征之间是否有相关性,专业上称呼为多重共线性,多元线性回归要求模型中的特征数据不能存在有多重共线性,否则模型的可信度将大打折扣,此时需要排除部分特征消除共线性才能建模。

2.2 定量分析

上述的散点图分析仅能通过图形看出特征与结果的大致关系,即定性分析;但是无法对它们的关系做精确性描述,即定量分析;定量分析主要分为如下两个步骤:

2.2.1 特征选择

当我们列出可能和结果有关的多个特征,并通过散点图获得大致的直观认知后,还需要更精确的判断到底哪个特征与结果的相关性更高,为了降低计算的复杂度,我们应该只把那些最相关或者最重要的特征放到模型中,主要的方法有两种:

单变数特征选择方法:常用的手段有计算皮尔逊系数(即相关系数)和互信息系数,相关系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,不过很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;

基于模型的特征选择方法:部分模型本身在训练过程中就会对特征进行排序,如逻辑回归、决策权、随机森林等;

特征选择不仅有助于简化计算,还可以帮助我们对特征与结果的关系有更好的理解。

2.2.2 模型建立

2.2.2.1 回归(Regression)

若结果为连续值,则应用的模型为回归模型,包括:

一元线性回归(Linear Regression)

若仅有一个特征与结果相关,并且其是呈线性关系的,则可以进行一元线性回归,即建立回归模型y=a+bx计算出截距a和斜率b,x为特征(自变数),y为结果(因变数);

多元线性回归

上文中已经提到,在现实生活中,仅单个特征与结果相关的情况是不多见的,大多数都是多特征共同作用导致的结果。若通过矩阵散点图判断,各特征无多重共线性,且与结果呈线性关系,则可以进行多元线性回归分析,建立回归模型y=a+b1x1+b2x2+…+bnxn;

非线性回归(Non-Linear Regression)

如果回归模型的因变数是自变数的一次以上函数形式,回归规律在图形上表现为形态各异的各种曲线,称为非线性回归。常见的非线性回归模型包括:双曲线模型、幂函数模型、指数函数模型、对数函数模型、多项式模型等;

那么如何获得上述的回归模型呢?常用的回归演算法包括:最小二乘法、支持向量机(SVM)、GBRT、神经网络等。

2.2.2.1 分类(Classification)

若结果为离散值,则应用的模型为分类模型。比如人的年收入、日平均运动时间、日平均睡眠时间与人的寿命的相关关系是回归模型;而人的年收入、日平均运动时间、日平均睡眠时间与人健康与否(健康或者不健康)的相关关系则是分类模型。

常用的分类演算法包括:决策树、逻辑回归、随机森林、朴素贝叶斯等。

2.2.3 监督式学习(Supervised Learning)

上述回归模型和分类模型均是机器学习的监督式学习模型,它主要指通过学习历史的真实数据,找到其中的规律(即模型),并假设「历史总是惊人的相似」「太阳底下没有新鲜事」,通过找到的模型对未来进行预测。这一种学习方式相当于既包括了诊断性分析,也包括了预测性分析。但是,通过历史数据找到真正的规律是比较难的。在现实生活中大家应该都有这种感觉,回顾过去好像清清楚楚,但是展望未来时又是一片迷茫。这是因为实践和未来才是检验规律的唯一标准,但是在未来还没有发生的情况下,检验只能依靠历史的数据,这样非常容易出现机器学习中常说的过拟合和欠拟合的问题。

如何评估机器学习模型的效果,避免过拟合和欠拟合的问题,找到那个真正的规律,业界提出了很多的方法,下面知乎链接有简介:

过拟合和欠拟合
https://zhuanlan.zhihu.com/p/360174398

3. 因果性分析

诊断性分析的隐含意思就是,要找到事物的因果关系,即因果性分析。所谓因果性,假设X是因,Y是果,则只要X出现,必然会导致Y的发生,其是百分之百的概率。

虽然我们在上文中介绍了相关性分析,但是需要特别注意的是,相关性分析并不等同于因果性分析,相关性分析可达不到百分之百的概率。比如,虽然收入与个人的健康有很大的关系,因为收入高的人可以享受更好的物质和医疗,但是并不意味着有钱人就一定健康,现在有钱人英年早逝的新闻经常见诸报端,因此我们只能说收入与健康是呈相关性,而非因果性。

但是,在现实世界中,很多事务的因果性是很难被证实的,因为其追求的是百分之百的概率,一点差错、一个反例都不能出。「吸烟有害健康」这句话听了很多年,现在听起来貌似这两者之间存在因果性,但是其实它们也是相关性,只不过是强相关性。因为要证明所有吸烟的人健康都受到了影响,这件事是很难的。

所以,回过头来,做诊断性分析时,我们依然要从相关性分析出发,并结合相关领域的知识,通过逻辑推理,对分析的结果进行合理解释。因此,在使用机器学习的模型时,也要注意其可解释性。

另外,在大数据分析时代,我们看问题和分析问题时,也要转换自己的思路,从以往的寻找确定的因果性改为寻找强相关性。

指示式分析

指示式分析回答的问题是:为了解决这个问题,我们该做些什么?或者说,为了达到某个目标,我们该朝哪个方向努力?

那么如何通指示式分析给出相应问题的解决方案和行动建议呢?

首先,还是要进行描述性分析。通过描述性分析明确现状和问题,及业务人员和管理人员的需求,这样才能做到有的放矢。

其次,进行诊断性分析,寻找和当前问题相关的特征,并对其进行建模。

上述两个步骤在前面的文章中已经做了详细介绍。

最后,根据不同的业务场景和需求,给出具体的解决方案和行动建议。具体方法又分为以下三种:

1. 预测性分析

有一些情况,仅仅使用诊断性分析和预测性分析的模型,即可以给出建议,比如银行可根据申请人的基本信息,包括学历、收入、是否有车、是否有住房、存款金额、是否有违约记录等,去建立模型预测其信用违约的风险有多大,进而给出建议是否要给这个申请人发放信用卡,如果要发放,信用卡的额度又该是多少。

2. 模拟(Simulation)

模拟就是通过建模模拟真实世界的系统或流程,并通过不同的输入参数或条件查看其对结果的影响,据此制订相应决策。模拟在各行各业已经有广泛的应用,比如军事上初级的沙盘推演、中级的电脑模拟对抗、高级的实战演习,都是模拟。再比如飞机设计时初级的软件CFD(计算流体力学)模拟、中级的风洞实验、高级的试飞,也是模拟。当然,越高级的模拟付出的成本就越高,所以在商业环境中,主要是通过在电脑上做数学建模模拟,进而根据模拟结果给出相应的解决方案和行动建议。比如企业的成本支出和客户服务水平是一个两难问题,往往成本的削减意味着客户服务水平的下降,那如果说企业要制订年度成本削减目标,通过模拟发现成本降低5%,但是客户服务水平仅下降1%,属于可接受范围,但是当成本降低10%时,客户服务水平下降达6%,可能对公司的经营、商誉等产生重大影响,则此时成本降低5%是相对合适的,而10%就不是那么合适了。

3. 最优化( Optimization)

最优化是应用数学的一个分支,主要指在一定限制条件下,选取某种研究方案使目标达到最优的一种方法。最优化问题在当今的军事、工程、管理、商业等领域有着极其广泛的应用。比如,企业都希望利润尽量高,那如何在现实的约束条件下,达到上述目标就是一个普遍的最优化问题。最优化常用的方法为线性规划、非线性规划、凸优化、整数规划、网络流优化(物流、电网、通讯网络应用)等。

自动化分析

现如今,AI革命正处在快速发展期,以AI驱动的自动化分析,可以解析仪表盘背后的数据,并在发生重大活动时发送信号。自动化分析会基于分析结果采取行动。它们会自动改变在线价格,自动显示最好的着陆页(landing page),自动确定给用户发送什么邮件,甚至自动驾驶车辆。

工业的发展,没有取代人,而是把人从繁琐的工作中解放出来。自动化数据分析的作用是将数据分析师从繁琐、固定的任务中解放出来,例如一些流水线的基础的分析,就光是自动收集、处理数据就能使数据分析师有更多自由地时间提高自我。

一些自动分析已存在多年。你不会认为航空公司会派人来审核座位价格的变化吧?这样做需要所有雇员,甚至更多。你不会认为银行高级职员会审核你的信用卡或个人贷款申请吧?那些都是自动的,因为银行高级职员深思熟虑的,是你意图的收费或借款是否有欺诈。如果这些不是自动的,等到有人查看可能的欺诈交易的时候,欺诈者应当早已作案多起后飞到了洪都拉斯去了。

在这个用户期望实时响应的世界,自动分析日趋必要。在现实世界中,每个市场促销都应该是量身定制和个性化的,数据无处不在并且需要被分析后使其有用。我们确实没有足够的人力去分析所有数据,做所有的决定,进而采取必要的行动。即使我们这么做了,也会花费非常长的时间才能成这些事情。

自动分析,在我看来,是基于分析法如何被使用。这个术语不应混淆于以自动或半自动方式,它们是通过如机器学习为工具来实现分析的生成。这种更为常见,且其存在也部分地基于同样原因——太多数据需要分析,且没有足够的分析师。

为了能有效的工作,自动化分析特别需要被嵌入到为分析提供数据的系统中,然后在得到分析结果后采取行动。Gartner 2015战略科技列表中的“高级的、普遍存在的和不可见的分析”,以及很多其它分析将被自动化。被嵌入自动化分析的那些系统,会被归为“复杂事件处理”家族,它们被设计为实时采取行动。在其数据仓库和Hadoop集群中,组织机构也日趋进行自动化分析。这一集成意味着,自动化分析需要被紧密连接到信息技术机构和CIO;这一类分析法不再是分开的、临时的行为。

企业应用

这通常是一个贯穿不同类别分析法的自然发展过程。例如,你是一个货运公司,你想最小化你的汽油消耗。

  • 第一步,做一些描述性分析,看看不同线路的卡车的耗油情况,耗油量延时是增长还是下降,甚至于是否某些司机每公里耗油比其他司机多少。
  • 第二步,建立一个预测模型,其特性与更大的油耗相关联,或许使用某种形式的回归分析。
  • 第三步,开始告诉司机什么时候在什么地点加油,这正是有些公司,如施奈德(Schneider National)正在做的事。
  • 第四步,绕过驾驶员直接告诉卡车什么时候停车加油。显然,第四步包含比现在更多的车辆自动化。

当然,相比规范分析,自动化分析给人类提出了更多的难题。试想,当卡车司机被告知在哪个停留站加油,他们会怎么想。我猜,当由分析算法做出所有驾驶决定的时候,司机们很可能会不高兴。

个人应用

同时,在一般用户领域,自动分析领域中的工具,通常会运用以行为为主的算法,对用户提供建议。经过分析的数据,可能会由行动应用程序,在附有传感器的穿戴式装置,还是在笔记本电脑或桌面计算机上进行可视化。

大部分工具侧重于三个个人领域的其中一个:个人体能。评估和监督体能活动和身体功能的工具,协助你对专业效能和幸福,做出更好的决定。

「睡眠纪录器」是一种行动式应用程序,收集与睡觉质量有关的数据,它让你了解,为什么在特定工作日感到警戒(或倦怠),以及如何充分利用休息与绩效的关系。

个人思维。专注在个人思维的工具,会收集与日常工作、习惯,以及知识工作生产力相关的数据。将某些模式可视化,这些模式反映了,在上班日浏览网络上的各类型数据时,你的注意力会流向哪里,以及比重有多高。这里显示的网络浏览模式,是来自美容产品部门的广告研究人员。

个人情绪。评估情绪的工具,会增加使用者对专业决定、情况,以及与情绪相关的行动认知。例如MoodKit,它可以协助你在一段时间内追踪情绪,接着,它会从临床实务见解和研究资料中,取得关于你如何能改进工作绩效和满意度的建议,并提出来。

如何掌握商业数据分析的能力?

自动化分析是一个全新的世界,我们会长期持续地评价他们可能带来的后果。但是,越早认定它们是一类有效且重要的分析方法,就可以越快开始处理它们带来的后果。

业界动态

人人都能成为优秀的SaaS产品经理!

2021-4-7 12:37:34

业界动态

SaaS入职之路(一):正确认识 Onboarding

2021-4-7 12:59:59

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索