数据分析底层的基础统计学知识

回顾历史,为什么有些人数理化学得好,一方面原因是基础概念掌握的好,概念懂了,底层理解了,一般的题目也可以逐步分解。掌握好底层知识,或许是成为一个中上成绩的较好方法。套用互联网圈内人,高大上的词语,叫做第一性原理,追溯本源。所以从最基础的数据统计知识说起。

数据分析底层的基础统计学知识

数据分析工作中常用的汇总统计量

1、平均值(加权平均):一个变量的平均值在分析中非常常用(尤其用在假设检验中),用在客单价、付费ARPU等等中,不过常常有坑,最经典的就是我们的平均工资,谁都知道基尼系数这么高,分布十分不均匀。所以一般都需要搭配其他统计量一起来看

2、中位数:变量数据中间位置的变量。相对中立的一个数据。偏态分布常用的一个数据,但是一般不单独用,而是和四分位数值一起使用。

3、四分位:Q1 25%、Q2 50%、Q3 75%,这个是比较经典的百分位数,箱线图上则主要是这4分位数,也常用在异常值检测上,如果超过Q1-1.5 IQR或者Q3+1.5IQR则认为是异常值。相信大家今年在股票(基金)市场经常听到PE的百分位数的概念。如果超过历史百分位数太多,则有均值回归的趋势(虽然不是绝对的,还是要看内在发展速度)

4、方差/标准差:用于描述数据的变异程度,衡量距离平均值的平均距离。一般用标准差系数(标准差/平均值)来衡量不同量纲的波动程度。非常常用的统计学概念,数据分析经常用于假设检验中。股票市场用方差来表示股票的波动程度,如果能收益高,波动小,那么心情会比较愉悦,否则心态不好,容易割肉。

5、Z-分数:常用于数据的归一化、假设检验中。用于衡量一个数值距离平均值是多少个标准差。这个分数和分布形态无关,不管什么分布,都有自己的Z-分数,而不仅仅说正太分布才特有。所有分布的94%数据都落在z=3个标准差以内,所以也可以用于异常值检测中。

6、协方差:主要用于检测两个变量之间的线性关系,是否有关系。如果协方差=0,则无关,如果>0,则正相关,如果数据分析指标体系构建

如果说运营的抓手很多在push,那数据分析的抓手则很多在于指标的构建和拆解上。不仅互联网的构建的关键在于如何理解指标,以及它背后代表的业务含义是什么。数据分析,财务分析也是各种财务指标的构建和分析。

常用的互联网的指标如:市场份额、DAU、MAU、DAU/MAU、留存率、付费转化率、客单价、渗透率、礼券领取使用率、投入产出比ROI等。

AB测试

过去在没有那么重视数据的时候,一般新功能是老板拍板、产品经理拍板,然后上线全量发布,现在一般大厂都是AB测试后上线。AB测试一般是数据分析师需要负责上线评估。评估的内容也就是我们上面说的那些指标,对齐核心业务指标,然后进行AB(或者AAB)测试,使用假设检验,验证改版/算法等的提升效果。使用假设检验,可以检验别人说的进步了是否是真的。比如提升了1%就一定是提升了吗?也许本身波动都有5%。

衡量效果里面一个重要的统计学知识便是假设检验。

假设检验

互联网中一般是两独立样本假设检验,首先对总体参数做一个常识性的假设,该假设记作H0,称之为原假设(用在互联网上则是假设我们的新版本/新算法(实验组)没有改进,和原来的版本/算法,(控制组)效果一样)。

另一个是备择假设,称之为H1(用在互联网上则是假设我们的新版本/新算法有改进,如果是双侧,则可能提升,也可能下降。如果是单侧检验,则是提升或下降)。

第一类错误:

1、原假设正确,我们却拒绝了。误以为实验组是有改进的,事实上实验组相对控制组并没有什么不同。所以我们一般会有一个显著性校验,用来说明我们犯错的可能性是多少,也就是第一类错误,α的概率。一般都是选择95%(如果犯错的成本非常高,那可能得提升到99%)。意思是,我们有5%的可能性会犯错,错误的认为实验组有效果

第二类错误:

1、原假设错误,我们却接受了。误以为实验组没有效果,实际上是有效果的。也就是β错误。一般我们用80%(1-β)来代表功效。这种产品经理/运营当然不希望发生,所以希望我们能够检测出来,尽量少犯错。

样本量

如果减少第一类、第二类错误,需要我们控制样本量。所以牵涉到样本量的计算。样本量的计算公式比较复杂,但是一个通俗的理解是:如果实验组大大提升了效果,那么我们需要的样本就越少,如果样本波动小,那么需要的样本量也就越少。所以样本量和实验组与控制组之间的差额(也就是预期提升)、标准差(波动)相关。

显著性校验

我们一般用p-value来判断是否显著,p-value用来度量样本所能提供的证据对原假设的支持程度。p越小,越能拒绝原假设,说明我们的实验组有效果。

p的计算步骤:

计算两个样本的标准误差(使用到中心极限定理,指标的均值服从正太分布;均值和率值的计算方式稍有不同)

计算z值:(两样本均值差 – D0)/ 标准误差 注:D0是原假设中的两均值之差

根据z值,查表得到p-value,如果是双侧,需要乘以2

用p-value和显著性水平对比,看是否显著

业界动态

剖解VIP陪练五年:高筑墙,广积粮,缓称王

2021-4-29 13:21:01

业界动态

运营避坑指南:如何拒绝客服式低薪打杂(下)

2021-4-29 13:58:31

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索