产品经理的数据基本功:数据清洗

产品经理和数据产品经理的区别是数据的聚焦点、和数据是否会以需求的方式进入产品研发。

产品经理的数据基本功:数据清洗

建立数据工作,从2017年互联网公司逐渐接入标准化数据产品,已经成习惯了。各大互联网公司将用户行为与背后的数据指标建立联系

产品经理的数据基本功:数据清洗

如上是京东在获客成本的各个指标拆解。

由于最近带团队新项目建设数据分析和指标工作。特此分享产品经理的数据清洗维度技巧

但为什么我们要做数据清洗?

目的很简单,过多冗余的数据影响数据分析,不能给运营方、产品方带来直接的数据效益

通过数据清洗,我们才可以建立更多的数据分析模型。

汇总来为2个点

第一是为了满足数据的质量品质,第二是让数据更适合做挖掘分析

数据清洗,为什么能解决数据质量问题

这个问题的答案好像每个人都知道。

但具体怎么细则解决从下面5个维度帮助解决数据质量

1.建立数据完整性

例如用户的熟悉中缺少性别、设备型号、年龄

建立方法:

缺啥补啥

比如通过推算基础信息补全,比如身份证可以推算出一个人的性别、年龄、籍贯,实在无法补上的,数据就删除掉。避免造成冗余

2.建立数据的唯一性

比如同样的新用户注册从APP、web、微信公众号H5,确定用户是一个人还是3个端各自一个。

建立方法:

去掉重复的,只保留一条

通过Excel或sql语句用代码去重,如果数据复杂则可以编写系列规则过滤掉重复用户。

比如app客户端用手机注册,关注过话题的女性新用户,和PC端用微信注册关注话题的女性用户,可以通过手机号进行去重

3.建立数据的权威性

比如新用户注册在app上是女性,在H5通过微信授权登录则注册为男性。以微信授权为准的性别作为新用户性别。

或者提示用户已经注册,性别是否要更改。

建立方法:

用最好的渠道,或权威人的指标。

看指标来源认可度最高、符合实际情况的指标

4.建立数据的合法性

较多的是数据常识性数据工作,比如成年人体重不可能只有3公斤,身高不可能超过3米等。

建立方法:

设置数据的逻辑规则提醒

在规则范围外,判断为无效

在规则范围外,则警告

比如输入密码长度,长度超过设置边界。

4.建立数据的一致性

这一点其实是比较难的,在产品迭代过程中,数据指标也会要求迭代维护。比如前期的首页点击率,可能会变为首页若干功能入口的点击率

但在数据指标层面都叫:首页点击

建立数据指标体系,如下通过不断维护和新建指标完成唯一解读

数据的需求来源部门整合,将多个数据需求进行汇总,满足多到点再点对点的数据流转。

数据清洗,为什么让数据适合做挖掘呢?

数据满足下面5个特点,不太适合做数据挖掘(分析)

1.部分数据维度太高

比如地域属性只统计国内各个省份、城市的,中国这个数据就维度太高了。

解决方案

将数据拆解为多个子指标,降低维度分析

2.部分数据维度太低

比如要统计各个省会城市用户,但是四五线城市用户数据就维度太低

数据指标组合,建立新的平均值、最大值、最小等高纬度全局指标

3.无关信息

比如要统计真实用户数,就不应该加入白名单、内部员工作为真实用户数

解决方法:

剔除会影响数据分析(挖掘)的无关数据字段

4.字段冗余

字段是其他字段计算出来的,那则造成多个相同逻辑字段

解决方法:

和无关信息一样,剔除影响数据分析的无关数据字段

5.多指标数值、单位不同

比如用户人均转化率和人均获客单价的成本数值是一个是百分比,一个是元

解决方法:

用同一单位,同时建立最小、最大数据指标值。

数据清洗,仍然人肉为主。花精力、和低成本近期利益收回

最后要说,做产品经理做数据并不是高大上的工作。尤其是互联网产品的数据,80%时间都在人肉数据。

枯燥繁琐无味,成了数据人员的代名词。耐得住寂寞,等着产品越来越好,最终为数据提供数据中台或MATLAB、PowerBI才是最佳的方案

产品经理的数据基本功:数据清洗

至于数据清洗具体的工作还可以拆分为纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺/空值、丢弃数据/变量等,就不在叙事了。

业界动态

浅谈内容型平台运营方法论2.0

2020-11-13 8:58:28

业界动态

社交产品增加内容模块,要注意避开哪些坑?

2020-11-13 9:08:28

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索