快手是怎么做数据存储成本管理的?

快手这次“数据管治技术交流会”分享内容真的给力!前两天分享了模型规范,今天分享第二个议题:成本管理-快手大数据存储管理的落地实践。希望对你有帮助。

快手是怎么做数据存储成本管理的?

快手大数据存储成本管理架构

快手是怎么做数据存储成本管理的?

既然是成本管理,那得按照财务的成本逻辑走。但是这个图给财务,我估计是看的迷迷糊糊的,因为财务压根就没有架构概念。不过基础逻辑是一致的,得进行成本分析,之后再去进行成本控制。

快手大数据存储策略

快手是怎么做数据存储成本管理的?

快手的存储量是真的实在太恐怖了。好几EB的存量存储,数十万张Hive表,增量存储按PB算,速度还不低,月增8%。

数据治理、成本管理这些吃力不讨好的事情,一般都是疼了哭了,哭了累了,矛盾心里总是强求~~~然后才开始痛定思痛,好好做工作的。按快手这个存储量,即便是再便宜的存储,费用那也是个天文数字啊!

快手是怎么做数据存储成本管理的?

造成这些的原因,一方面是数据量太大了,二来之前也没想过控制成本,再者也不知道怎么控制,其实最关键的还是不能耽误业务增长的路啊。

快手是怎么做数据存储成本管理的?

其实在其他大厂,数据配额也都是数据基础团队进行资源管控的主要手段。但是快手这边以“谁生产谁负责”的原则,把每张表都对应到人头上,然后进行存储成本的拆分和盘点。这样最典型的好处就是每个人都会有一个成本意识。

快手是怎么做数据存储成本管理的?

成本计算也很简单粗暴,数据存储量*存储单价=存储成本。当然这两个数据也没法做到非常精确,只能是一个大致准确的估算。

快手是怎么做数据存储成本管理的?

另外,快手还引入了数据生命周期的概念。以往的数据都是有进无出,统统保留。不仅持续产生费用,还对管理和维护带来非常大的挑战。

快手是怎么做数据存储成本管理的?
快手是怎么做数据存储成本管理的?
快手是怎么做数据存储成本管理的?

根据数据生命周期管理策略,临时表、价值不大的数据,定期直接删掉。针对数据相似度高的且需要全量保留的数据,采用数据压缩、建历史拉链表等方式进行极限存储。对于需要永久保存的数据,区分冷热轻重,冷数据扔到成本比较低的存储里,热数据、重要数据,那就给最优质的资源好好保留。

在这里,有个同学提了个问题,为什么ODS需要长期保留,但DWD层的数据为短期保留就行?

ODS层的数据都是最原始的数据,部分数据生产库都有可能没有,另外很多机器学习都需要最原始的数据,所以ODS层是需要保留的。DWD的数据随着时间逐渐变冷,大概率不会被使用了,可以直接删掉。如果需要,可以用ODS临时跑出来即可。

这个策略仁者见仁,智者见智,各个公司可以根据自身情况各自设置即可。

快手是怎么做数据存储成本管理的?

另外,快手还通过指标进行资产登记的设置。对于不太重要的指标数据,也基本上都是周期性删除,以保证资源的充分利用。

快手大数据存储治理实践

快手是怎么做数据存储成本管理的?

快手数据成本治理落地还是很有章法的。一方面进行专项数据治理,另一方面,发起全民进行自驱式的数据管理。

快手是怎么做数据存储成本管理的?

专项数据治理就是按照项目管理的逻辑,计划、执行、检查、复盘。按照上面的数据生命周期管理策略,进行各种表的清理。

快手是怎么做数据存储成本管理的?

专项数据治理则是发动每个人,朝着治理目标进发,减少各种伪数据需求。

快手是怎么做数据存储成本管理的?

因为之前已经把人和表对应起来了,所以就能做一个榜单排名,进行通晒。果然,效果最快的还是KPI。

快手是怎么做数据存储成本管理的?

最后的结果看上去非常棒,但是这种给别人加各种限制的事情肯定是会让人非常不舒服的。所以快手也设定了一个“数据治理运营”的角色,运营的对象是所有数据工作者,提升组织能力,增加组织势能,从而让全体提升成本意识,避免浪费,最后加上技术和产品工具,帮助成本管控。

虽然隐去了很多细节,比如除了排名通晒这种半强制的手段之外,还有哪些具体的手段来促使大家积极踊跃的参与成本控制的方法。但是这些经验已经足够给后来者提供一些参考了。

业界动态

用户增长体系(一):在日常运营中如何用好A/B测试?

2020-12-23 12:59:01

业界动态

如何搭建用户成长体系(一):会员等级体系

2020-12-23 13:57:44

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索