埋点及数据采集系统简介

埋点,是互联网获取数据的基础;数据采集系统,则是提升埋点效率、保障埋点规范与数据质量的利器。埋点,在互联网里,可以说是再常见不过的技术了。大到BAT,小到创业公司,如果没有埋点,那么基本丧失数据来源的大壁江山。这篇文章,简单介绍一下埋点的概述及数据采集系统。

埋点及数据采集系统简介

01、什么是埋点

埋点,指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。比如用户点击了某个按钮、浏览了某个页面等。

刚入行的小朋友可能会问:为啥要埋点呢?答:是为了获取数据,即获取某个用户在什么时间、什么位置、进行了什么操作。你仔细想想,如果不埋点的话,用户在前端页面点击了某个按钮,你怎么会知道用户点击了呢?

稍微有点技术背景的小朋友又会问:我点击某个按钮,网站不就会收到一次请求,我从后台不就知道了吗,那我干嘛要埋点呢?答:因为不是所有的操作后台都能收到请求的,很多网站页面为了用户使用的便捷性,都是一次请求加载了很多内容,其中的tab切换等根本就没有请求服务器,因此会漏掉数据。更别提APP端了,很多都是原生页面,页面切来切去的,根本就没有请求网络。

所以,是不是如果和服务器有请求的数据,就不用埋点了?哈哈,这里就引出了埋点的分类:前端埋点和后端埋点。

所谓前端埋点,就是上文提到的,在网站前端或者APP上埋入一段JS代码或者SDK,每次用户触发特定的行为,就会收集这么一条日志,定期发送给服务器,这就完成了前端用户行为日志的采集。为啥叫“埋点”?就是因为是把一段段的采集代码埋入了各个目标位置,因此形象化地叫埋点。前端埋点工作量大,比如页面上有20个按钮,正常情况下,每个按钮都需要埋一下代码,有些网站有几千个页面,埋码能累死。

所谓后端埋点,其实就是天然地和服务器发生了请求、交互的数据类型,这种就不需要通过前端埋点,只要在服务端把用户每次的请求记录下来,就行了。例如用户在电商网站上发生的搜索行为,每次输入关键词并且搜索,一定是会请求后端的(不然没法有搜索结果),那这时只要从服务端把每次请求的内容、时间、人物等信息记录下来即可。工作量比前端埋码小很多。

当然,用朋友会问,那比如我在搜索页面输入了关键词但是没搜索,如果是后端埋点岂不是记录不下来了?你说的对,不过这种数据一般较少,没必要为了这点数据去做前端埋点,毕竟后端埋点的实施比前端还是容易的多。当然,具体情况具体分析,如果是真的精细化运营,用户哪怕一丁点的行为也要统计,但需要衡量性价比。

因为本文主要想讲数据采集系统,针对如何进行埋点设计、埋点的实施,以及各类埋点事件模型的介绍,涉及的内容还是很多的,这里就先不展开了,后面找时间再深入分享。

02、什么是数据采集系统

正常情况下,埋点的设计及实施都是人工完成的。数据PM会梳理埋点需求,设计埋点规则,研发负责埋点的落地。

但上文也简单提到过,埋点的工作量巨大,且很多重复的内容,这无疑不是高效的方式。而且更关键的一点,埋完的点、采集的数据还要进行一系列的数据清洗、数据加工、数据开发,才能产出业务人员想看的报表或者报告,这是很长的数据链。

数据采集系统,这时就应运而生了。

其实目前市面上的数据采集系统还是很多的,很多网站推出免费的数据采集服务。比如谷歌的Google Analysis,百度统计、友盟等等。本质上都是数据采集系统。以下是百度统计的截图:

埋点及数据采集系统简介

GA是web端的采集做的很棒,友盟是专注于APP端。

这些网站的核心原理,都是提供一段JS(web端)或者SDK(APP端),用户将这段代码埋入自己网站,然后登陆GA或者百度统计,就能看到数据的各种表现了。

除非是有一些比较个性化的埋点需求,比如一些特殊的按钮、特殊的操作也想采集下来,不然单纯的在网站上进行全埋点即可。

你会发现,这种平台大大节省了埋点的工作量,同时节省了大量数据处理、加工的工作,而且有现成的各种可视化的分析模块供分析,十分便捷。下图:

埋点及数据采集系统简介

有得必有失。失去了啥?数据的安全性得不到保障。为啥呢?因为你埋入第三方网站的JS和SDK本质上都是把用户在前端的行为进行采集后,发送到了第三方的服务器,因此你网站上的用户的情况,本质上第三方网站是一清二楚的。

而且,第三方平台采集的都是流量相关的内容,成交、搜索等后端相关的内容除非公司自己传给第三方网站,不然第三方网站是无法分析这部分内容的,对于分析的全面性来讲,是缺失的。然而,免费的使用,不香吗?这事情看如何衡量了。

但是,对于大厂,数据采集系统一般走向了自研的道路。

03、数据采集系统都包括哪些模块

所以,通常一个数据采集系统都包括了哪些模块呢?

(1)数据采集模块

这部分主要完成数据采集的各种配置,主要包括:站点接入、埋点申请、埋点方案等模块

(2)数据管理模块

这部分主要对采集的数据进行宏观管理。包括站点的管理、事件的管理等。

(3)统计分析模块

这部分主要是进行各种维度的流量数据分析。很多内容其实和BI分析系统有重叠,比如流量路径分析、留存分析、归因分析等等。还有很多基础的监控报表。

(4)采集监控模块

这部分主要是对采集的工程进行监控。

今天先到这里,关于数据采集系统、埋点的相关内容,后续慢慢展开。

业界动态

利益驱动模型要怎么设计?

2020-12-14 22:30:59

业界动态

如何让设计稿更规范化?

2020-12-14 23:34:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索