再议大数据与小数据的融合应用之路

近几年,国家对于个人信息保护方面的法规和政策频频出台,对大数据服务行业造成了一定的影响。一方面国家出手整肃行业秩序,规范了个人信息保护,另一方面,我们也可到那些不合规的大数据公司纷纷出事,特别是2019年可谓是大数据和P2P行业的灾难之年,很多之前的“明星公司”都触礁翻船了。

再议大数据与小数据的融合应用之路

大数据行业目前已进入调整期,有些嗅觉灵敏的大数据公司早在2017年就开始转向了大数据与小数据的融合应用之路,这其中最典型的代表就是百分点集团。2017年12月29日,中国领先的大数据与人工智能解决方案提供商百分点集团宣布,全资并购国内顶尖的在线调研公司极速洞察,并购之后,极速洞察将继续以独立品牌运营的方式为广大企业和消费者提供服务;同时,百分点将其在大数据与人工智能领域多年积累的技术注入极速洞察,用大数据+AI赋能在线调研与用户洞察。

纵观这几年大数据行业的风风雨雨,笔者认为:大数据公司固然有其大数据技术的优势,但小数据公司也并非一无是处。所以,笔者的观点是:大数据与小数据各有优劣,向全数据进化、融合应用、知行合一才是王道。

所以,今天要分享的话题是大数据与小数据的融合应用。先来看看大数据与小数据的区别,然后分析一下二者之间的关系,最后来谈谈二者怎么融合。

01、大数据与小数据的区别

先来界定一下什么是大数据、什么是小数据。笔者认为:大数据是指具有5V特征、以实时化为特征的、由结构化数据与非结构化数据组成的数据集合体。这里提到的5V就是IBM所说的Volume、Variety、Value、Velocity、Veracity。其中:Volume,是指数据的采集,计算,存储量都非常的庞大;Variety,是指种类和来源多样化。种类有:结构化、半结构化和非结构化数据等,常见的来源有:网络日志、音频、视频、图片等等;Value,是指数据价值密度相对较低,犹如浪里淘金,百炼成钢般才能获取到大量信息中的部分有价值的信;Velocity,是指数据增长速度快,处理速度也快,获取数据的速度也要快;Veracity,是指数据的准确性和可信赖度,即数据的质量。

那么,什么是小数据呢?笔者给出的定义是:面向特定用户群体、用传统数据采集方式获取的结构化数据。这里提到了面向特定用户群体,实际指的是传统的调研公司通过抽样的方式找到的一部分用户。传统的数据采集方式则是指电话调查、问卷调查、座谈会等方式,所以大数据与小数据最大的区别是:数据获取的方式不同。

关于大数据与小数据的各种区别,详见下表:

再议大数据与小数据的融合应用之路

02、大数据与小数据的关系

大数据与小数据相爱相杀这么多年,到底是怎样的关系呢?以下是笔者多年来观察和感悟,文字并没有很好的组织起来,先大致罗列一下:

  • 大数据是信仰,小数据是情怀
  • 大数据是诗和远方,小数据是眼前的苟且
  • 大数据讲故事、做创新,小数据说情怀、求稳
  • 大数据大张旗鼓,小数据小打小闹
  • 大数据可视化高调,小数据朴素低调
  • 大数据撑面子,小数据是里子
  • 大数据负责表象和结果,小数据追求原因和内里。用小数据加强大数据的可解释性
  • 小数据是种子/药引,大数据是催化剂
  • 大数据合规难,小数据合规易
  • 大数据难盈利,但容易拉到投资;小数据易盈利,但难以做大,难以融资
  • 大数据技术为小数据相关业务赋能,大数据让小数据变得更好、更赚钱
  • 大数据补全/升级小数据的维度和标签,大数据扩展了小数据的边界
  • 大数据干大事,小数据扣细节:大数据需要用小数据来拉通,小数据补充了大数据的细节,小数据为大数据和AI做数据标注
  • 大数据分析相关性表象,小数据分析因果关系
  • 小数据是探路先锋,是试验田;大数据是主力军,是突击队
  • 用大数据的技术可以降低小数据的获取成本
  • 大数据擅长侧面出击,小数据擅长正面强攻
  • 小数据短平快易见效,大数据工程浩大、期望值高
  • 大数据为小数据加速(走的更快),小数据为大数据降温(走的更稳)
  • 大数据与小数据不是敌对关系,是老配新,各有分工侧重

以上就是笔者对于大数据和小数据的关系的理解,比较琐碎,请各位细品吧。

03、大数据与小数据如何实现融合应用

大数据与小数据应该怎么融合?相信这个问题是大家最感兴趣的。

从资本运作层面上说,大数据公司通过收购、注资等方式可以间接的获得小数据公司的数据资源,实现大数据与小数据的融合;当然,小数据公司也可以通过购买大数据公司的数据的方式,增强自身的大数据能力。

从技术层面上说,大数据公司与小数据公司可以通过联邦学习、区块链技术等实现数据的联合运营,间接实现数据的可用不可见、数据可连接而不是占有。

以上这两个方面的融合说起来还是有点大,从操作层面上说,大数据与小数据的融合可以分为两条路径:从小变大和从大变小,具体分析如下:

路径1:从小变大,五个“加”

从小数据变为大数据,指的是扩大小数据的用户范围和数据采集能力,在数据维度、数据体量上向大数据方向演进。具体来说就是五个“加”:

  • 加算法:在小数据加入新的算法,通过算法的作用扩展小数据的边界。例如:通过Lookalike相似人群放大;采用ID拉通算法拼接出更多的数据;对小数据采用NLP、知识图谱技术等,获取以前小数据无法解析出来的数据
  • 加平台:即借助互联网的力量,增强小数据采集新数据的能力。比如,问卷星、问卷网等在线调研平台,实现了问卷调查的在线化,不但使得问卷调研可以随时随地,扩大了调查用户的范围,还可以获得用户在答问卷时的行为数据,这无疑为小数扩大了数据维度
  • 加终端:这个容易理解,通过智能终端可以获得更多的用户行为数据。数传感器、VR/AR设备、智能终端、答题器、智能手环等,都是采集行为数据的入口
  • 加应用:与WEB端的在线调研类似,当把问卷调研放到移动互联网上时,也可以补充用户的行为数据。比如:通过APP、小程序、答题游戏等,都可以丰富原有的小数据
  • 加AI:通过人工智能技术也可以为传统的小数据扩充数据获取能力。比如:借助机器人、人脸识别技术等创造新场景,可以采集更多的新数据。之前笔者曾提到过,现在很多购物中心已经出现了巡游售货机器人,它能在一定范围了自动巡游,吸引用户扫码购物,可以与用户交谈,用户扫码购物后它就能记载用户的身份特征、购物偏好等数据,所以这种机器人可以看作是一种新的数据采集设备

路径2:从大变小,四个“深入”

从大数据中找到适合小数据的场景,用大数据的方法帮助小数据锁定要聚焦的用户,再用小数据的研究方法深入探究大数据分析结果出现的原因。具体来说就是四个“深入”:

  • 深入特定人群:大数据侧重网上行为的采集,但是有些偏远地区的用户或者老年用户,是不具备上网条件的,他们是大数据无法触及的人群,这时候就可以借助小数据的力量,用传统线下的方式深入到这些特定的细分人群中,获得想要的数据
  • 深入特定场景:有些时候大数据无法获取某些线下场景的详细数据,这时候可以发挥小数据的作用。比如:要采集都市人睡眠状况的数据,涉及到人们的情绪、状态、心理等方面的数据,是大数据无能为力的,但是小数据就可以派上用场
  • 深入特定渠道:在某些特定渠道,大数据无法获取的数据只有通过小数据的方式才能获取。比如在新零售的场景下,线上各种触点可以获取用户的行为数据、交易数据等,但是在线下网点里人们是如何走动的,在哪些商品前停留的时间较长,用户在选购商品时发出了怎样的评论等等,现在国家不允许线下网点布放WIFI探针了,想要获取用户的线下数据很多时候不得不通过传统的人工观察的方式
  • 深入特定指标:有些非行为类的指标,大数据无法获得,需要小数据来补充。比如:在滴滴打车的场景下,司机能感受到乘客的友好度、情绪和状态,乘客也能感受到司机的服务态度等,虽然这些可以在每一个行程结束后互相点评,但是涉及到乘车过程中需要深入了解的细节数据、特定指标等,还是需要小数据来补充

总之,大数据并非万能,小数据也绝非一无是处。大数据与小数据需要抱团取暖、融合共生。数字经济时代的背景下,大数据与小数据应该相向而行、携手前进,一起走向全数据。

业界动态

清北的牌子,在线教育的野望

2020-12-9 9:48:20

业界动态

抖音直播:永远不要在平台薅羊毛

2020-12-9 9:56:32

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索