互联网搜索业务的发展历程

搜索,是我们上网冲浪时绕不开但又经常不自觉忽视的一个功能。它既是产品中必不可少的功能模块,同时还是一些单体超级产品的核心要素。当年百度靠着“一招先”的搜索功能,跃居市值最高的中国互联网企业。关于互联网搜索业务,可讨论的点非常之多,个中的奥秘到底是什么?

互联网搜索业务的发展历程

互联网上最顶级的生态位置,只有三个——人,信息与交易。每个人都是孤独的载体,只有形成连接之后,才能排遣寂寞,组织协同。

互联网搜索业务的发展历程

回溯人类居住在山顶洞的时候,就对信息有着极高的追求和要求。比如通过信息趋利避害,当群体中的个体发现有老虎来了,通知族人四散奔跑,或是看到了一片水草丰美的草原,用信息将大家汇集于此,得以延续种族的生命,获取更多遗传优势。在现代都市,信息是每个人都渴望拥有的谈资,只因害怕谈吐无聊而被同类冷待。

交易的关键在于社会的大分工。某种意义上讲,我们每个人离开了社会,离开社会大分工之后,都很难存活超过七十二小时。因为脱离这一切,个体便丧失了丰富的生存资料。而最大范围组织完整系统性的交易,促成人与人、人与物、物与物之间的交换,就会形成巨大的企业生存空间和巨大的市场效应。

搜索的重要性

并不是BAT这三家企业的规模形成了三强格局,而是人、信息、交易这三个顶级生态位一定会有相应的企业来占据制高点。在“信息”这一项上,搜索尤其重要,这个功能改变了人和信息之间的关联方式。

人和信息的关联方式经历了几个不同的阶段。最初人和信息之间是一种偶然关联。用语言去沟通,用文字进行记载,在无数偶然的方式中形成最早的信息沟通。之后进入了信息的大量创造与收集整理的时期,随着造纸术、印刷术的普及,在古代产生了大量信息的记录、汇总、聚合。和时代背景的加持也有关系,国力全盛时期的明朝,才有人力、物力、财力去编撰《永乐大典》。同样的道理,在欧洲,只有国力空前繁荣的阶段,才能形成亚历山大图书馆这样的人类奇观。

超大的知识库搭建完毕之后,新的问题应运而生——怎么在如恒河沙数的知识中寻找我们真正需要的信息与内容,所以产生了图书馆的图书编目与检索。互联网时代,搜索成为了在海量的网页中,更加实时、更加有覆盖性、更加精准地发现内容的方式。不只拘泥于“图书馆”内部的信息,而是在全互联网的内容中,通过爬虫抓取、索引、检索、排序等操作,将最优质的结果呈现在人们面前。

搜索产品的发展

搜索产品最早的阶段,是以百度、早期的Google 、雅虎为主体,以文字索引的“以文找文”为搜索方式,在所有的载体形式中相对简单。渐渐地,英文搜索和中文搜索产生了巨大差别。英文搜索有一个先天相对便捷的方式,不再需要分词处理,每一个词都用空格做自然分割。而到了中文,幸好我们现在已经有了标点符号,有了“句逗”。即便如此,每个字的相互连接也会造成非常大的问题。比如“老干妈辣酱”,应该把它分词成“老干妈 辣酱”,还是“老 干妈辣酱”,还是“老干妈 辣 酱”?会有完全不同的识别方式(我在大学毕业的时候,所做的毕业设计便是用隐马尔可夫算法进行后续中文文本的分词排序,是一个令人头疼的项目)。当攻克这些难题之后,中文搜索才呈现出井喷式的发展。

百度为何异军突起?

在中文搜索引擎蓬勃发展期间,百度、搜狐、360等平台各自为营,而百度之所以异军突起,核心是做对了这么几件事情。

首先,相对于同期的Google,百度不拘泥于机器算法,而是加入了大量人工排序的方式。一个产品到底是唯技术论还是唯体验论?固然有各自的产品哲学,但不得不说,重心放在用户体验上的产品,更易赢得用户的心。彼时中文网页库内容量并不足够,所以百度相应推出了包括百度百科、百度知道、百度贴吧等在内的私域流量内容型产品,极大丰富了自身内容库,并且对于搜索算法的训练也有很大的帮助。

第二,百度在丰富内容库的过程中,通过百度网络和个人站长形成的生态关系,让产品自身脱颖而出。天下熙熙皆为利来,天下攘攘皆为利往。个人站长之所以愿意长期生产内容,离不开相应的利益结构,这就说到了百度的核心业务——SEO。百度用“百度联盟”的广告,实实在在地给这些站长导流。这时候,谁的体验更好,谁就能通过百度联盟获得更多的利润分成。在这样一个闭环的增强回路中,百度便能够结合中、小站长,形成良好的生态关系。同时,百度用户也得到了更好的搜索体验,三者构成了一个很难被摧毁的闭环。这也就是百度当年能够战胜搜狐,360的一种方式。当然,百度在上述的过程中,也做了一些前端流量卡位动作。比如,用高价收购hao123(也成为了个人站长的创富神话)、做见仁见智的百度tabBar 和“全家桶”等等,为百度提供了巨大的流量端口。

搜索的未来发展趋势

我们的媒体形态,大体是沿着从文字到图片,到音频,再到视频的发展而变化。百度在文字搜索业务后,也去做了图片搜索——包括以图搜图。时至今日,搜索的核心已经由图片开始向视频转变,各家互联网公司大多也有布局。

但是,视频搜索困难重重。掣肘在于机器如何去识别视频的内容语义、机器如何在以小时计算的内容中,对于每一帧画面进行索引和检索。

百度早期通过要求各视频网站向它提供XLXML的方式,来描述视频文件里包含什么样的内容。但这种方式,给黑帽SEO提供了便利空间,标题党甚至可以不写标题,只需要通过XML里的description字段,就可以获得大量的流量支持。所以,百度前期的这种做法,事实上降低了用户体验。随着百度技术的发展,虽然在图像识别和视频编目上有了长足的进展,但是这些和文字类内容搜索的能力相比,依然差距巨大。

搜索的媒体类型,除了朝着视频化不断演进之外,更重要的是在APP时代和移动时代,搜索方式陆续向各种“私域”进行圈地自“盟”式的发展。Web时代,所有网页的核心点都是开放的。而到了APP时代,每个产品都拥有内生的一套生存系统。在这套系统内,很多产品,尤其是非广泛内容应用的产品,不再希望其它搜索引擎踏足自己的边界。这个逻辑,在Web时代就曾经上演过。

淘宝在若干年前,通过Rubat协议,禁止百度的爬虫爬取自己的数据。这个做法曾引发争议。因为当时淘宝的流量有很高比例来自百度,它此番的封锁,无疑是壮士断腕。但后来的事实证明,这个决定异乎寻常的准确。如果淘宝一直给百度提供搜索结果,那后者就会成为用户搜索商品的一个核心入口,而淘宝则沦为空架子般的交易工具。长此以往,百度在获得了用户的习惯后,只需要去做一套类似淘宝的商城,就可以切割掉淘宝交易核心的生态位置,而建立出自身的生态系统。而淘宝对百度的“封锁”,让用户第一次直接在淘宝进行商品搜索,实际上就已经开始分割百度的搜索业务了。

另外,互联网2.0时代后,无数产品的社交化和动态效应变得更高。这时候,很多的动态已经不再进入百度搜索库:微信的大量公众号创作,百度完全无法搜索;小红书的内容,很多是非结构化的;B站也是一款对于百度非常“友好”的产品……越来越多的APP占山为王,越来越多的流量也就被分割。使得“搜索”这盘大棋,变成了若干私域流量的版图。

最后,不妨想象一下搜索的未来。第一,内容会通过更加复杂的融媒体索引结构的技术,进入到搜索的索引单元。第二,越来越多的分割,让每个APP拥有单独的场景平台,产生在专属场景下搜索自身内容的方式。第三,我相信通过大数据和Al,会让搜索和推荐引擎深度结合,从而形成更智能、用户体验更好的搜索引擎。所以,融媒体化、垂直化和智能化,是搜索引擎产品未来发展的趋势。

业界动态

凯叔讲故事:儿童IP打造为什么这么难?

2021-3-27 14:09:31

业界动态

薇诺娜和完美日记,本质上是两门生意

2021-3-27 14:20:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索