网页抓取数据百度百科( 技术经理桑文锋:用户行为数据的演变)
优采云 发布时间: 2021-12-12 23:18网页抓取数据百度百科(
技术经理桑文锋:用户行为数据的演变)
桑文峰,原技术经理。2007年加入百度,从零开始搭建百度用户行为大数据处理平台。2015年4月离职创立神测数据,为互联网企业提供大数据分析服务。目前拥有近200家客户,包括聚美优品、Domob、妙拍、融360等。
近日,桑文峰在小餐桌人工智能创业课上做了主题演讲,主要有以下几点:
1、百度数据从网页数据到用户行为数据的演变;
2、搜索引擎发展的3个阶段;
3、 多次尝试增加“百度知道”回答数量;
4、 数据平台的两个关键问题:元数据和数据源。
小餐桌已经在不影响初衷的情况下进行了整理。以下为分享记录:
2007年在“百度知道”做产品研发。在那之后的 7 年多时间里,我的工作围绕着用户行为数据展开。
去年4月,我从百度辞职后,创立了“神测数据”,为互联网公司解决用户行为分析问题。下面我的演讲内容与用户分析有关。
百度内部资料版块
百度内部有两条数据比较重要:网页数据和用户行为数据。就网页数据而言,2000年百度做搜索业务时,全国中文网页的数量并没有超过2亿,而从网页中抓取的整体数据只有几十GB。早期,Google 抓取了超过 2500 万个网页的内容。1997 年和 1998 年,仅从网页中抓取了 47GB 的数据。
谷歌和百度都在不断迭代。大约3年前,百度开始进入比较稳定的状态,常用网页库有数百PB的数据,网页库数量趋于稳定。
在用户行为数据方面,百度经历了几个阶段。2008年,百度知道、百度百科等新产品每天产生数十TB的新数据。去年离开百度的时候,我能拿到的采集用户行为数据每天都达到PB级。现在,百度每天产生的数据比去年高出50%以上,也就是几乎几个月就可以产生数百PB的数据,和之前整个网络图书馆的数据一样大。
只要我们创建一个内容,它就会被多次查看和多次访问。因此,用户行为数据比网页本身高一个数量级。
搜索引擎发展的三个阶段
一开始,搜索是上下文相关的。那个时候,网页和网上资料并不多,只要你搜索的关键词能与实际网页内容相符即可。
但是随着内容的增加,谁排第一,谁排在后面就成了问题。最初,所有搜索引擎都根据关键词匹配相关内容,但开始出现作弊现象。如果塞进垃圾邮件,用户将无法搜索有用的东西。
但当时有一些人非常聪明。一位是谷歌的拉里佩奇,一位是百度的李彦宏,一位是学术界的。
他们三人都意识到链接本身非常重要。网页被链接的次数决定了网页本身的权重。这就是谷歌和百度开始的。很多人认为百度抄袭了谷歌,但我研究了李彦宏和拉里佩奇的专利。Robin Li 的专利是在 1997 年提出的,Larry Page 的专利。1998年就提到过,李彦宏更早。
这就进入了搜索引擎的第二阶段,根据链接关系来决定谁排在第一位。
2005年左右,搜索引擎进入了基于用户行为的第三次浪潮。虽然从网页权重的角度来看,有些东西是排在第一位的,但是出现了一个新问题——旧网页肯定会比新网页权重高,但新网页可能更能满足用户的需求。群众的眼睛是挑剔的。用户搜索时,看到更好的结果就会点击。
然后,根据“用户点击”的数据,您可以决定排名第一。到目前为止,用户行为已经占据了非常大的比例。有业内专家表示,用户行为的权重已经超过50%。
7年以上百度经验
接下来重点分享一下我在百度做用户行为数据7年多的经验。
在百度了解了一年的研发之后,我对接下来要做什么感到困惑。《百度知道》于2005年上线,从2008年到现在已经三年了,产品形态是一问一答。产品本身非常成熟,数据非常稳定。每天有超过90,000个问题和250,000个答案。
我认为要改造这个产品,我们需要研究用户,针对不同的用户采取不同的策略,甚至给他们展示不同的风格和界面,以提高百度知道的产品的粘性和价值。
2008年,为了增加百度知道的答案量,我们做了两个功能。
第一个特征是基于核心用户。我们选择了 350,000 名在过去一个月内回答了超过 6 个问题的核心用户。经过3个多月的时间,我们根据他们过去回答的问题提取了17万多个感兴趣的单词。新版本上线后,我们发现回答的用户数。没有发生任何变化。
我们分析了当时的原因,发现在进行个性化推荐后,用户从之前的分类页面简单地从回答问题变成了个人中心,但平均回答6个问题的数量没有变化。
后来想了想改进产品只有两个办法:要么吸引更多的用户,要么从一个用户身上榨出更多的东西。现在单个用户几乎被挤出来了,我们会招募新用户,扩大用户规模,从做核心用户推荐到推荐给所有用户。只要用户访问百度知道,我们就会在整个百度范围内采集他的数据。
当时百度内部有个项目叫“优采云”,源于2008年百度做个性化广告的想法,即用户搜索时出现的广告不仅仅基于关键词,也是基于用户的行为体验,虽然当时做这个有点早,但确实帮我们打下了基础。当时我们已经采集了贴吧、知乎或网页上的各种用户行为数据,并在这个数据集上进行训练。
当用户在浏览器中访问时,就会植入 cookie。基于此,我们记录了用户的所有浏览信息。
基于这些信息,我们为每个用户提取了 5 个最重要的感兴趣的词。当用户访问百度知道详情页面时,我们会根据他们感兴趣的词进行实时搜索,并在页面右侧放置七八个未解决的问题。.
这样做的效果非常好。新版本上线后,百度知道的答案增加了7.5%,我也因此获得了2008年的“百度最佳人物”奖。
此后,我对百度知道做了一些改进,包括让推荐问题更加多样化。比如用户半年前的兴趣通过权重不断迭代衰减,对最近的回答进行权重。调整。但我发现这并不容易改进。然后我开始做用户行为分析。
统一数据要求
百度文化有一个特点,就是用数据说话,无论是做产品调研还是效果评估,都要用统计数据。任何产品访问都会在服务器端留下日志,可以根据日志进行统计分析。
但是百度的产品很多,需要对各种数据进行统计分析。如何让数据统计更好?
我当时遇到了几个问题。一是需求周期长。从提出统计需求到处理需求,我们需要排队,因为只有两三个工程师在处理这件事。结果将需要几天时间才能发送给您。
此外,运维成本高。每次需求统计都是这样处理的,团队很快就维护了差不多六七百个统计程序,经常出现问题。比如贴吧爆炸了,程序就会异常。
还有一点就是运行速度慢。当时,它是一台独立的机器。300G文件运行没有问题,但800G文件跑不出来。
第四个问题是员工的成长空间有限。要求员工编写统计脚本。他们写了3个月。他们不想在 6 个月后这样做。他们在1年后立即逃跑。这也造成了团队管理上的问题。
当时在百度内部,有些任务是基于Hadoop运行的,但不知道能解决到什么程度。我们设置的架构是先提供一个接口,期望各业务线的产品经理和工程师自己做统计,而不是每次都把任务交给我们的团队。将界面设计得更白,应用性能更高。其实只是大家通过接口分配任务,使用调度器和代码*敏*感*词*调度生成Hadoop的任务。
将近一年半的时间,整个公司都统一在了这个平台上。这也是我在百度八年做的最充实的事情。
后来我们和其他团队合作,花了两个半月的时间做了一个框架,并在2011年申请了专利,提高了开发效率。以前做一个统计需要几天时间,但现在只需要几分钟或更短的时间。时间可以做到。很快,所有人的注意力都集中在了统计平台上,新的问题出现了——资源太膨胀了。当时我们团队只有五六个人。我认为如果这种情况继续下去,数据规模将太大而无法控制。
当时我的想法是受云计算的影响,一直想打造一个更好的计算引擎,但后来觉得这个想法是错误的,还是应该专注于数据。2011年上半年,我和另一位项目经理商量,将两个团队合并,组成一个数据团队。后来,我们的高级主管从谷歌招聘了一个人才。这个人在雅虎工作了7年,然后在谷歌工作了5年。他一直在做数据仓库工作。他带领我们按照构建整个用户行为的思路构建数据。库。
百度拥有 70 或 80 条核心业务线。我们将这些业务线产生的数据进行结构化,并使用谷歌的Protocol Buffer将格式转换成一张表。在此基础上,我们再构建上层主题数据。总之,让百度的各种用户行为数据都统一到一张表中。在过去一年多的时间里,我和很多大的IT公司沟通过,他们在这方面做了非常基础的数据,没有把基础数据打通,在底层做的很好。
从2008年到2012年,我开始做数据,在过去的三四年里,我慢慢思考。归根结底,数据是一个“流”。我们将数据从源头转移到平台。在此基础上,进行数据存储、存储构建和管理。然后进行产品分析和各种应用。
经验
数据平台有两个关键环节,一是元数据,二是数据源。如果一家公司可以同时管理元数据和数据源,整个平台也不会差。
在我们常用的业务数据库中,实际存储的数据和元信息是一起管理的,所以你感觉不到元数据本身的重要性,但是在大数据处理的情况下,需要将元数据分开数据。
要想做好一个数据平台,数据源很重要。以百度为例。网络搜索是其核心业务线。其他业务线为附属业务线。这些业务线都将使用网络搜索。如果我想改变搜索,依赖它的下游业务程序可能都挂了,所以升级格式之前必须提前告诉他们,否则可能会出现问题。但是如果我们把源码本身结构化,下游就不需要跟着源码走,数据分析的效率会更高。
总结一下,我在百度做用户行为数据的经验:
首先,数据源很重要。这也是我们创业思维的核心点。在数据采集中,应该使用“big”、“full”、“fine”和“time”。“大”是指宏观尺寸而不是物理尺寸。例如,苹果在全国各个地级市的每日价格数据只有2MB,但基于它的苹果智能调度系统是一个大数据应用。“全”强调多数据源;“细”强调数据维度;“时间”强调及时性。
第二点是用户行为事件模型非常有效。在对用户行为进行标准化和结构化之后,许多数据分析变得更加容易。事件模型是指事件模型,前者称为流量模型。
我把2000年后的互联网分为3个阶段:
2000年到2006年是流量时代,谁流量大谁就欺负谁;
从2006年到2011年,我们进入了第二阶段。我们称之为用户时代。谁拥有更多的用户将是最好的。比如开心网、人人网、Facebook,不再考虑整体流量,而是关心活跃用户数和注册用户数;
2011年至今属于订单时代。无论是全民团购,还是O2O、在线教育、互联网金融,无非是将线下交易转移到线上,这本身就与订单有关。