李彦宏在百度AI开发者大会上泼给AI的最后愣了

优采云发布时间: 2021-08-24 06:25

　　2019 年 7 月 3 日，李彦宏在百度 AI 开发者大会上演示 AI 自动泊车时，一名黑衣男子突然冲上讲台，从容不迫地倒了一整瓶矿泉水。到了李彦宏的头上。这次洗礼后，李彦宏先是很乖的低头接受，最后愣了几秒才躲开，丢出一句英文“你怎么了？” 』让人明白这不是会议的安排。

　　事发后，百度公关在微博上回应称“有人给AI泼了一盆冷水”，但这不影响百度继续前进的决心。

　　这冷水是泼AI还是泼百度？我们知道，自从谷歌退出后，百度原本占据了中国互联网最大搜索引擎的位置，但因竞价排名引起的血友病酒吧被卖掉、莆田医院、魏则西事件等，让人信服百度。降到冰点。有评论说百度应该被钉在历史的耻辱柱上。

　　在这起泼水事件中，在谷歌图片上搜索“李彦宏泼水”，结果正常。在百度图片搜索中，没有水花四溅，相关的搜索是“李彦宏好帅”。也是搜索引擎，谷歌是怎么处理排名的？

　　二十年前，有两名学生在斯坦福大学攻读博*敏*感*词*。他们需要经常上网搜索研究，但他们觉得现有的信息检索方法太糟糕了，所以他们想改进它。研究了这么久，两人觉得学术论文的评价体系还不错。评价一篇论文的质量，就是看有多少其他学术论文引用了它。一个引文可以看作是一个超链接，他们两人设计了一个算法来统计超链接被点击的次数。最后这个算法就变成了PageRank，Google的排序算法，这两个人就是Larry Page和Sergey Brin。

　　当您在 Google 或任何搜索引擎上搜索时，您输入关键字，例如今天的天气，搜索结果将返回当地天气预报，您无需打开链接即可查看。当您点击搜索时，Google 究竟做了什么？

　　搜索引擎通常具有三个基本功能：

　　Crawl：利用爬虫不断进入互联网上的各种连接，获取更新的内容。内容可以是网页、图片、视频、PDF等。谷歌机器人（Googlebot）会从一些网页开始。这些网页上有一些新网页，Google bot 会不断搜索新网址。索引：组织和存储爬取的信息。 Google 将好的和有价值的信息存储在名为 Caffeine 的数据库中。网页被编入索引后，它可能会出现在相关搜索结果中。排序：将数据库中的信息按照相关性从高到低排序。

　　什么是相关性，Google 如何确定相关性？

　　为了确定相关性，Google 使用了一种排序算法，这是一种以有意义的方式获取和排列信息的方法。从拉里佩奇开始，排序算法更新了很多次，谷歌几乎每天都在更新算法。尽管谷歌从未透露过算法的细节，但谷歌已经公布了谷歌的质量指南和搜索质量评估指南。这些指南准确地告诉我们 Google 想要什么。

　　Google 想要什么？作为搜索引擎，Google 只想做一件事：为用户提供最有用的问题答案。

　　有些人可能认为这很容易，只要您提供收录搜索关键字的网页即可。这当然是一种方法，但想象一下如果有人搜索“笑话”，结果是这样的网页：

　　欢迎来到『十万个好笑的笑话』！我们有世界上最好笑的笑话，哈哈哈真是笑死了。。。

笑话笑话笑话笑话笑话笑话。。。。

　　这个页面有很多“笑话”，但这并不是用户想要看到的结果。

　　从用户满意度的角度来看，用户搜索的关键词出现了多少次，是否出现在话题中，或者你的内容多长时间，其实并没有一个明确的指标。这些都可能发挥作用，但主要关注点应该是用户体验。 Google 可能有数百种排名动机，但最重要的三个是：内容质量、导入链接和 RankBrain。

　　导入链接是什么？还记得拉里佩奇从学术论文中学到了什么吗？

　　与学术论文中的引用类似，网页上也有称为反向链接或入站链接的链接。这些是从其他网页指向您的网站的链接。

　　如果一个网站真的很好很重要，越来越多的外部网站会提供网站的链接，而且外部链接的数量会非常高。如果一个高质量的网站推荐网站，则说明该推荐是高质量的。谷歌PageRank的主要思想是计算每个网站反向链接的数量和质量，并根据这个指标对网站的重要性进行排序。

　　RankBrain 是 Google 核心算法的机器学习部分。机器学习是一种计算机程序，它通过训练数据和新的观察数据不断学习，以提高预测能力。正是因为不断学习，排序算法才会越来越好。例如，如果 RankBrain 发现某个网页当前的排名较低，但它为其他人提供了更好的结果，则会提高该网页的排名。

　　根据 Google 前 CSQ（搜索质量首席官）Udi Manber 的说法：

　　“排序本身受点击率的影响。如果我们发现对于某个搜索，80% 的人点击了#2，只有 10% 的人点击了#1。过了一会儿，我们发现#2 是每个人都想要什么，所以我们把它放在第一位。”

　　IMEIC 实验室的网页排名从第四上升到第一。谷歌如何处理医院的排名？莆田医院会不会有问题？

　　医院，这种搜索者会亲自到访的地方，我们可以将其视为本地化搜索。

　　对于这种类型的搜索，Google 有三个主要的排序条件：

　　相关距离名气

　　相关性

　　相关性是指本地业务服务是否满足搜索者的要求。确保本业务服务中填写的信息完整、准确。

　　距离

　　Google 使用您的地理信息来提供您的本地搜索结果，并且搜索结果对商家与搜索者的接近程度很敏感。

　　名气

　　Google 将在现实中奖励知名企业。除了线下口碑，谷歌还重视线上口碑，比如：点击量、评论量、引用量等。比如类似于大众点评的“评论列表”，谷歌也会参考yelp等，从大量同类资源中获取一致信息，对本地商家进行排序。如果 Google 发现许多相互确认的参考资料都提到了商店的名称、地址和电话号码，则 Google 会倾向于信任这些数据并赋予商店更高的可信度。

　　因此，当用户在 Google 上搜索医院时，最靠近用户且声誉最好的医院将首先列出。

　　如果商店只是想为 Google 的钱做广告怎么办？

　　Google 有一个专门的部分，称为付费广告。

　　传统的 Google 广告关键字 (AdWords) 是 Google 向商家提供的广告服务。为了提高店铺链接的点击率，商家会竞价与其产品相关的关键词。这些广告最常出现在搜索结果页的顶部或底部，每个都有一个彩色的 [Ad] 标签，表明这是一个广告。这样，用户在点击之前就会有一个衡量标准。

　　例如，在搜索连衣裙时，结果中的前三名都是带有 [Ad] 标签的广告。有趣的是，如果你在谷歌上搜索 AdWords，第一个弹出的结果是谷歌在宣传自己的网页，这个网页也会标有 [Ad] 标签。

　　“广告的排名基于对用户的相关性和实用性。您可以出价，但还有一些其他因素。”

　　让我们依次从广告商的角度考虑。如果你是一个广告主，做了一个网站，想增加浏览量，你如何让它排名尽可能高？

　　第一个问题是，谷歌能爬到你的网站吗？

　　只需在搜索引擎中输入：“site:”就可以限制搜索结果中网页的域名，看看是否出现在结果中。比如搜索知乎，有99万条相关结果。这些不全是你的网站。如果您注册了免费的 Google 搜索控制台，您可以提交网站Map（站点地图）以查看您的网页被索引的数量。您还可以更改设置并使用 robots.txt 阻止 Google 抓取您的某些网页。一些私人网页。

　　简单说说其他的搜索命令。

　　filetype：限制文件类型，例如filetype:pdf，只搜索PDF文件

　　intitle：限制网站的标题

　　inurl：限制网站的地址

　　intext：限制文本

　　有时可能找不到您的网站，为什么？有几个原因：

　　你可能已经注意到我说了好几次robot.txt，那是什么？

　　机器人.TXT

　　Robots.txt 是一个文本文件，用于指导爬虫如何爬取网站。它是机器人排除协议的一部分，这是一系列网络标准，规定了机器人如何抓取网站、索引内容并为用户提供。在实际应用中，这个文件指定了哪些用户代理可以（允许）爬取，哪些部分不能（不允许）爬取。

　　如下图所示，是一个完整的模板：

　　User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

　　例如，这是知乎的robot.txt 的一部分

　　常用命令如下：

　　可见知乎是平等对待的。不允许谷歌、谷歌图片、百度的新闻爬虫爬取登录页面、修改密码页面、搜索页面等。那么谷歌和百度爬虫会效仿吗？

　　通常，当您到达一个网页时，但在它开始抓取之前，搜索引擎抓取工具会首先查找 robots.txt 文件。如果是这样，爬虫会读取它，因为上面有指导爬虫如何爬网的信息。如果robots.txt文件中不存在disallow命令或者没有这个文件，就会继续爬取。

　　我刚才也提到了网站architecture 和sitemap，那为什么爬虫需要网站architecture？

　　就像爬虫需要从其他网站中找到你的网站一样，它也需要你网站上的链接路径，将其一一引导到内部网页。如果您想让爬虫找到您的一个网页，但您忘记将其连接到任何网页，那么它将无法找到。一些网站犯了这个致命的错误，把他们的导航放在搜索引擎找不到的地方，导致他们的网站无法出现在搜索结果中。

　　网站map（站点地图）就像名字一样，它是你网站上的地址列表，爬虫可以跟着你的网站进行查找和索引。确保 Google 找到您最重要的网站的最简单方法是根据 Google 的标准创建一个文件并将其提交给 Google Search Console。导航也是必不可少的重要功能，可以保证爬虫一路找到你的网页。

　　第二个问题是，Google 能否通过索引成功存储您的网页？

　　当您确定您的网站已被抓取时，第二步是确保将其编入索引。仅仅因为您的网站被找到并被抓取，并不意味着它将被存储在搜索引擎的数据库中。爬虫找到网页后，搜索引擎会渲染网页，然后分析网页的内容，所有信息都会存储在索引中。

　　未被编入索引的一些常见原因：

　　如果您发现您的网页之前可以被编入索引，但没有出现在搜索结果中，您可以使用 Google 的工具 URL 检查工具检查索引状态，或者使用 Fetch as Google 中的“请求索引”功能提交索引请求。

　　如果您的网页可以被抓取和索引，最重要的问题是如何提高排名。这个问题是一个专门的主题，叫做搜索引擎优化。有很多关于这种方法的好书。

　　例如：

　　艺术傻瓜可以从SEO中学到的SEO 101 SEO

　　总之，如果谷歌还进不去中国大陆，希望百度能挑剔其糟粕，否则其他搜索引擎会打着中国互联网引擎的旗号。

0

2021-08-24

搜索引擎优化知乎

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

李彦宏在百度AI开发者大会上泼给AI的最后愣了

0 个评论

发起人