李彦宏在百度AI开发者大会上泼给AI的最后愣了

优采云 发布时间: 2021-08-24 06:25

  李彦宏在百度AI开发者大会上泼给AI的最后愣了

  2019 年 7 月 3 日,李彦宏在百度 AI 开发者大会上演示 AI 自动泊车时,一名黑衣男子突然冲上讲台,从容不迫地倒了一整瓶矿泉水。到了李彦宏的头上。这次洗礼后,李彦宏先是很乖的低头接受,最后愣了几秒才躲开,丢出一句英文“你怎么了?” 』让人明白这不是会议的安排。

  

  事发后,百度公关在微博上回应称“有人给AI泼了一盆冷水”,但这不影响百度继续前进的决心。

  

  这冷水是泼AI还是泼百度?我们知道,自从谷歌退出后,百度原本占据了中国互联网最大搜索引擎的位置,但因竞价排名引起的血友病酒吧被卖掉、莆田医院、魏则西事件等,让人信服百度。降到冰点。有评论说百度应该被钉在历史的耻辱柱上。

  在这起泼水事件中,在谷歌图片上搜索“李彦宏泼水”,结果正常。在百度图片搜索中,没有水花四溅,相关的搜索是“李彦宏好帅”。也是搜索引擎,谷歌是怎么处理排名的?

  

  

  二十年前,有两名学生在斯坦福大学攻读博*敏*感*词*。他们需要经常上网搜索研究,但他们觉得现有的信息检索方法太糟糕了,所以他们想改进它。研究了这么久,两人觉得学术论文的评价体系还不错。评价一篇论文的质量,就是看有多少其他学术论文引用了它。一个引文可以看作是一个超链接,他们两人设计了一个算法来统计超链接被点击的次数。最后这个算法就变成了PageRank,Google的排序算法,这两个人就是Larry Page和Sergey Brin。

  当您在 Google 或任何搜索引擎上搜索时,您输入关键字,例如今天的天气,搜索结果将返回当地天气预报,您无需打开链接即可查看。当您点击搜索时,Google 究竟做了什么?

  搜索引擎通常具有三个基本功能:

  Crawl:利用爬虫不断进入互联网上的各种连接,获取更新的内容。内容可以是网页、图片、视频、PDF等。谷歌机器人(Googlebot)会从一些网页开始。这些网页上有一些新网页,Google bot 会不断搜索新网址。索引:组织和存储爬取的信息。 Google 将好的和有价值的信息存储在名为 Caffeine 的数据库中。网页被编入索引后,它可能会出现在相关搜索结果中。排序:将数据库中的信息按照相关性从高到低排序。

  

  什么是相关性,Google 如何确定相关性?

  为了确定相关性,Google 使用了一种排序算法,这是一种以有意义的方式获取和排列信息的方法。从拉里佩奇开始,排序算法更新了很多次,谷歌几乎每天都在更新算法。尽管谷歌从未透露过算法的细节,但谷歌已经公布了谷歌的质量指南和搜索质量评估指南。这些指南准确地告诉我们 Google 想要什么。

  Google 想要什么?作为搜索引擎,Google 只想做一件事:为用户提供最有用的问题答案。

  有些人可能认为这很容易,只要您提供收录搜索关键字的网页即可。这当然是一种方法,但想象一下如果有人搜索“笑话”,结果是这样的网页:

  欢迎来到『十万个好笑的笑话』!我们有世界上最好笑的笑话,哈哈哈真是笑死了。。。

笑话笑话笑话笑话笑话笑话。。。。

  这个页面有很多“笑话”,但这并不是用户想要看到的结果。

  从用户满意度的角度来看,用户搜索的关键词出现了多少次,是否出现在话题中,或者你的内容多长时间,其实并没有一个明确的指标。这些都可能发挥作用,但主要关注点应该是用户体验。 Google 可能有数百种排名动机,但最重要的三个是:内容质量、导入链接和 RankBrain。

  导入链接是什么?还记得拉里佩奇从学术论文中学到了什么吗?

  与学术论文中的引用类似,网页上也有称为反向链接或入站链接的链接。这些是从其他网页指向您的 网站 的链接。

  

  如果一个网站真的很好很重要,越来越多的外部网站会提供网站的链接,而且外部链接的数量会非常高。如果一个高质量的网站推荐网站,则说明该推荐是高质量的。谷歌PageRank的主要思想是计算每个网站反向链接的数量和质量,并根据这个指标对网站的重要性进行排序。

  RankBrain 是 Google 核心算法的机器学习部分。机器学习是一种计算机程序,它通过训练数据和新的观察数据不断学习,以提高预测能力。正是因为不断学习,排序算法才会越来越好。例如,如果 RankBrain 发现某个网页当前的排名较低,但它为其他人提供了更好的结果,则会提高该网页的排名。

  根据 Google 前 CSQ(搜索质量首席官)Udi Manber 的说法:

  “排序本身受点击率的影响。如果我们发现对于某个搜索,80% 的人点击了#2,只有 10% 的人点击了#1。过了一会儿,我们发现#2 是每个人都想要什么,所以我们把它放在第一位。”

  

  IMEIC 实验室的网页排名从第四上升到第一。谷歌如何处理医院的排名?莆田医院会不会有问题?

  医院,这种搜索者会亲自到访的地方,我们可以将其视为本地化搜索。

  对于这种类型的搜索,Google 有三个主要的排序条件:

  相关距离名气

  相关性

  相关性是指本地业务服务是否满足搜索者的要求。确保本业务服务中填写的信息完整、准确。

  距离

  Google 使用您的地理信息来提供您的本地搜索结果,并且搜索结果对商家与搜索者的接近程度很敏感。

  名气

  Google 将在现实中奖励知名企业。除了线下口碑,谷歌还重视线上口碑,比如:点击量、评论量、引用量等。比如类似于大众点评的“评论列表”,谷歌也会参考yelp等,从大量同类资源中获取一致信息,对本地商家进行排序。如果 Google 发现许多相互确认的参考资料都提到了商店的名称、地址和电话号码,则 Google 会倾向于信任这些数据并赋予商店更高的可信度。

  因此,当用户在 Google 上搜索医院时,最靠近用户且声誉最好的医院将首先列出。

  如果商店只是想为 Google 的钱做广告怎么办?

  Google 有一个专门的部分,称为付费广告。

  传统的 Google 广告关键字 (AdWords) 是 Google 向商家提供的广告服务。为了提高店铺链接的点击率,商家会竞价与其产品相关的关键词。这些广告最常出现在搜索结果页的顶部或底部,每个都有一个彩色的 [Ad] 标签,表明这是一个广告。这样,用户在点击之前就会有一个衡量标准。

  例如,在搜索连衣裙时,结果中的前三名都是带有 [Ad] 标签的广告。有趣的是,如果你在谷歌上搜索 AdWords,第一个弹出的结果是谷歌在宣传自己的网页,这个网页也会标有 [Ad] 标签。

  

  “广告的排名基于对用户的相关性和实用性。您可以出价,但还有一些其他因素。”

  让我们依次从广告商的角度考虑。如果你是一个广告主,做了一个网站,想增加浏览量,你如何让它排名尽可能高?

  第一个问题是,谷歌能爬到你的网站吗?

  只需在搜索引擎中输入:“site:”就可以限制搜索结果中网页的域名,看看是否出现在结果中。比如搜索知乎,有99万条相关结果。这些不全是你的网站。如果您注册了免费的 Google 搜索控制台,您可以提交 网站Map(站点地图)以查看您的网页被索引的数量。您还可以更改设置并使用 robots.txt 阻止 Google 抓取您的某些网页。一些私人网页。

  

  简单说说其他的搜索命令。

  filetype:限制文件类型,例如filetype:pdf,只搜索PDF文件

  intitle:限制网站的标题

  inurl:限制网站的地址

  intext:限制文本

  有时可能找不到您的网站,为什么?有几个原因:

  你可能已经注意到我说了好几次robot.txt,那是什么?

  机器人.TXT

  Robots.txt 是一个文本文件,用于指导爬虫如何爬取网站。它是机器人排除协议的一部分,这是一系列网络标准,规定了机器人如何抓取网站、索引内容并为用户提供。在实际应用中,这个文件指定了哪些用户代理可以(允许)爬取,哪些部分不能(不允许)爬取。

  如下图所示,是一个完整的模板:

  User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

  例如,这是知乎 的robot.txt 的一部分

  

  常用命令如下:

  可见知乎是平等对待的。不允许谷歌、谷歌图片、百度的新闻爬虫爬取登录页面、修改密码页面、搜索页面等。那么谷歌和百度爬虫会效仿吗?

  通常,当您到达一个网页时,但在它开始抓取之前,搜索引擎抓取工具会首先查找 robots.txt 文件。如果是这样,爬虫会读取它,因为上面有指导爬虫如何爬网的信息。如果robots.txt文件中不存在disallow命令或者没有这个文件,就会继续爬取。

  我刚才也提到了网站architecture 和sitemap,那为什么爬虫需要网站architecture?

  就像爬虫需要从其他网站中找到你的网站一样,它也需要你网站上的链接路径,将其一一引导到内部网页。如果您想让爬虫找到您的一个网页,但您忘记将其连接到任何网页,那么它将无法找到。一些网站犯了这个致命的错误,把他们的导航放在搜索引擎找不到的地方,导致他们的网站无法出现在搜索结果中。

  

  网站map(站点地图)就像名字一样,它是你网站上的地址列表,爬虫可以跟着你的网站进行查找和索引。确保 Google 找到您最重要的 网站 的最简单方法是根据 Google 的标准创建一个文件并将其提交给 Google Search Console。导航也是必不可少的重要功能,可以保证爬虫一路找到你的网页。

  第二个问题是,Google 能否通过索引成功存储您的网页?

  当您确定您的网站 已被抓取时,第二步是确保将其编入索引。仅仅因为您的网站 被找到并被抓取,并不意味着它将被存储在搜索引擎的数据库中。爬虫找到网页后,搜索引擎会渲染网页,然后分析网页的内容,所有信息都会存储在索引中。

  

  未被编入索引的一些常见原因:

  如果您发现您的网页之前可以被编入索引,但没有出现在搜索结果中,您可以使用 Google 的工具 URL 检查工具检查索引状态,或者使用 Fetch as Google 中的“请求索引”功能提交索引请求。

  如果您的网页可以被抓取和索引,最重要的问题是如何提高排名。这个问题是一个专门的主题,叫做搜索引擎优化。有很多关于这种方法的好书。

  例如:

  艺术傻瓜可以从SEO中学到的SEO 101 SEO

  总之,如果谷歌还进不去中国大陆,希望百度能挑剔其糟粕,否则其他搜索引擎会打着中国互联网引擎的旗号。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线