百度的搜索引擎优化怎么做(李彦宏在百度AI开发者大会上泼给AI的最后愣了)

优采云 发布时间: 2022-01-22 10:11

  百度的搜索引擎优化怎么做(李彦宏在百度AI开发者大会上泼给AI的最后愣了)

  2019年7月3日,当李彦宏在百度AI开发者大会上展示AI自动泊车时,一名黑衣人突然冲上讲台,从容不迫地把一整瓶矿泉水倒在李彦宏的头上。洗礼过后,李彦宏一开始很乖巧的低下头,愣了几秒后才躲了起来,吐出一句英文“What's your problem?”,让人意识到这不是大会的安排。 .

  

  事发后,百度公关在微博回应称,“有人给AI泼冷水”,但不影响百度前行的决心。

  

  这冷水到底是泼在AI还是百度身上?我们知道,自从谷歌退出后,百度原本占据了中国互联网第一大搜索引擎的位置,但因竞价排名而引发的血友病酒吧接二连三被卖掉,莆田医院、卫泽西事件等等。 ,这让人们信任百度。降到冰点。有评论说,百度应该被钉在历史的耻辱柱上。

  对于此次泼水事件,在谷歌图片上搜索“李彦宏泼水”,结果正常。百度图片搜索,一滴水都没有,相关搜索是“李彦宏好帅”。同样是搜索引擎,谷歌是如何处理排名的?

  

  

  二十年前,斯坦福有两名学生正在攻读博*敏*感*词*。研究。他们需要经常在互联网上搜索信息,但他们都觉得现在的信息搜索方式太糟糕了,所以他们想改进它。研究了这么久,两人觉得学术论文的评价体系还是挺不错的。评估一篇论文的质量就是看有多少其他学术论文引用了它。引用可以看成是一个超链接,两人设计了一个算法来统计超链接被点击的次数。最后这个算法变成了PageRank,Google的排名算法,这两个人就是Larry Page和Sergey Brin。

  当您进行 Google 搜索或任何搜索引擎时,您输入关键字,例如今天的天气,搜索结果会返回当地天气预报,而无需打开另一个链接即可查看。当你点击搜索时,谷歌到底做了什么?

  搜索引擎一般具有三个基本功能:

  爬取:利用爬虫不断进入互联网上的各种连接,获取更新的内容。内容可以是网页、图片、视频、PDF等。谷歌bot(Googlebot)会从一些网页开始,其中有一些新的网页,谷歌爬虫会不断寻找新的网址。索引:组织和存储爬取的信息。谷歌将优质、有价值的信息存储在一个名为 Caffeine 的数据库中。一旦网页被编入索引,它可能会出现在相关的搜索结果中。排序:将数据库中的信息按相关性从高到低排序。

  

  什么是相关性,Google 如何确定相关性?

  为了确定相关性,谷歌使用了一种排名算法,一种以有意义的方式获取和排名信息的方法。排序算法自拉里佩奇以来已经更新了很多次,谷歌几乎每天都在更新算法。虽然谷歌从不透露其算法的细节,但谷歌发布了谷歌的质量指南和搜索质量评估指南,它们准确地告诉我们谷歌想要什么。

  那么谷歌想要什么?作为搜索引擎,谷歌只想做一件事:为用户提供最有用的问题答案。

  可能有人认为这很简单,只要页面收录搜索关键字就可以了。这当然是一种方法,但是想象一下如果有人搜索“笑话”,结果会返回一个这样的网页:

  欢迎来到『十万个好笑的笑话』!我们有世界上最好笑的笑话,哈哈哈真是笑死了。。。

笑话笑话笑话笑话笑话笑话。。。。

  这个页面上有很多“笑话”,但这不是用户想要看到的。

  从用户满意度来看,其实并没有明确的指标,用户搜索的关键词出现了多少次,是否出现在标题中,或者你的内容有多长。这些可能都起作用,但主要关注点应该放在用户体验上。Google 可能有成百上千的排名动机,但最重要的三个是:内容质量、传入链接和 RankBrain。

  那么什么是入站链接?还记得拉里佩奇从学术论文中学到了什么吗?

  与学术论文中的引用类似,网页有一种称为反向链接或入站链接的链接,它们是来自其他网页的 网站 链接,这些链接指向您。

  

  如果一个 网站 真的很好而且很重要,并且越来越多的外部 网站 将提供指向该 网站 的链接,那么外部链接的数量就会很高。如果一个高质量的网站推荐了网站,则说明该推荐是高质量的。Google PageRank的主要思想是计算每个网站的反向链接的数量和质量,并根据这个指标对网站的重要性进行排名。

  RankBrain 是谷歌核心算法的机器学习部分。机器学习是一种计算机程序,它通过不断地从训练数据和新的观察中学习来提高预测能力。正是因为不断学习,排序算法才会越来越好。例如,如果 RankBrain 发现一个页面当前排名较低,但它提供了更好的结果,它将提高该页面的排名。

  根据 Google 前 CSQ(搜索质量主管)Udi Manber 的说法:

  “排名本身是受点击率影响的,如果我们发现某个搜索,80%的人点击#2,只有10%的人点击#1,一段时间后我们发现#2是每个人都想要的,所以我们把它放在第一位。”

  

  IMEIC实验室的页面排名从第四上升到第一。谷歌如何处理医院的排名?莆田医院会不会有问题?

  医院,搜索者亲自访问的地方,我们可以将其视为本地化搜索。

  对于这种类型的搜索,谷歌有三个主要的排序标准:

  相关距离名声

  相关性

  相关性是指本地业务服务是否符合搜索者的要求。确保本业务服务填写的信息完整、准确。

  距离

  Google 使用您的地理信息来提供您的本地搜索结果,这些结果对商家与搜索者的接近程度很敏感。

  名声

  谷歌会奖励现实中的知名企业。除了线下口碑,谷歌还关注线上的口碑,比如:点击、评论、引用。例如,类似于大众点评网的“好评店名单”。谷歌还会参考yelp等,从大量同类资源中获取一致信息,对本地商家进行排序。如果 Google 发现商店的名称、地址和电话号码在许多相互证实的引文中都被提及,则 Google 倾向于信任这些数据,从而使商店具有更高的可信度。

  因此,当用户使用谷歌搜索医院时,距离用户最近且信誉最好的医院将被排在第一位。

  那么,如果商店只是想向 Google 支付*敏*感*词*怎么办?

  Google 有一个专门的部分,称为付费广告

  传统的谷歌广告关键词(AdWords)是谷歌向商家提供的广告服务。为了提高其店铺链接的点击率,商家会竞价与其产品相关的关键词。这些广告最常出现在搜索结果页面的顶部或底部,并且每个广告都有一个彩色的 [Ad] 标签来表明它是一个广告。这样一来,用户在点击之前,心中就会有一个尺度。

  例如,当您搜索连衣裙时,前三个结果都是带有 [Ad] 标签的广告。有趣的是,如果你在 Google 上搜索 AdWords,弹出的第一个结果是 Google Ads 自己的页面,也标有 [Ad] 标签。

  

  “广告是根据对用户的相关性和有用性进行排名的,你可以对它们出价,但还有其他因素。”

  让我们依次从广告商的角度来考虑。如果你是一个广告商,你做了一个 网站 并且你想增加浏览量,你如何让它尽可能地排在列表的顶部?

  第一个问题是,Google 可以抓取你的 网站 吗?

  只需在搜索引擎中输入:“site:”,在搜索结果中限制网页的域名,看是否出现在结果中。例如搜索知乎,有990,000条相关结果。这不是你的全部网站。如果您注册免费的 Google Search Console,您可以提交 网站 站点地图以查看有多少页面被编入索引,并且您可以更改设置以使用 robots.txt 以防止 Google 抓取您的一些隐私的页数。

  

  简述其他搜索命令。

  filetype:限制文件类型,如filetype:pdf,只搜索PDF文件

  intitle:限制网站的标题

  inurl:限制网站的地址

  intext:限制文本

  有时,您的 网站 可能找不到,为什么?有几个原因:

  你可能已经注意到我说了几次robot.txt,那么它是什么?

  机器人.TXT

  Robots.txt 是一个文本文件,它指示爬虫如何爬取 网站。它是机器人排除协议的一部分,这是一组管理机器人应如何抓取 网站、索引内容并将其提供给用户的网络标准。在实践中,这个文件指定了哪些用户代理(user agent)可以(允许)哪些部分不能(不允许)爬取。

  如下图所示,就是一个完整的模板:

  User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

  例如,这是 知乎 的 robots.txt 的一部分

  

  常用命令如下:

  可以看出,知乎仍然是一视同仁的,它不允许谷歌和谷歌图片、百度新闻爬虫爬取登录页面、修改密码页面、搜索页面等。那么谷歌和百度的爬虫也会这样做吗?

  通常当一个网页到达,但还没有开始爬取时,搜索引擎爬虫会首先检查是否有robots.txt文件。如果有,爬虫就会读取,因为上面有指导爬虫如何爬取页面的信息。如果在 robots.txt 文件中不存在 disallow 命令或不存在该文件,则会继续爬取。

  刚才也提到了网站架构和sitemap,那么爬虫为什么需要网站架构呢?

  就像爬虫需要从其他 网站 中发现您的 网站 一样,它也需要您的 网站 上的链接路径将其一一引导到内部页面。如果您希望爬虫发现您的某个页面,但您忘记将其链接到任何页面,则不会发现它。有些网站犯了这个致命的错误,把导航放在搜索引擎找不到的地方,阻止他们的网站出现在搜索结果中。

  

  网站站点地图与名称一样,是您的 网站 上的地址列表,爬虫可以跟踪这些地址以发现和索引您的 网站。确保 Google 找到您最重要的 网站 的最简单方法是按照 Google 的标准创建一个文件并将其提交到 Google Search Console。导航也是一个不可或缺的重要功能,可以确保爬虫一路找到你的网页。

  第二个问题是,Google 能否成功索引您的网页?

  当您确定您的 网站 已被抓取时,第二步是确保它已被编入索引。仅仅因为您的 网站 被发现并被抓取并不意味着它将被存储在搜索引擎的数据库中。爬虫找到网页后,搜索引擎会对网页进行渲染,然后对网页内容进行分析,所有信息都会存储在索引中。

  

  未编入索引的一些常见原因:

  如果您发现您的页面之前可以被索引,但没有出现在搜索结果中,您可以使用 Google 的 URL Inspection 工具检查索引状态,或者使用 Fetch as Google 中的“请求索引”功能提交索引请求.

  如果你的网页可以被抓取和索引,最重要的问题是如何提高排名。这个问题是一门专业知识,叫做搜索引擎优化。有许多描述这种方法的好书。

  例如:

  SEO 101 每个傻瓜都可以学习的SEO艺术

  总之,如果谷歌还不能进入中国大陆,我希望百度可以取其糟粕的精华,或者其他一些搜索引擎来扛起中国互联网引擎的大旗。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线