网页数据抓取怎么写( 搜索引擎如何将频次分配给网站的机制以及提高网站排名和有机流量的技巧)

优采云 发布时间: 2022-02-21 15:17

  网页数据抓取怎么写(

搜索引擎如何将频次分配给网站的机制以及提高网站排名和有机流量的技巧)

  

  抓取频率更像是一个 SEO 概念。大多数情况下,站长并不关心百度蜘蛛的爬取频率,因为爬取频率对中小企业几乎没有影响网站。

  虽然大多数 网站 管理员不必担心抓取频率,但如果运行大型 网站,抓取频率是我们可以(并且应该)优化的 SEO 因素。

  当然,随着SEO的发展,爬取频率和排名的关系也并不简单。爬取本身并不是排名因素,但从某种角度来说,爬取频率对搜索引擎优化有间接影响(这也是蜘蛛池流行的原因)。

  在本指南中,我将解释相关的爬网概念、搜索引擎如何为 网站 分配爬网率的机制,以及如何充分利用爬网率来最大化 网站 排名和自然搜索技巧交通。

  内容

  网络蜘蛛的好与坏

  网络蜘蛛、爬虫或机器人是不断“访问”和爬取网页以采集某些信息的计算机程序。

  根据爬行的目的,可以区分以下几种蜘蛛:

  搜索引擎蜘蛛;

  网络服务蜘蛛;

  黑客蜘蛛;

  搜索引擎蜘蛛由百度、谷歌或360等搜索引擎管理。这个蜘蛛可以抓取互联网上的所有页面(只要它们是可发现的),并将它们提供给搜索引擎的索引库。

  SEO工具、购物、旅游、优惠券等很多网络服务网站都有自己的网络索引和爬虫,比如WebMeUp就有一个叫Blexbot的爬虫,每天可以爬取上百亿页面来采集反向链接数据并将该数据提供给其链接索引(SEO SpyGlass 中使用的链接索引)。

  黑客也喜欢繁殖蜘蛛,用来测试各种网站漏洞,一旦发现,他们可能会尝试访问你的网站或服务器。

  你可能会听到人们谈论好蜘蛛和坏蜘蛛,我这样区分它们:任何为非法目的采集信息的蜘蛛都是坏的,其余的都很好。

  大多数蜘蛛在用户代理字符串的帮助下识别自己,并提供一个 URL,在那里他们可以了解更多关于蜘蛛的信息:

  /uploads/allimg/180827/141355M58-1.jpg 983w, https://www.simcf.cc/wp-content/uploads/2018/04/rzhi-300x74.jpg 300w, https://www.simcf.cc/wp-content/uploads/2018/04/rzhi-768x189.jpg 768w

  在本文中,我将重点介绍搜索引擎蜘蛛以及它们如何抓取 网站。

  了解抓取频率

  抓取频率是搜索引擎蜘蛛在特定时间段内点击网站的次数,比如百度一般一个月点击我的网站1000次,可以说1K就是百度的每个月爬取频率,请注意这些爬虫的数量和频率没有通用限制;

  为什么抓取频率很重要?

  从逻辑上讲,你应该关注爬取频率,因为你希望百度为网站发现尽可能多的重要页面,并且你还希望它能够快速找到你的网站上的新内容,爬取越高获取频率,这将发生得越快。

  确定抓取频率

  你可以在百度网站管理工具中查看你的网站爬取频率,比如你需要确定你的百度爬取频率,登录你的百度站长账号,进入数据监控->爬取频率,在这里您将看到每日的抓取频率。

  /uploads/allimg/180827/1413552355-2.jpg 1024w, https://www.simcf.cc/wp-content/uploads/2018/04/pcbh-300x102.jpg 300w, https://www.simcf.cc/wp-content/uploads/2018/04/pcbh-768x261.jpg 768w, https://www.simcf.cc/wp-content/uploads/2018/04/pcbh.jpg 1159w

  从上面的报告可以看出,百度平均每天抓取我大约网站30次,由此可以看出我每月的抓取频率是30*30=900。

  当然,这个数字很容易变化和波动,但是,它会让你清楚地知道在给定的时间段内你可以抓取多少页 网站。

  如果您需要更详细地查看各个页面的爬网统计信息,则必须分析服务器日志,日志文件的位置取决于服务器配置。

  如果您不确定如何访问服务器日志,请向您的系统管理员或托管服务提供商寻求帮助。

  原创日志文件难以阅读和分析。要理解这一点,您需要绝对的正则表达式技能或专门的工具。我更喜欢使用光年测井分析工具进行分析。

  如何分配抓取频率?

  对于搜索引擎优化,我们并不完全了解搜索引擎是如何形成网站的爬取频率的。所有博主都在整理互联网的内容,以获取搜索引擎使用以下两个因素来确定爬取频率:

  受欢迎程度——更受欢迎的页面被更频繁地爬取;

  陈旧 - 百度不会使有关页面的信息过时,对于 网站 管理员来说,这意味着如果页面内容更新频繁,百度会尝试更频繁地抓取页面。

  假设 网站 的抓取频率与反向链接的数量以及该 网站 在百度眼中的重要性成正比——百度希望确保最重要的页面在索引上仍然是最新的。

  内部链接呢?你能通过指向更多的内部链接来提高特定页面的爬取率吗?

  为了回答这些问题,我决定检查内外链接的相关性和爬取统计,我采集了11个网站s的数据,做了一个简单的分析,总之,我就是这样做的。

  我为将要分析的 11 个站点创建了项目,我计算了每个 网站 页面的内部链接数量,接下来我运行 SEO Spyglass 并为相同的 11 个站点创建了项目,在每个项目中,我检查了统计信息并复制带有每个页面的外部链接数量的锚 URL。

  然后,我分析了服务器日志中的抓取统计信息,以了解百度每次访问每个页面的频率。最后,我将所有这些数据放入一个电子表格中,并计算内部链接和抓取预算与外部链接和抓取预算之间的相关性。

  我发现了一些非常有趣的东西这是我分析的其中一个 网站 的示例电子表格:

  /uploads/allimg/180827/1413554937-3.png 694w, https://www.simcf.cc/wp-content/uploads/2018/04/zqpc-300x235.png 300w

  我的数据集展示了蜘蛛访问次数和外部链接数量之间的强相关性(0,978),同时,蜘蛛命中和内部链接之间的相关性被证明非常弱(0,154),这表明反向链接比 网站 链接更重要。

  这是否意味着增加爬取频率的唯一方法是建立链接和发布新内容?如果说整个网站的朱雀频率,我会说是的:经常添加链接和更新网站,网站的爬取频率会成比例增加。

  但是当我们获取单个页面时,它会变得更有趣,正如您将在下面的介绍中看到的那样,您甚至可以在没有意识到的情况下浪费大量的爬网。通过巧妙地管理频率,您通常可以将单个页面的抓取次数翻倍——但它仍然与每页的反向链接数量成正比。

  /uploads/allimg/180827/1413553348-4.png 694w, https://www.simcf.cc/wp-content/uploads/2018/04/screen-300x200.png 300w

  如何充分利用爬网频率

  既然我们已经弄清楚了,爬取很重要,是不是需要更多的时间来管理爬取的频率?

  您应该(或不应该)做很多事情来让您的搜索蜘蛛消耗更多的 网站 页面,这里列出了最大化爬取率功能要做的事情:

  1.如果在搜索中找到的内容没有提供价值,请确保抓取并阻止重要页面。

  .htaccess 和 robots.txt 不应该屏蔽 网站 的重要页面,robots 应该能够访问 CSS 和 Javascript 文件,同时你应该屏蔽你不想在搜索中显示的内容,屏蔽网站 的“建设中”区域和动态生成的 URL 等。

  请记住,搜索引擎蜘蛛并不总是遵循 robots.txt 中收录的说明,您是否曾在 Google 搜索结果中看到过这样的片段?

  Robots.txt 不保证页面不会出现在搜索结果中:百度仍然可以根据外部信息(如传入链接)确定它的相关性,如果你想明确阻止页面被索引,你应该使用 noindex robots 元标记或 X-Robots-Tag HTTP 标头,在这种情况下,您不应在 robots.txt 中禁止该页面,因为必须抓取该页面才能看到并遵守该标记。

  2.避免长重定向链

  如果 网站 上连续的 301 和 302 重定向次数不合理,搜索蜘蛛会在某个时刻停止跟踪重定向,着陆页可能不会被抓取,更重要的是,每个重定向的 URL 都浪费“单位” “您的抓取频率,请确保使用重定向不超过连续两次,并且仅在绝对必要时使用。

  3.管理 URL 参数

  一些内容管理系统会生成大量实际指向同一页面的动态 URL,搜索引擎机器人默认将其视为单独的页面;因此可能会浪费抓取并可能滋生内容重复问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线