php抓取网页指定内容(SEO新手经常会遇到的问题.txt怎么办?)

优采云 发布时间: 2021-12-14 23:22

  php抓取网页指定内容(SEO新手经常会遇到的问题.txt怎么办?)

  Robots.txt怎么写?这是很多SEO新手经常遇到的问题。

  robots.txt是搜索引擎访问网站时首先要检查的文件。Robots.txt可以告诉搜索引擎你的网站哪些页面可以是收录,哪些页面不能是收录,如果你不想让搜索引擎收录你< @网站的部分内容,请在您的网站上使用robots.txt文件指定搜索引擎的抓取范围。

  也许有朋友说,我希望我可以抓取更多的搜索引擎,并禁用它?事实上,有些站长不希望网站的某些页面被抓取,因为它们出现在搜索结果中时可能对用户没有意义;某些网站管理员不希望抓取某些类型的网页。已爬取,因为它们是内容重复的网页,有些站长不希望特定网页被爬取,因为它是敏感或机密内容...

  Robots.txt 文件在哪里?

  robots.txt应该放在网站的根目录下。例如,当蜘蛛访问一个网站(例如)时,它会首先检查网站中是否存在该文件。如果蜘蛛找到该文件,它会根据文件的内容确定其访问权限的范围。

  如何编写Robots.txt

  以下是为 WordPress 博客编写 Robots.txt 的常用方法:

  

User-agent: *

# Disallow all directories and files within(禁止抓取以下目录中的文件)

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /wp-includes/

# Disallow all files ending with these extensions(禁止抓取以下后缀名的文件)

Disallow: /*.php$

Disallow: /*.js$

Disallow: /*.inc$

Disallow: /*.css$

# Disallow parsing individual post feeds, categories and trackbacks..(禁止抓取Feeds,文章目录页面和trackbacks)

Disallow: */trackback/

Disallow: */feed/

Disallow: /category/*

  如何在Robots.txt中编写检测工具

  robots.txt 协议不是规范,而是约定。因此,每个搜索引擎对robots.txt的遵守方式都不一样。修改robots.txt文件时,可以使用以下工具检查是否符合规范。

  谷歌网站管理员工具:

  百度站长工具:

  机器人检测工具:

  我们可以看一个robots.txt文件的检测结果,从中你也会学到如何编写Robots.txt。

  

  原文:蜗牛博客

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线