php抓取网页指定内容(SEO新手经常会遇到的问题.txt怎么办?)
优采云 发布时间: 2021-12-14 23:22php抓取网页指定内容(SEO新手经常会遇到的问题.txt怎么办?)
Robots.txt怎么写?这是很多SEO新手经常遇到的问题。
robots.txt是搜索引擎访问网站时首先要检查的文件。Robots.txt可以告诉搜索引擎你的网站哪些页面可以是收录,哪些页面不能是收录,如果你不想让搜索引擎收录你< @网站的部分内容,请在您的网站上使用robots.txt文件指定搜索引擎的抓取范围。
也许有朋友说,我希望我可以抓取更多的搜索引擎,并禁用它?事实上,有些站长不希望网站的某些页面被抓取,因为它们出现在搜索结果中时可能对用户没有意义;某些网站管理员不希望抓取某些类型的网页。已爬取,因为它们是内容重复的网页,有些站长不希望特定网页被爬取,因为它是敏感或机密内容...
Robots.txt 文件在哪里?
robots.txt应该放在网站的根目录下。例如,当蜘蛛访问一个网站(例如)时,它会首先检查网站中是否存在该文件。如果蜘蛛找到该文件,它会根据文件的内容确定其访问权限的范围。
如何编写Robots.txt
以下是为 WordPress 博客编写 Robots.txt 的常用方法:
User-agent: *
# Disallow all directories and files within(禁止抓取以下目录中的文件)
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
# Disallow all files ending with these extensions(禁止抓取以下后缀名的文件)
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
# Disallow parsing individual post feeds, categories and trackbacks..(禁止抓取Feeds,文章目录页面和trackbacks)
Disallow: */trackback/
Disallow: */feed/
Disallow: /category/*
如何在Robots.txt中编写检测工具
robots.txt 协议不是规范,而是约定。因此,每个搜索引擎对robots.txt的遵守方式都不一样。修改robots.txt文件时,可以使用以下工具检查是否符合规范。
谷歌网站管理员工具:
百度站长工具:
机器人检测工具:
我们可以看一个robots.txt文件的检测结果,从中你也会学到如何编写Robots.txt。
原文:蜗牛博客