php抓取网页指定内容(SEO新手经常会遇到的问题.txt怎么办？)

优采云发布时间: 2021-12-14 23:22

　　Robots.txt怎么写？这是很多SEO新手经常遇到的问题。

　　robots.txt是搜索引擎访问网站时首先要检查的文件。Robots.txt可以告诉搜索引擎你的网站哪些页面可以是收录，哪些页面不能是收录，如果你不想让搜索引擎收录你< @网站的部分内容，请在您的网站上使用robots.txt文件指定搜索引擎的抓取范围。

　　也许有朋友说，我希望我可以抓取更多的搜索引擎，并禁用它？事实上，有些站长不希望网站的某些页面被抓取，因为它们出现在搜索结果中时可能对用户没有意义；某些网站管理员不希望抓取某些类型的网页。已爬取，因为它们是内容重复的网页，有些站长不希望特定网页被爬取，因为它是敏感或机密内容...

　　Robots.txt 文件在哪里？

　　robots.txt应该放在网站的根目录下。例如，当蜘蛛访问一个网站（例如）时，它会首先检查网站中是否存在该文件。如果蜘蛛找到该文件，它会根据文件的内容确定其访问权限的范围。

　　如何编写Robots.txt

　　以下是为 WordPress 博客编写 Robots.txt 的常用方法：

User-agent: *

# Disallow all directories and files within（禁止抓取以下目录中的文件）

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /wp-includes/

# Disallow all files ending with these extensions（禁止抓取以下后缀名的文件）

Disallow: /*.php$

Disallow: /*.js$

Disallow: /*.inc$

Disallow: /*.css$

# Disallow parsing individual post feeds, categories and trackbacks..（禁止抓取Feeds，文章目录页面和trackbacks）

Disallow: */trackback/

Disallow: */feed/

Disallow: /category/*

　　如何在Robots.txt中编写检测工具

　　robots.txt 协议不是规范，而是约定。因此，每个搜索引擎对robots.txt的遵守方式都不一样。修改robots.txt文件时，可以使用以下工具检查是否符合规范。

　　谷歌网站管理员工具：

　　百度站长工具：

　　机器人检测工具：

　　我们可以看一个robots.txt文件的检测结果，从中你也会学到如何编写Robots.txt。

　　原文：蜗牛博客

0

2021-12-14

php抓取网页指定内容

0 个评论

要回复文章请先登录或注册