网页视频抓取软件 格式工厂(User-agent禁止访问抓取系列之一下-:* )

优采云 发布时间: 2022-04-20 02:19

  网页视频抓取软件 格式工厂(User-agent禁止访问抓取系列之一下-:*

)

  确实站长朋友在开始优化网站之前会忽略一个很重要的点,那就是网站上的robots文件。 robots文件的作用是告诉搜索引擎蜘蛛这个网站@上可以抓取什么内容>,禁止抓取什么内容。 robots文件完成后,放到网站ftp目录下,就完成了。那么,robots文件中写入的各种内容代表什么?那就一起来了解一下吧!

  用户代理拒绝访问爬网系列:

  用户代理:*

  这里的*是通配符,表示所有搜索引擎都可以抓取,包括百度、搜狗、360等。

  不允许:/

  表示禁止蜘蛛爬取此网站

  的任何目录

  不允许:/123

  表示禁止蜘蛛爬取网站的123及123以下的所有内容

  不允许:/123/

  表示禁止蜘蛛爬取123级以下的所有内容,但123页的内容可以爬取

  禁止:/*.png

  意思是禁止蜘蛛抓取网站上所有的png格式图片,如果要禁止抓取其他格式,也一样写,比如要禁止抓取网站jpg格式的图片,写法为Disallow:/*.jpg

  禁止:/123/*.png

  123级以下禁止蜘蛛访问png图片,其他格式也一样

  不允许:/*? *

  禁止蜘蛛抓取网站上的所有动态url页面

  不允许:/123/*? *

  禁止蜘蛛爬取网站上123目录下的所有动态页面,不影响网站123目录下其他内容的爬取

  允许抓取访问系列:

  允许意味着允许蜘蛛访问和爬行。在写robots文件的时候一定要注意一件事,就是写的时候一定要把allow放在disallow前面,以免被disallow影响。其他写法参考disallow的写法,字数这里就不加了。

  有一点需要注意,大家在使用的时候一定要注意。 robots.txt 文件的名称必须是小写,而不是大写。有了完整的robots文件,搜索引擎抓取会更加方便,有利于网站的完善。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线