网页视频抓取软件 格式工厂(User-agent禁止访问抓取系列之一下-:* )
优采云 发布时间: 2022-04-20 02:19网页视频抓取软件 格式工厂(User-agent禁止访问抓取系列之一下-:*
)
确实站长朋友在开始优化网站之前会忽略一个很重要的点,那就是网站上的robots文件。 robots文件的作用是告诉搜索引擎蜘蛛这个网站@上可以抓取什么内容>,禁止抓取什么内容。 robots文件完成后,放到网站ftp目录下,就完成了。那么,robots文件中写入的各种内容代表什么?那就一起来了解一下吧!
用户代理拒绝访问爬网系列:
用户代理:*
这里的*是通配符,表示所有搜索引擎都可以抓取,包括百度、搜狗、360等。
不允许:/
表示禁止蜘蛛爬取此网站
的任何目录
不允许:/123
表示禁止蜘蛛爬取网站的123及123以下的所有内容
不允许:/123/
表示禁止蜘蛛爬取123级以下的所有内容,但123页的内容可以爬取
禁止:/*.png
意思是禁止蜘蛛抓取网站上所有的png格式图片,如果要禁止抓取其他格式,也一样写,比如要禁止抓取网站jpg格式的图片,写法为Disallow:/*.jpg
禁止:/123/*.png
123级以下禁止蜘蛛访问png图片,其他格式也一样
不允许:/*? *
禁止蜘蛛抓取网站上的所有动态url页面
不允许:/123/*? *
禁止蜘蛛爬取网站上123目录下的所有动态页面,不影响网站123目录下其他内容的爬取
允许抓取访问系列:
允许意味着允许蜘蛛访问和爬行。在写robots文件的时候一定要注意一件事,就是写的时候一定要把allow放在disallow前面,以免被disallow影响。其他写法参考disallow的写法,字数这里就不加了。
有一点需要注意,大家在使用的时候一定要注意。 robots.txt 文件的名称必须是小写,而不是大写。有了完整的robots文件,搜索引擎抓取会更加方便,有利于网站的完善。