文章网址采集器(优采云采集器如何根据下载链接批量下载文件的所有内容)
优采云 发布时间: 2021-11-29 14:11文章网址采集器(优采云采集器如何根据下载链接批量下载文件的所有内容)
最近遇到一个问题,可以拿到文件的真实下载地址(地址是加密的),用浏览器打开,直接下载。我尝试用迅雷批量下载,但我得到的只是php文件。如果只有一两个文件,最好用浏览器直接下载就可以了,但是如果地址很多怎么办?今天教大家如何通过优采云采集器批量下载?
一般来说,我们对采集一个网站文件的正常思路是这样的:
1、获取具体分类列表页面地址,从而获取内容页面地址;
2、 获取下载页面地址,最后在下载页面获取最终下载地址即可下载
上面的想法是一个正常的想法,但是最近遇到的问题有点棘手。最终下载地址只能在下载页面通过其他方式获取(虽然最终下载地址是加密的),下载地址手动也可以复制到浏览器下载,Pin也找到了简单的打开方式一次性批量处理这些下载地址,然后可以批量打开网页,然后文件会自动保存到同一个文件夹中。但是如果你想通过或head 采集器解决问题怎么办?
还以为曾经写过一篇文章优采云采集器的文章,通过正则抽取的方式获取当前页面的URL,这样我们就可以通过采集当前的URL来获取当前的URL链接link as 文件下载链接用于在优采云采集器中批量下载。
需要注意的是,按照之前的思路,采集做的分类页和内容页,包括最终的文件下载链接,都是一个地址,但这不影响我们的批处理采集下载。
具体可以在优采云采集器中进行如下设置:
在 URL 采集 规则下,设置“起始 URL 是内容页面的 URL”
在内容采集规则下设置“数据源”、“匹配内容”和“文件下载”如下:
定时抽取的代码请参考优采云采集器定时抽取获取当前页面URL进行设置。
上面圈出了几个需要设置的关键参数,其他参数可以根据需要设置。以上是关于如何优采云采集器根据下载链接批量下载文件的所有内容。欢迎有问题的朋友一起交流。
您可能感兴趣文章优采云采集器软件V7.6 绿色版,免安装,免下载,功能无限使用,分享给大家优采云 采集器从零基础到精通的全套视频课程优采云采集器高铁V9快乐版采集器,兼容win10全功能版优采云采集器https网站不能采集解决方案优采云V9快乐版优采云,内网加密狗版9.8 无限使用功能该网页具有未关闭的标签,并且无法在此页面上使用 XPath。解决SQLite Expert Professional解析提取信息问题5.3优采云db3数据库编辑软件优采云采集器定时提取获取当前页面URL