网站文章采集器(公众号运营教程从入门到提高全套视频教程下载(组图))
优采云 发布时间: 2022-01-25 08:11网站文章采集器(公众号运营教程从入门到提高全套视频教程下载(组图))
公众号操作教程从入门到完善全套视频教程下载
如果要做下载站,需要采集target网站的批量下载资源,批量下载使用优采云采集器采集,可以参考到 文章 :
优采云采集器如何批量下载文件采集?文件下载采集设置
我最近遇到了一个问题。可以得到文件的真实下载地址(地址是加密的),用浏览器打开就可以直接下载。我试过用迅雷批量下载,但我得到的只是php文件。如果只有一两个文件,最好使用它。浏览器直接下载是可以的,但是地址多怎么办?今天教大家如何通过优采云采集器批量下载?
一般来说,我们的采集一个网站文件的正常思路是这样的:
1、获取具体分类列表页面地址,从而获取内容页面地址;
2、获取下载页面地址,最后在下载页面获取最终下载地址进行下载
上面的想法是一个正常的想法,但是最近遇到的这个问题有点棘手。只能通过其他方式获取下载页面中的最终下载地址(虽然这个最终下载地址是加密的),而且下载地址是手动的,也可以复制到浏览器中下载,产品本身找到了一个简单的方式一次批量打开这些下载地址,然后可以批量打开网页,然后文件自动保存到同一个文件夹。但是想通过或head 采集器解决问题怎么办呢?
想到了我曾经写过的一篇文章文章优采云采集器通过正则提取得到当前页面的URL,这样我们就可以得到当前的URL链接采集当前的URL链接as 文件下载链接在 优采云采集器 用于批量下载。
需要注意的是,按照之前的思路,采集的分类页面和内容页面,包括最终的文件下载链接,都是一个地址,但这并不影响我们批量采集的下载.
具体可以在优采云采集器中进行如下设置:
在 URL 采集 规则下,设置“起始 URL 是内容页面 URL”
在 content采集 规则下,设置“数据源”、“匹配内容”和“文件下载”如下:
正则抽取的代码请参考优采云采集器,通过正则抽取的方式获取当前页面的URL。
上面圈出了几个设置的关键参数,其他参数设置根据需要设置。以上就是如何根据下载链接批量下载优采云采集器的文件了。欢迎有问题的朋友互相交流。