头条号定向采集设置教程
优采云 发布时间: 2023-09-12 11:10近日,我们升级了定向采集功能,以支持指定采集某个头条号文章,以下是详细教程(其实很简单!)
第一节:获取采集目标网址
首先,我们要找到想要采集的头条号的文章列表,比如我们从它的某一篇文章页面,点击右边头像,进入账号主页:
可以看到页面有“全部”、“文章”、“视频”、“微头条”等标签,我们目前只支持“文章”和“微头条”内容的采集,比如现在我们以“文章”为例,点击“文章”标签,然后复制浏览器地址栏的整个网址:
我们复制到的网址如下:$(document).ready(function() {$('pre code').each(function(i, block) { hljs.highlightBlock( block); }); });
https://www.toutiao.com/c/user/token/MS4wLjABAAAAWOefk69PqM_KvLpX6zGiM4wTmre7pBfKQWbcymKegyM/?tab=article
如果你复制到的网址和这个不一样,还有其他参数,没关系,不影响的。
第二节:添加定向采集目标
下面我们开始设置定向采集。定向采集分两种,一种叫“跟踪采集”,用来持续跟踪页面上的新文章,只要有新文章出现,就采集。另一种叫“单次采集”,通常用于采集某个文章列表的历史文章,可以自动翻页。
如果你是想要做跟踪采集,只需把上面的网址填到定向采集里面就可以了:
如果你是想要采集历史文章,那就选单次采集,分别填入上面的网址和要采集的页码范围。注意,头条号定向采集每页网址数是20条,只能从第1页开始采集,最多采集前100页。比如,如果你填的页码范围是1-10,那么系统采到第10页后就停止。如果页码范围是1-80,那么系统采到第80页后停止。而如果你填的页码是101-200,系统还是会从第1页开始,然后采到第100页结束。
添加完以后我们就看到了定向任务列表:
第三节:选择定向采集链接,保存任务
我们点击任务右边的“规则设置”按钮,在弹出页面中选择需要采集的链接。在采集系统运行过程中,如果页面上(包括分页上)对应位置有链接,系统就会去采集。通常,你只需要把全部链接都选中,然后保存就可以了。
注意事项:头条号采集需要按顺序翻页,因此在采集历史文章时,尽量不要把采集需求量设得很大(建议不超过100篇每小时),否则系统会自动开启多线程并行采集,从而文章采集失败率升高。
定向采集完整图文教程在这里