文章采集调用(本文采集指定节点和“如何导出采集内容”的说明)

优采云发布时间: 2021-10-10 03:35

　　前言：本文为《无分页通用文章采集方法》的第三部分。在前两节的基础上，对《如何采集指定Node》和《如何导出采集的内容》进行详细讲解。为了与上一篇保持一致，本节文章将继续使用之前的章节标记。

　　接第二部分。

　　3.1采集指定节点

　　点击“保存并启动采集”后，会进入“采集指定节点”界面，如图（图34）,

　　图 34-采集指定节点

　　每页采集：设置每页需要的采集个数，根据网站是否有防刷新功能设置采集的间隔。

　　特殊选项：设置是否检测重复图片，默认为“检测”。

　　附加选项：该选项共有3种采集模式可供选择：第一种是“监控采集模式（检查当前节点或所有节点是否有新内容）”。选择后，系统只会采集指定节点的更新内容；第二种是“重新下载所有内容”，选择后系统会采集指定节点的所有内容；第三种是“下载*敏*感*词*网站未下载的内容”，选择后，系统只会采集指定节点未下载的内容，包括之前未下载和更新的内容。<//p

p设置完成并确认后，您可以点击“开始采集网页”或“查看*敏*感*词*网址”。此时，如果您单击“查看*敏*感*词* URL”，您将看到列表是空的。这是因为新创建的采集节点从来就不是采集，如图（图35）显示，/p

pimg src='https://www.mayiziy.com/../../../uploads/18751582345767.png' alt='Dedecms采集功能的使用方法 --- 不含分页的普通文章（三）'//p

p图35-查看节点的seed URL/p

p点击“开始采集网页”后，系统将启动采集节点中设置的URL，并出现相关提示，如图36）,< /@采集 p>

　　图 36-采集提示消息进行中

　　采集完成后，再次点击“查看*敏*感*词*网址”或点击页面右上角的“查看已下载”，可以看到已经采集的网址信息，如图在（图37）如图，

　　图37-查看节点的seed URL

　　采集成功后，您可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后，可以进入“采集管理>采集内容导出”界面，如图（图38），

　　图 38-采集内容导出

　　“默认导出列”：设置将采集的内容导入到

　　的列

　　“批量采集选项”：如果采集规则中已经指定了列ID，则可以使用该函数。如果指定的列ID为0，系统会将采集导入到“默认导出列”中选择的列中。

　　“发布选项”：有发布为“普通文档”和“另存为草稿”的选项。

　　“每批次导入”：设置每批次导入的项目数。这个数字不能太大。

　　“带选项”：这是一个多项选择。如果不想采集重复文章标题，可以选择“排除重复标题”；如果想直接从采集接收到的内容生成HTML，可以选择“完成后自动生成并导入Content HTML”；如果想让系统自动识别采集列表页的标题名称，可以选择“使用列表索引的标题”。一般不建议勾选。

　　“随机推荐”：填写一个数字，代表文档的数量。推荐的文档随机出现在输入的文档数量中。如果输入“0”，则表示不推荐。

　　设置完成后，可以点击“确定”将下载的项目导入到选中的列中，如图（图39）,

　　图39-采集设置后的内容导出页面

　　同时系统会提示导出过程，如图（图40）,

　　图40-采集内容导出时的提示信息

　　导出采集内容提示“完成所有栏目列表更新”后，点击“浏览栏目”，即可进入网站的相关页面查看采集到的文章List 及其具体内容。也可以在后台管理界面的主菜单中点击“Core”，然后点击“General文章”进入“Document List”页面，从文章查看文章的列表@采集，如图（图41），

　　图 41-文档列表

　　到此为止，我已经成功采集到达目标网站的文章内容。

　　总结，采集“普通文章无分页”比较简单。由于本文文章是基础教程，所以没有太多涉及“过滤规则”。 “常用文章带分页”的采集方法以及过滤规则的使用将在下一篇文章介绍。

　　附上这篇文章的采集规则：

　　{dede:listconfig}

　　{dede:noteinfo notename="采集测试 (一）" channelid="1" macthtype="string"

　　refurl="" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}

　　{dede:listrule sourcetype="batch" rssurl="http://" regxurl="(*).html"

　　startid="1" endid="1" addv="1" urlrule="area"

　　musthas=".html" nothas="" listpic="1" usemore="0"}

　　{dede:addurls}{/dede:addurls}

　　{dede:batchrule}{/dede:batchrule}

　　{dede:regxrule}{/dede:regxrule}

　　{dede:areastart}

　　{/dede:areastart}

　　{dede:areaend}

　　{/dede:areaend}

　　{/dede:listrule}

　　{/dede:listconfig}

　　{dede:itemconfig}

　　{dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}

　　{dede:previewurl}{/dede:previewurl}

　　{dede:keywordtrim}{/dede:keywordtrim}

　　{dede:descriptiontrim}{/dede:descriptiontrim}

　　{dede:item field='title' value='' isunit='' isdown=''}

　　{dede:match}

　　[内容]{/dede:match}

　　{dede:function}{/dede:function}

　　{/dede:item}

　　{dede:item field='writer' value='' isunit='' isdown=''}

　　{dede:match}作者：[内容]{/dede:match}

　　{dede:function}{/dede:function}

　　{/dede:item}

　　{dede:item field='source' value='' isunit='' isdown=''}

　　{dede:match}来源：[内容]{/dede:match}

　　{dede:function}{/dede:function}

　　{/dede:item}

　　{dede:item field='pubdate' value='' isunit='' isdown=''}

　　{dede:match} 发布于：[Content]{/dede:match}

　　{dede:function}@me=GetMkTime(@me);{/dede:function}

　　{/dede:item}

　　{dede:item field='body' value='' isunit='1' isdown='1'}

　　{dede:match}

　　[内容]

　　{/de:match}

　　{dede:function}{/dede:function}

　　{/dede:item}

　　{/dede:itemconfig}

　　本文标签：dedecms、采集、功能、用法、---、不收录、分页、通用、文章、前言

0

2021-10-10

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用(本文采集指定节点和“如何导出采集内容”的说明)

0 个评论

发起人

AI时代内容工厂

文章采集调用(本文采集指定节点和“如何导出采集内容”的说明)

0 个评论

发起人

相关问题