网站采集工具( 下织梦后台自带采集功能使用方法,dedecms自带文章和图片采集 )
优采云 发布时间: 2021-09-03 03:06网站采集工具(
下织梦后台自带采集功能使用方法,dedecms自带文章和图片采集
)
织梦Backstage 自带了一个采集 工具,但是大家好像很陌生,可能是因为不实用,也可能是市场上有更好的工具可以替代。最后一个教程是最详细的优采云数据采集系统Dedecmsrelease文章攻略,今天我们也介绍了织梦后台自带的采集函数使用方法,dedecms自带文章和图片采集Function,对于不熟悉的新手建网站,采集规则配置起来麻烦。经常出现采集错误,或者乱码,现在给小伙伴们介绍一下dedecms的采集功能。
一、进入采集节点管理界面,在后台管理界面主菜单中点击“采集”,然后点击“采集node管理”进入采集节点管理界面。
二、在采集节点管理界面,点击左下角的“添加新节点”或右上角的“添加新节点”如图,可以进入“选择内容” Model”界面,如图所示,
三、设置节点基本信息
四、Target Page Encoding:设置采集目标页面的编码格式。共有三种类型:GB2312、UTF8 和 BIG5。可以通过在采集的目标页面右击选择“查看源文件”获得。
步骤:
(a) 打开采集的目标页面:网站domain/knowledge/web-based/dreamweaver/;
右键单击并选择“查看源文件”,找到“字符集”
五、其等号是需要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配所需采集的内容部分,可以是字符串或正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。
“内容导入顺序”:指定文章list导入时的顺序。可以选择“与目标站一致”或“反向到目标站”。
“防盗链模式”:目标站点为采集是否有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。
“引用网址”:填写任何文章内容页面的网址,即采集。
在打开的文章列表页面,点击第一篇文章
六、此时浏览器的URL地址栏中显示的URL就是“引用URL”中需要填写的URL,如图(图)
七、这里设置了“节点基本信息”。最终结果,如图(图),
八、检查错误后,进入下一步。设置列表网址获取规则
<p>这里是设置采集的文章list页面的匹配规则。如果采集的文章列表页面有一定的样式,可以选择“批量生成列表URL”;如果采集的文章列表页面没有规则可循,可以选择“手动指定列表URL”;如果采集站点提供RSS,则可以选择“从RSS获取”。情况,如:列表页面部分规则,其余部分不规则,您可以在“匹配网址”中填写规则部分,然后在“手动指定网址”中填写不规则部分。