网站采集工具( 下织梦后台自带采集功能使用方法,dedecms自带文章和图片采集 )

优采云 发布时间: 2021-09-03 03:06

  网站采集工具(

下织梦后台自带采集功能使用方法,dedecms自带文章和图片采集

)

  

  织梦Backstage 自带了一个采集 工具,但是大家好像很陌生,可能是因为不实用,也可能是市场上有更好的工具可以替代。最后一个教程是最详细的优采云数据采集系统Dedecmsrelease文章攻略,今天我们也介绍了织梦后台自带的采集函数使用方法,dedecms自带文章和图片采集Function,对于不熟悉的新手建网站,采集规则配置起来麻烦。经常出现采集错误,或者乱码,现在给小伙伴们介绍一下dedecms的采集功能。

  一、进入采集节点管理界面,在后台管理界面主菜单中点击“采集”,然后点击“采集node管理”进入采集节点管理界面。

  

  二、在采集节点管理界面,点击左下角的“添加新节点”或右上角的“添加新节点”如图,可以进入“选择内容” Model”界面,如图所示,

  

  三、设置节点基本信息

  

  四、Target Page Encoding:设置采集目标页面的编码格式。共有三种类型:GB2312、UTF8 和 BIG5。可以通过在采集的目标页面右击选择“查看源文件”获得。

  步骤:

  (a) 打开采集的目标页面:网站domain/knowledge/web-based/dreamweaver/;

  右键单击并选择“查看源文件”,找到“字符集”

  

  五、其等号是需要的“编码格式”,这里是“gb2312”。

  “区域匹配模式”:设置如何匹配所需采集的内容部分,可以是字符串或正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。

  “内容导入顺序”:指定文章list导入时的顺序。可以选择“与目标站一致”或“反向到目标站”。

  “防盗链模式”:目标站点为采集是否有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。

  “引用网址”:填写任何文章内容页面的网址,即采集。

  在打开的文章列表页面,点击第一篇文章

  

  六、此时浏览器的URL地址栏中显示的URL就是“引用URL”中需要填写的URL,如图(图)

  

  七、这里设置了“节点基本信息”。最终结果,如图(图),

  

  八、检查错误后,进入下一步。设置列表网址获取规则

  

<p>这里是设置采集的文章list页面的匹配规则。如果采集的文章列表页面有一定的样式,可以选择“批量生成列表URL”;如果采集的文章列表页面没有规则可循,可以选择“手动指定列表URL”;如果采集站点提供RSS,则可以选择“从RSS获取”。情况,如:列表页面部分规则,其余部分不规则,您可以在“匹配网址”中填写规则部分,然后在“手动指定网址”中填写不规则部分。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线