织梦仿站首页列表页文章带图标(DeDeCMS织梦的采集教程超级详细步骤/方法/html对比)
优采云 发布时间: 2022-03-13 06:20织梦仿站首页列表页文章带图标(DeDeCMS织梦的采集教程超级详细步骤/方法/html对比)
DeDecms 织梦的采集教程,超详细的步骤/方法1.1 第一步,我们打开织梦后台点击采集@ >—— 采集节点管理-添加新节点2.2 第二步,这里我们以采集普通文章为例,我们选择普通文章 ,然后确认3.3 第三步,进入采集的设置页面,填写节点名,也就是给新节点起个名字,这里可以随便填。4.4 步骤 4. 打开您想要 采集 的 文章 列表页面。(这里我们以这个网站为例yicao/打开这个页面,右键-查看源文件找到目标页面代码,就在charset之后)5.5 第五步,填写基本信息页面,填写后,如图6.6 第六步,填写列表URL,获取规则可以看到文章列表首页的地址。yicao/list_49_1.html 对比第二页的地址 yicao/list_49_2.html 发现除了49_后面的数字外都一样,所以可以写yicao/list_49_( * ).html就是把1换成(*),因为这里只有2页,所以我们从1填到2,每页加1。当然2-1...等于1.这里我们填写后,可能采集的一些列表没有规则,所以只能手动指定列表的URL,如图,每行写一个页面地址7.7 第七步,填写文章的URL,如果规则匹配,返回文章
我们可以很容易地找到图中的“新闻列表”。从这里开始,以下是 文章 列表。让我们在列表末尾查找 HTML。就是这个,很容易找到的标志。如果链接中收录图片: 不要将采集 处理为略图,根据自己的需要选择8.8。Step 8. 再次过滤区域URL:(使用正则表达式)必须收录:(优先级高于后者) 不能收录:打开源文件,我们可以很明显文章链接全部结束使用 .htm l。因此,我们在必须收录的后面填写.html。如果遇到一些麻烦的列表,也可以填写以下不能收录的。点击保存设置,进入下一步第一步,可以看到我们获取到的文章网址。这些都是正确的。我们保存信息,进入下一步设置内容字段获取规则。我们看看 文章 有没有分页,输入一个@文章 看看。. 我们看到这里的文章里面没有分页,所以这里我们默认了。我们找文章标题等,输入一个文章,右键查看源文件就可以看到这些根据源代码填写9.9 第九步,填写文章内容的开头和结尾,结尾同上,找到开始和结束标记。> 10 Step 10. 在过滤规则的文章中写下你要过滤的内容。比如要过滤文章中的图片,选择常用规则,勾选IMG如图,如图然后确认,这样我们就可以过滤文本中的图片了 11. 11 第十一步,设置好后点击保存设置和预览,如图,写了一个采集规则,很简单。有的网站很难写,但要多花点功夫。让我们点击保存并启动采集——启动采集网页一会儿采集就结束了。查看我们的 采集to文章 12. 12 最后,要导出数据,首先选择要导入的列,然后按“请选择”选择需要导入的列在弹出窗口中。发布选项通常是默认值。除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项一般选择“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词。文章标题匹配规则:[内容]过滤规则:{dede:trimreplace=""}