文章内容采集(用织梦管理系统自带的采集器来采集一个网站(组图))
优采云 发布时间: 2022-01-07 00:04文章内容采集(用织梦管理系统自带的采集器来采集一个网站(组图))
海量信息网站,渠道多,数据多网站。网站管理员不可能把每条数据都给管理员一条一条发送!这时候为了节省人力物力,采集器诞生了(优化的朋友,不推荐大家使用)!接下来我就用织梦管理系统自带的采集器来采集一个网站数据给大家看看采集规则是怎么写的!
1登录织梦管理后台,点击
2采集>>采集节点管理>>添加新节点>>选择正常文章>>确定
1 节点名:随便你(注意一定要能区分,因为节点太多可能会搞砸自己)
2 目标页面编码:看目标页面的编码(比如我的采集的网站的编码是GB2312)
3 匹配URL:到采集目标列表页面查看其列表规则!比如很多网站列表的第一页就和其他的内页有很大的不同,所以我一般不会把采集定位到列表的第一页!比如我演示的网站的列表规则是在第一页设置一个默认首页,后面的实际路径是看不到的,如图: 所以只能从第二页开始页面(虽然可以找到显示第一页,但是很多网站根本没有第一页,所以这里就不讲怎么找第一页了),!来对比一下,采集目标页面的第二页和第三页!可以看到,这两个页面是有规律地递增的,第二个页面是list_2!第三页是list_3!所以,我们上面写的匹配URL(*)代表2个,或者3个,或者4个,或者更多的列表页面!在第三个横杆上,我写了一个(*) from 2 to 5,这意味着从2到5的+1的增量匹配的是(*)而不是(*)!
4区开头的HTML:在采集目标列表页面打开源码!在文章的标题附近找一段你要采集的部分,这是本页唯一的,其他要采集的页面也是唯一的html标签!
区域5末尾的HTML:在采集目标列表页面打开源代码!寻找文章标题附近的部分是采集,这是该页面上唯一的部分,其他页面是采集也是唯一的html标签!其他地方我们还没用过,可以无视!这样,列表页的规则就写好了!下图是我写的列表规则截图!写完,点击保存信息进入下一步!如果规则写对了,那么会有一个带有内容的网站访问规则测试:如下图,然后点击下一步!回车填写采集的内容规则
6
1文章标题:在文章标题前后找两个标签来标识标题!我的采集的网站的文章的标题前后唯一的标签是...,就写[内容]。
2文章内容:在文章内容前后找到两个标签,即可识别内容!我的采集网站文章的内容前后唯一的标签是
…