文章采集器
优采云 发布时间: 2020-08-30 01:09文章采集器
调试模式:在正文的开头插入“调试模式:标题和链接”的内容,以便捷步入原网页对比正文辨识疗效
标题有关键词:只有标题中收录搜索关键词的网页才采集
放弃短标题:当手动辨识的标题的宽度高于原创标题三分之一时,即为短标题,通常这些标题是错误的,因此可以勾选舍弃它,这样就使用原创标题(此段遇见时自会理解)。
删除内层代码:使用手动辨识和精确标签时,通常还会收录这样的内层代码,如果不需要,那就要打勾删掉。
过滤正文:有些正文里收录了标题元素,如这三种须要删掉,还有好多有class属性的标签也属于系统定义的非正文内容,比如
推荐内容
,一般只要删掉class代码,就能除去绝大多数的非正文内容,然后跟随还有个例外编辑框,用于输入不能删掉的class,直接填入class的值,多个值使用|隔开。
________________________________________________
【精确标签】特别说明:
请使用谷歌浏览器或傲游浏览器,鼠标右键单击正文的开始位置-审查元素,然后定位正文的代码段,将该代码段的标签头复制。
如代码段:
正文部份
,则复制
多个标签可以使用“|”隔开
________________________________________________
关键词采集的文章自动比对本地相同标题的文章,相似度超过60%就跳过,低于60%就手动重命名保存。
资源链接标签
exeibn
发布日期
2018-10-17
擦亮日期
2018-10-17
擦亮举报