文章采集器

优采云 发布时间: 2020-08-30 01:09

  文章采集

  调试模式:在正文的开头插入“调试模式:标题和链接”的内容,以便捷步入原网页对比正文辨识疗效

  标题有关键词:只有标题中收录搜索关键词的网页才采集

  放弃短标题:当手动辨识的标题的宽度高于原创标题三分之一时,即为短标题,通常这些标题是错误的,因此可以勾选舍弃它,这样就使用原创标题(此段遇见时自会理解)。

  删除内层代码:使用手动辨识和精确标签时,通常还会收录这样的内层代码,如果不需要,那就要打勾删掉。

  过滤正文:有些正文里收录了标题元素,如这三种须要删掉,还有好多有class属性的标签也属于系统定义的非正文内容,比如

  推荐内容

  ,一般只要删掉class代码,就能除去绝大多数的非正文内容,然后跟随还有个例外编辑框,用于输入不能删掉的class,直接填入class的值,多个值使用|隔开。

  ________________________________________________

  【精确标签】特别说明:

  请使用谷歌浏览器或傲游浏览器,鼠标右键单击正文的开始位置-审查元素,然后定位正文的代码段,将该代码段的标签头复制。

  如代码段:

  正文部份

  ,则复制

  多个标签可以使用“|”隔开

  ________________________________________________

  关键词采集的文章自动比对本地相同标题的文章,相似度超过60%就跳过,低于60%就手动重命名保存。

  资源链接标签

  exeibn

  发布日期

  2018-10-17

  擦亮日期

  2018-10-17

  擦亮举报

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线