云端内容采集( 采集匹配的开始和结束代码应该怎样设置?【豹子融】)

优采云 发布时间: 2021-09-04 12:07

  云端内容采集(

采集匹配的开始和结束代码应该怎样设置?【豹子融】)

  新云系统采集设置中常见问题及相关解答

  1、过滤设置有什么作用,我想过滤什么样的标签?

  2、采集 比赛的起止码应该怎么设置?

  3、采集返回的内容如何不造成页面错位?

  4、分页采集如何设置?内容分页和分页设置有什么区别?

  对上面xinyun采集常见问题一一解答:

  1、过滤设置有什么作用,我想过滤什么样的标签?

  采集时,对方网页的内容可能收录很多我们不想或不想看到的内容,比如在内容中插入广告,在关键词中添加链接内容。内容中使用了一些JS特效。此时可以根据对方的内容查看源代码,看看要过滤的内容显示的是什么样的代码。比如过滤掉JS代码,选择SCRIPT标签,过滤掉连接,选择A标签,过滤掉字体颜色,选择FONT标签。要过滤掉 DIV 内容,请选择 DIV 标签。

  2、采集 如何设置匹配的起止码?

<p>采集中最重要的就是设置采集匹配码,匹配的内容会以我们网站上数据的最终形式放到不同的字段中。设置起始码时,一般需要在页面源码中选择要拦截的内容前面的一段代码,并且应该是前面内容中唯一出现的一段代码。比如截取标题的时候,一般只需要设置一下,因为很多网站在内容页面以标题的形式显示标题,往往是页面上唯一出现的代码。设置结束码时,只需要设置要截取的内容后的第一个字符即可。当然,你也可以设置一段字符,它不需要是页面上唯一的字符。比如这里我们使用作为起始码,而结束码设置为

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线