3.为什么采集一段时间之后,无法采集?这可能采集多了被搜索引擎限制
优采云 发布时间: 2021-08-19 19:263.为什么采集一段时间之后,无法采集?这可能采集多了被搜索引擎限制
1.为什么采集一段时间后就不能采集?
可能是采集受搜索引擎限制比较多。一般可以通过更改IP来继续采集(如使用VPN更改IP)。如果不改,只能在搜索引擎解封后继续采集。百度的屏蔽时间一般是半小时到几个小时。
但是,即使验证码被屏蔽,软件也会弹出手动输入的验证码(百度、谷歌)
2.不同批次关键词采集为什么结果中有些重复的网址?
特别是在只引用#domain#或#top-level domain#之后,这种部分URL重复的情况更为常见。这也是正常的,因为每个网站内页可能收录很多主题,而不同的关键词可能是采集到网站的不同内页,当引用域名时,相同的网站不同内页页面的域名结果自然是一样的。
另*敏*感*词*内。如果两个采集的结果中存在一些重复的URL,可以将它们合并在一起,使用软件去除重复(优采云·text deduplication scrambler)。
3.为什么采集返回的URL主题和关键词不一致?
因为在引用#domain#或#top-level domain#后,取的是域名部分。域名打开网站的主页,采集的原网址可能不是主页,而是网站的文章内页的一篇文章,内页收录关键词主题,所以可以通过搜索引擎收录获取,软件可以采集。但是取域名后,您打开的域名首页可能没有关键词。
为了对比采集是否正确,可以在保存的模板中输入:#Title#
,另存为htm文件,采集后可以打开文件查看对比。