关键词文章采集工具(百度、搜狗、谷歌支持一页100个结果为什么会存在部分网址重复?)
优采云 发布时间: 2022-03-27 09:28关键词文章采集工具(百度、搜狗、谷歌支持一页100个结果为什么会存在部分网址重复?)
指示
【搜索引擎】百度、搜狗、谷歌支持每页100条结果,勾选“每页10条结果”为10条结果
[仅采集指定排名]例如,如果您希望在采集中排名2、3和5的URL,则输入“2|3|5”(不包括引号),这未启用所有选项都是 采集。
[输入 关键词 的列表] 每行一行 关键词
[采集Pages] 设置为 0,采集 所有搜索页面
【每页页数】不同的搜索引擎对每页的页数有不同的限制。百度最多50,谷歌搜狗100,其他基本10或20
【谷歌必应英文站】勾选使用谷歌必应全球英文站搜索,否则为中文站搜索。
【Google Bing No Waiting】勾选让这3个引擎不等待采集,即高速采集,否则每个采集页面会自动等待一定时间。之所以添加这个选项,是因为最近(2015年8月8日)测试这三个引擎来设置搜索间隔似乎没什么用。必应测试了十几个关键词没有等待搜索也没有出现验证码,所以无法做验证码处理。不过,谷歌在验证码的开头只出现了几次,等待大量搜索后也没有出现验证码,但谷歌已经可以自动判断出现了验证码,让用户自行删除。
【保存目录】采集的结果会保存在这个目录下,保存的文件名为:search engine_关键词
【重要】右击保存目录的选择按钮“..”,定位到目录
常见问题
1.为什么采集过了一段时间,就不能采集了?
这可能会受到搜索引擎的采集更多限制。一般可以通过更换IP继续采集,如果不行,只有在搜索引擎解封采集后才能继续。百度的拦截时间一般是半小时到几个小时。
不过即使现在验证码被屏蔽了,软件也会弹出手动输入的验证码(百度、谷歌)
2.为什么不同批次的结果中有些URL重复关键词采集?
尤其是在仅提及#域名#或#顶级域名#之后,这种部分URL重复的情况很多。这也是正常的,因为每个网站的内页可能收录很多主题,不同的关键词可能采集对应网站的不同内页,在引用的时候domain name ,同一个网站的不同内页的域名结果自然是一样的。
另*敏*感*词*内。如果两个采集的结果中有部分URL重复,可以合并使用软件去重。
3.为什么 采集 返回的 URL 的主题与 关键词 不同?
是因为引用了#域名#或者#顶级域名#后,取了域名部分,域名打开网站的首页,采集@的原网址> 可能不是主页,而是 网站。@网站的某篇文章文章的内页,内页收录关键词的主题,所以被搜索引擎收录搜索,软件只能由 采集 获得。但是,获取域名后,您打开的域名首页可能不收录关键词。
为了比较采集是否正确,可以在保存模板中输入:保存为htm文件,采集后可以自行打开文件查看比较。