关键词文章采集工具(百度、搜狗、谷歌支持一页100个结果为什么会存在部分网址重复？)

优采云发布时间: 2022-03-27 09:28

　　指示

　　【搜索引擎】百度、搜狗、谷歌支持每页100条结果，勾选“每页10条结果”为10条结果

　　[仅采集指定排名]例如，如果您希望在采集中排名2、3和5的URL，则输入“2|3|5”（不包括引号），这未启用所有选项都是采集。

　　[输入关键词的列表] 每行一行关键词

　　[采集Pages] 设置为 0，采集所有搜索页面

　　【每页页数】不同的搜索引擎对每页的页数有不同的限制。百度最多50，谷歌搜狗100，其他基本10或20

　　【谷歌必应英文站】勾选使用谷歌必应全球英文站搜索，否则为中文站搜索。

　　【Google Bing No Waiting】勾选让这3个引擎不等待采集，即高速采集，否则每个采集页面会自动等待一定时间。之所以添加这个选项，是因为最近（2015年8月8日）测试这三个引擎来设置搜索间隔似乎没什么用。必应测试了十几个关键词没有等待搜索也没有出现验证码，所以无法做验证码处理。不过，谷歌在验证码的开头只出现了几次，等待大量搜索后也没有出现验证码，但谷歌已经可以自动判断出现了验证码，让用户自行删除。

　　【保存目录】采集的结果会保存在这个目录下，保存的文件名为：search engine_关键词

　　【重要】右击保存目录的选择按钮“..”，定位到目录

　　常见问题

　　1.为什么采集过了一段时间，就不能采集了？

　　这可能会受到搜索引擎的采集更多限制。一般可以通过更换IP继续采集，如果不行，只有在搜索引擎解封采集后才能继续。百度的拦截时间一般是半小时到几个小时。

　　不过即使现在验证码被屏蔽了，软件也会弹出手动输入的验证码（百度、谷歌）

　　2.为什么不同批次的结果中有些URL重复关键词采集？

　　尤其是在仅提及#域名#或#顶级域名#之后，这种部分URL重复的情况很多。这也是正常的，因为每个网站的内页可能收录很多主题，不同的关键词可能采集对应网站的不同内页，在引用的时候domain name ，同一个网站的不同内页的域名结果自然是一样的。

　　另*敏*感*词*内。如果两个采集的结果中有部分URL重复，可以合并使用软件去重。

　　3.为什么采集返回的 URL 的主题与关键词不同？

　　是因为引用了#域名#或者#顶级域名#后，取了域名部分，域名打开网站的首页，采集@的原网址> 可能不是主页，而是网站。@网站的某篇文章文章的内页，内页收录关键词的主题，所以被搜索引擎收录搜索，软件只能由采集获得。但是，获取域名后，您打开的域名首页可能不收录关键词。

　　为了比较采集是否正确，可以在保存模板中输入：保存为htm文件，采集后可以自行打开文件查看比较。

0

2022-03-27

关键词文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词文章采集工具(百度、搜狗、谷歌支持一页100个结果为什么会存在部分网址重复？)

0 个评论

发起人

AI时代内容工厂

关键词文章采集工具(百度、搜狗、谷歌支持一页100个结果为什么会存在部分网址重复？)

0 个评论

发起人

相关问题