采集的文章和关键词不符(优采云关键词网址采集器的功能)
优采云 发布时间: 2021-10-14 06:20优采云关键词URL采集器是一个可以根据特定的关键词快速搜索百度、360、搜狗、谷歌和采集的URL,它还可以将搜索结果的 URL 和标题保存到计算机。
关键词URL采集器的作用是帮助用户挖掘长尾词、采集外部链接、采集例子等,可以分析竞争。
【数据参考说明】
#URL#:采集的原创URL
#Title#:URL对应的页面标题
#Domain#:原创URL的域名部分,如“”中的“”
#顶级域名#:取原网址的顶级域名部分,如“”中的“”
#Description#:页面标题下方的一段描述性文字
【常见问题】
为什么我在采集一段时间后不能采集?
这可能是采集受搜索引擎限制较多,重启软件继续采集,如果不改,只能在搜索引擎解封后继续采集。百度的屏蔽时间一般是半小时到几个小时。
但是,即使验证码被屏蔽,软件也会弹出手动输入的验证码(百度、谷歌)
为什么关键词采集的不同批次的结果中有一些重复的URL?
尤其是只引用#domain#或#top-level domain#后,这种部分URL重复的情况更为常见。这也是正常的,因为网站的每个内页可能收录很多主题,而不同的关键词可能会采集去到网站的不同内页,当域name是引用的,同一个网站的不同内页的域名结果自然是一样的。
另*敏*感*词*内。如果两个采集的结果中有重复的URL,可以合并在一起,用软件去重(优采云·text deduplication scrambler)。
为什么采集返回的URL主题与关键词不匹配?
这是因为在引用#domain# 或#top-level domain# 后,取的是域名部分。域名打开网站的首页,采集的原网址可能不是首页,而是网站文章的文章内页,内页收录关键词主题,可以通过搜索引擎收录和软件采集获取。但是获取域名后,您打开的域名首页可能不收录关键词。
为了比较采集是否正确,可以在保存模板中输入:,另存为htm文件,采集后可以打开文件查看比较。
【更新内容】
1. 转型支持OEM代理
2.添加必应和雅虎采集;多重变化
3. 将 Bing、Yahoo、Google 更改为 https 请求,以避免 采集 在某些情况下失败。
4.添加百度新闻采集。
5.一些更新。
6. 添加了 关键词 分割线选项。
7.修复百度最新修改无法采集的问题。
8.修复Bing修改采集失效问题;修复部分电脑无法使用xmlhttps的问题(涉及谷歌、必应、雅虎)。