完美:优采云·关键词网址采集器v2.2.3.2

优采云 发布时间: 2020-08-31 17:56

  优采云·关键字URL采集器v2.2.3.2

  

  输入关键字以采集每个搜索引擎的URL,域名,标题,描述和其他信息

  支持百度,搜狗,谷歌,必应,雅虎,360等. 每个关键字600到800,例如采集

  关键字可用于搜索引擎参数,就像在网页中输入要搜索的关键字一样,

  如果需要在百度的搜索效果URL中收录bbs关键字,请输入“关键字inurl: bbs”.

  保存模板可以引用的数据: #URL#

  采集的原创网址

  #Title#

  URL对应的页面标题

  #域名#

  原创URL的域名部分,例如“”中的“”

  #顶级域名#

  采用原创URL的顶级域部分,例如“”中的“”

  #Portrait#

  页面标题下方的一段描述性文字

  Excel导出:

  csv是文本表,可以通过Excel显示为多列和多行数据. 只需将保存模板设置为:

  “#URL#”,“#title#”,“#depic#”

  此格式为csv格式. 使用引号将每个项目括起来,用逗号将多个项目分开,然后保存扩展名并填写csv.

  问题要点:

  1. 为什么一段时间后无法采集?

  这可能会受到搜索引擎的更多限制. 通常,更改IP(例如使用VPN更改IP)意味着不断采集. 假设它没有改变,我们只能在搜索引擎撤消屏蔽后才能继续采集. 百度的屏蔽时间通常为半小时到几个小时.

  但是,即使验证码被阻止,该软件也会弹出手动输入的验证码(百度,Google)

  2. 为什么不同批次的关键字采集的效果具有重复的URL?

  尤其是仅引用#domain#或#top-level domain#之后,这种部分URL复制更为常见. 这也是正常现象,因为网站的每个内页可能收录许多主题,并且不同的关键字可能会采集网站的不同内页. 引用域名时,同一网站不同内页的域名效果自然是相同的.

  此外,软件中的自动重复数据删除功能基于此采集的结果用于内部重复数据删除. 重复数据删除未计划先前采集的效果. 假设两个集合的效果具有重复的URL,则可以将它们合并在一起,并使用软件删除重复(优采云·重复数据删除加扰器).

  3. 为什么采集的URL的主题与关键字不匹配?

  由于在引用#domain#或#top-level domain#后,将采用域名. 域名将打开网站的主页,采集的原创URL可能不是主页,而是网站的文章内页,其中收录关键字和主题,因此由搜索引擎输入并由软件人才采集. 但是获取域名后,您打开的域名首页不一定收录关键字.

  为了比较采集是否正确,您可以输入保存的模板: #标题#

  ,另存为htm文件,采集后可以打开文件检查比较.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线