关键词采集词(入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持)
优采云 发布时间: 2021-10-24 01:16关键词采集词(入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持)
输入关键字采集各搜索引擎的网址、域名、标题、描述等信息
支持百度、搜狗、谷歌、必应、雅虎、360等每个关键词600到800,采集示例
关键词可以收录搜索引擎参数,就像在网页上输入关键词搜索一样,
如果百度搜索结果网址必须收录bbs的关键词,则输入“关键词 inurl:bbs”。
保存模板可以引用的数据:
#网址#
采集 的原创网址
#标题#
URL对应的页面标题
#域名#
原创URL的域名部分,如“”中的“”
#顶级域名#
取原创URL的顶级域部分,如“”中的“”
#描述#
页面标题下方的一段描述性文字
Excel导出:
CSV是一个文本表格,Excel可以显示为多列多行数据。只需在保存模板中设置为:
“#URL#”、“#title#”、“#描述#”
此格式为 csv 格式。用引号将每个项目括起来,多个项目用逗号隔开,然后保存扩展名并填写csv。
问题重点:
1.为什么一段时间后不能采集采集?
可能是采集受搜索引擎限制比较多。一般可以通过更改IP来继续采集(如使用VPN更改IP)。如果不改,只能在搜索引擎解封后继续采集。百度的屏蔽时间通常是半小时到几个小时。
但是,即使验证码被屏蔽,软件也会弹出手动输入的验证码(百度、谷歌)
2.不同批次的关键词采集 为什么结果中有一些重复的网址?
尤其是只引用#domain#或#top-level domain#后,这种部分URL重复的情况更为常见。这也是正常的,因为网站的每个内页可能收录很多主题,而不同的关键词可能会采集去到网站的不同内页,当域name是引用的,同一个网站的不同内页的域名结果自然是一样的。
另*敏*感*词*内。如果两个采集的结果中有重复的URL,可以合并在一起,用软件去重(优采云·text deduplication scrambler)。
3.为什么采集返回的URL主题与关键词不匹配?
因为在引用#domain#或#top-level domain#后,取的是域名部分。域名打开网站的首页,采集的原网址可能不是首页,而是网站文章的文章内页,内页收录关键词主题,可以通过搜索引擎收录和软件采集获取。但是获取域名后,您打开的域名首页可能不收录关键词。
为了比较采集是否正确,可以在保存的模板中输入:#Title#
,另存为htm文件,采集后可以打开文件查看对比。
版本差异 使用步骤 升级记录内容 查看此隐藏内容 仅限VIP查看 升级VIP