根据关键词文章采集系统(优采云采集可按关键词泛采集通过搜索引擎(百度)搜索关键词 )
优采云 发布时间: 2021-10-03 10:18根据关键词文章采集系统(优采云采集可按关键词泛采集通过搜索引擎(百度)搜索关键词
)
优采云采集您可以按关键词泛泛采集通过搜索查询关键词文章、采集的搜索结果信息引擎(百度)链接的内容(系统会智能识别标题、文字、日期等),使用方法很简单,输入对应的关键词即可。
使用步骤:
1. 任务创建和配置:
任务创建入口在控制台左侧的【采集任务管理】列表中,点击【关键词泛采集(搜索引擎)】;
任务配置:
2. 数据处理配置(可选)
如果不需要处理文章上的数据,可以跳过这一步!
一、数据处理入口
点击【配置数据替换、填充、删除等】按钮,进入数据处理配置页面;
二、数据处理配置
此功能类似于详细信息提取器的配置。可以为每个字段设置删除、填充、替换、过滤功能,点击不同的字段可以切换对应的字段数据处理配置;
注意:该字段的数据处理设置保存后,对新的采集传入数据生效,之前保存的数据无效;
三、图片下载配置
关键词泛采集的原图可能无法正常显示(防盗链接)。如需图片请在“图片下载配置”中选择临时存储优采云或阿里云OSS或七牛存储;
3. 采集 结果:
默认 采集 字段:
标题、内容、发布时间、作者、标签、分类、描述、关键词、网站域名(x_id);
预防措施:
4. 百度高级搜索说明和技巧
关键词泛采集 支持百度高级搜索命令:
一、采集指定网站
采集指定网站的文章指令:站点:
采集在网站下指定关键词的文章指令(注意关键词和site指令之间有一个空格):关键词 site : 或网站: 关键词
例如采集博客园下的文章和php关键词:php站点: