赶集网采集场景采集教程示例
优采云 发布时间: 2021-08-19 07:09赶集网采集场景采集教程示例
采集scene
采集一城市赶集网每日短租房信息。
示例网址:
采集Field
标题、价格、房屋类型、面积、朝向、楼层、装修、小区名称、地铁、位置、房屋描述、位置1、location area等字段。
点击图片查看高分辨率大图,下方其他图片同理
采集Result
采集 结果可以导出为Excel、CSV、HTML、数据库等格式。导出到 Excel 示例:
教程说明
本文制作时间:201/19 优采云版本:V8.2.6
如因网页改版导致网址或步骤无效,目标数据不能为采集,请联系官方客服,我们会及时更正。
采集Steps
步骤一、打开网页
步骤二、创建【循环翻页】,使用采集多页数据
步骤三、创建【循环点击】,依次进入各个房屋详情页面,采集房信息
步骤四、Configuration采集Field
步骤五、Start采集
具体步骤如下:
步骤一、打开网页
在首页【输入框】输入目标网址,点击【开始采集】,优采云会自动打开网页。
特别说明:
一个。打开网页后,如果开始启动【自动识别】,请点击【不再自动识别】或【取消识别】将其关闭。因为本文不适合使用【自动识别】
B. 【自动识别】适用于自动识别网页列表、滚动、翻页。识别成功后可以直接启动采集获取数据。详情请点击查看【自动识别】教程
步骤二、创建【循环翻页】,使用采集多页数据
如果只有采集一页数据,可以跳过这一步。
如果需要翻页到采集多页数据:选择页面中的【下一页】按钮,在操作提示上点击【循环点击下一页】,创建一个【循环翻页】。
特别说明:
一个。创建完【循环翻页】后,优采云会自动点击【下一页】按钮进行翻页,从第一页、第二页……一直到最后一页。如果只需要采集特定的页面数据,可以在优采云中设置翻页的周期数。详情请点击查看翻页采集多页数据教程。
B.选择【下一页】范围时,选择的范围不同,弹出的提示也不同。如果最内层文字为【下一页】,*敏*感*词*操作提示框中弹出的提示为【循环点击下一页】。如果整个【下一页】按钮被选中,*敏*感*词*操作提示框中弹出的提示为【循环点击单个链接】。两个功能是一样的,都是实现翻页的。
步骤三、创建【循环点击】,依次进入各个房屋详情页面,采集房信息
通过以下步骤,实现【循环点击】的创建:
①点击房子的标题
②在操作提示框中点击【点击全选】
③点击【循环点击每个链接】
④ 设置超时时间,这里设置为5秒
特别说明:
一个。为什么经过上述步骤后可以建立循环列表步骤?详情请看采集List数据教程。
步骤四、Configuration采集Field
1、采集房屋详情页面中的字段
选择页面上的文字,然后在操作提示框中点击【采集this element text】。
可以通过这种方式提取文本字段。
在示例中,我们提取了标题、价格、房屋类型、面积、朝向、楼层、装修、社区名称、地铁、地址、房屋描述、地址1、location 区域等字段。
2、编辑字段
采集字段完成后,我们可以修改字段名称,删除多余的字段,调整字段的顺序等
步骤五、Start采集
1、 保存任务后,点击【采集】,选择【Start Local采集】。启动优采云后自动采集数据。
特别说明:
一个。 【本地采集】为采集使用自己的电脑,【云采集】使用优采云提供的云服务器采集,点击查看本地采集与云采集详细解释。
B.如果采集时弹出验证,则需要手动点击验证才能采集数据。
2、采集 完成后,选择合适的导出方式导出数据。支持导出到Excel、CSV、HTML、数据库等。这里导出到Excel。