网页数据抓取怎么写(拒绝代码,优采云采集器的多种玩法数据获取思路(组图) )

优采云 发布时间: 2022-03-14 23:17

  网页数据抓取怎么写(拒绝代码,优采云采集器的多种玩法数据获取思路(组图)

)

  拒绝码,优采云采集器的各种玩法数据获取idea网页信息数据

  网页开源资料,用电脑帮你批量搞定

  从第一页到采集信息页的流程有一个大概的思路。

  

  

  采集武器:优采云采集器

  优采云采集器()是一个很棒的多线程内容发布程序采集

  两个主要功能:采集Data + Post 数据

  

  读取网页结构/编写采集规则/修改采集模板重新定义网页信息数据

  信息数据/空间数据

  学习阅读网页结构

  链家网/安居客

  推荐浏览器:chrome

  

  阅读网页结构

  

  

  第二页

  第三页

  …

  以下列表是对应的不同编号

  

  

  可以看出参数不同,所以我们用(*)来代替不同的东西。

  接下来让我们在 优采云 中尝试一下:

  打开链家,找到er手房

  

  

  我们先来试试如何选择区域。采集(优采云采集器8.5)

  优采云采集器8.5:链接:密码​​:unzi

  当你点击第二页时,它会出现

  pg2

  当你点击第三页时,

  pg3

  

  打开房屋信息时,你会发现

  只有数字在变

  编写规则,“前后截断”

  优采云开启后:会有新任务

  第一:设置“起始网址”,可以在起始网址中找到多个二级网址,即主网址

  

  下图为起始网址,可点击多个二级网址

  

  (*) 要充当变量,必须点击鼠标,不要手动输入

  

  

  设置cookies是为了帮助你反爬。点击“浏览器登录获取”

  

  如果这里显示“cookie”,点击确定,如果弹出“脚本错误”或“证书撤销”等相关提示,直接关闭即可。

  编写规则,“前后截断”

  阅读代码和源码的两种方式

  一:右键,勾选,开发者模式

  

  二:chrome浏览器:按F12进入开发者模式:寻找唯一标记

  如下图,左上角的箭头,是的,定位工具

  开发者模式下的代码标签可以帮你找到对应代码在源码中的位置,比如这里的class="room"

  查找唯一标识符

  使用 ctrl+f

  示例:在源码中查找Room 3和Hall 2的位置,可以按快捷键ctrl+f,然后找到div class*="room"

  

  打开网页代码

  

  如有12778元/平方米

  将出现:12778元/平方米

  此时要删除,需要过滤标签。

  

  如下图,如果采集基本信息,

  

  繁琐但需要的信息可以在一个标签中爬,最后在excel中处理

  如果只截取前后标签,最后会有内容的论语,如下图所示

   基本属性

  

  此时需要替换内容:将采集的内容替换为你输入的内容,相当于excel中的替换

  HTML 标签过滤:自动保存您的 html 标签并净化 采集 数据。

  内容替换就是复制你显示的内容,把它们之间的两个空格,换成别的东西,这里是把1stguard和地板之间的空格:空格,换成其他符号,比如/。

  

  结果如下: 结果可以用于excel数据清洗,简单。

  

  如何查找经纬度数据

  (一般网页上显示的有百度地图和高德地图,通常有经度和纬度,但是找不到)

  

  或者,搜索 lat 或 position

  或者直接找地图的代码,(看看是不是这个地方)

  

  百度说,

  因为是百度地图,直接搜索,百度地图坐标选择器

  搜索街区的地名,

  打开源码后,使用ctrl+f搜索你所在城市对应的经度,到小数点前一位。比如上海人民广场的经度是:121.47982,搜索121.1即可。能

  由于一个城市跨越到京都的距离不是很大,所以这个搜索一般可以覆盖小区的经纬度。如果能找到,说明网页中的经纬度信息

  

  

  发布规则,创建模板

  CSV模板需要与第二步中采集内容规则中的所有签名完全一致,否则会报错。用记事本打开

  CSV模板必须是UTF-8编码的,否则会出现乱码数据爬出来,可以用记事本打开CSV模板另存为,在另存为中可以看到当前编码,如果不是utf-8,将其更改为 utf-8

  模板名称和任务名称尽量不要相同

  下一步是启动采集,这里的三个tick都要选中,

  

  如果修改任务重新开始爬取,需要删除已有的数据库和URL,否则软件会提示你重复

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线