网页数据抓取怎么写(拒绝代码,优采云采集器的多种玩法数据获取思路(组图) )
优采云 发布时间: 2022-03-14 23:17网页数据抓取怎么写(拒绝代码,优采云采集器的多种玩法数据获取思路(组图)
)
拒绝码,优采云采集器的各种玩法数据获取idea网页信息数据
网页开源资料,用电脑帮你批量搞定
从第一页到采集信息页的流程有一个大概的思路。
采集武器:优采云采集器
优采云采集器()是一个很棒的多线程内容发布程序采集
两个主要功能:采集Data + Post 数据
读取网页结构/编写采集规则/修改采集模板重新定义网页信息数据
信息数据/空间数据
学习阅读网页结构
链家网/安居客
推荐浏览器:chrome
阅读网页结构
第二页
第三页
…
以下列表是对应的不同编号
可以看出参数不同,所以我们用(*)来代替不同的东西。
接下来让我们在 优采云 中尝试一下:
打开链家,找到er手房
我们先来试试如何选择区域。采集(优采云采集器8.5)
优采云采集器8.5:链接:密码:unzi
当你点击第二页时,它会出现
pg2
当你点击第三页时,
pg3
打开房屋信息时,你会发现
只有数字在变
编写规则,“前后截断”
优采云开启后:会有新任务
第一:设置“起始网址”,可以在起始网址中找到多个二级网址,即主网址
下图为起始网址,可点击多个二级网址
(*) 要充当变量,必须点击鼠标,不要手动输入
设置cookies是为了帮助你反爬。点击“浏览器登录获取”
如果这里显示“cookie”,点击确定,如果弹出“脚本错误”或“证书撤销”等相关提示,直接关闭即可。
编写规则,“前后截断”
阅读代码和源码的两种方式
一:右键,勾选,开发者模式
二:chrome浏览器:按F12进入开发者模式:寻找唯一标记
如下图,左上角的箭头,是的,定位工具
开发者模式下的代码标签可以帮你找到对应代码在源码中的位置,比如这里的class="room"
查找唯一标识符
使用 ctrl+f
示例:在源码中查找Room 3和Hall 2的位置,可以按快捷键ctrl+f,然后找到div class*="room"
打开网页代码
如有12778元/平方米
将出现:12778元/平方米
此时要删除,需要过滤标签。
如下图,如果采集基本信息,
繁琐但需要的信息可以在一个标签中爬,最后在excel中处理
如果只截取前后标签,最后会有内容的论语,如下图所示
基本属性
此时需要替换内容:将采集的内容替换为你输入的内容,相当于excel中的替换
HTML 标签过滤:自动保存您的 html 标签并净化 采集 数据。
内容替换就是复制你显示的内容,把它们之间的两个空格,换成别的东西,这里是把1stguard和地板之间的空格:空格,换成其他符号,比如/。
结果如下: 结果可以用于excel数据清洗,简单。
如何查找经纬度数据
(一般网页上显示的有百度地图和高德地图,通常有经度和纬度,但是找不到)
或者,搜索 lat 或 position
或者直接找地图的代码,(看看是不是这个地方)
百度说,
因为是百度地图,直接搜索,百度地图坐标选择器
搜索街区的地名,
打开源码后,使用ctrl+f搜索你所在城市对应的经度,到小数点前一位。比如上海人民广场的经度是:121.47982,搜索121.1即可。能
由于一个城市跨越到京都的距离不是很大,所以这个搜索一般可以覆盖小区的经纬度。如果能找到,说明网页中的经纬度信息
发布规则,创建模板
CSV模板需要与第二步中采集内容规则中的所有签名完全一致,否则会报错。用记事本打开
CSV模板必须是UTF-8编码的,否则会出现乱码数据爬出来,可以用记事本打开CSV模板另存为,在另存为中可以看到当前编码,如果不是utf-8,将其更改为 utf-8
模板名称和任务名称尽量不要相同
下一步是启动采集,这里的三个tick都要选中,
如果修改任务重新开始爬取,需要删除已有的数据库和URL,否则软件会提示你重复