java爬虫抓取网页数据( 目标网页用关键字在源代码中查找最终代码验证结果)
优采云 发布时间: 2021-10-05 00:00java爬虫抓取网页数据(
目标网页用关键字在源代码中查找最终代码验证结果)
概括
根据网站的结构和数据类型,做一个头条视频的爬虫,重点关注网站中数据的位置和抓取方法
并介绍一个类似的网站,简单解释一下数据抓取的方法
使用工具:python3.6 + pycharm + requests 库 + re 库
目标情况
这次我们的目标网站是Ajax加载的数据。首先打开网页后,直接使用浏览器自带的开发者工具(火狐),点击网页,然后将网页向下滑动,点击xhr,找到json数据,可以看到100条左右的内容
每个视频都有相关信息,我们只需要取出每个视频的url即可!然后去查看详情页
很容易就能找到视频的真实地址!复制地址,重新打开一个网页进行验证,确认地址正确,然后去源码查看地址是否存在
很明显,这个网站不是静态的网站,数据应该是存放在js文件中的,那我们怎么获取呢~?我需要分析js文件还是使用selenium?别担心,我偶然发现了这个
有没有发现网页源代码中存在URL中的关键字,虽然不完全相同,但是我们可以与上一个标签中的内容进行比较
可以确定,这里的值是网页渲染后出现在html标签中的值,在源码中有两个不同格式的视频地址!,很简单,我们来写代码吧!
代码
简单写一下,直接用requests请求内容,然后用re匹配,取出目标url
类似于 网站
其实还有一个网站和这种情况很相似,那就是第二个视频,但是如果你想看更多的视频,还是需要打开客户端,所以我们就简单的把一个视频作为一个例子。抓住它的真实地址!具体过程就不一一讲解了,直接看结果,先看登陆页面
使用关键字在源代码中查找
最终代码
验证结果
以上文章如有错误,请在留言区指出。如果这个文章对你有用,你喜欢并转发吗?