java爬虫抓取网页数据( 目标网页用关键字在源代码中查找最终代码验证结果)

优采云发布时间: 2021-10-05 00:00

　　java爬虫抓取网页数据(

目标网页用关键字在源代码中查找最终代码验证结果)

　　概括

　　根据网站的结构和数据类型，做一个头条视频的爬虫，重点关注网站中数据的位置和抓取方法

　　并介绍一个类似的网站，简单解释一下数据抓取的方法

　　使用工具：python3.6 + pycharm + requests 库 + re 库

　　目标情况

　　这次我们的目标网站是Ajax加载的数据。首先打开网页后，直接使用浏览器自带的开发者工具（火狐），点击网页，然后将网页向下滑动，点击xhr，找到json数据，可以看到100条左右的内容

　　每个视频都有相关信息，我们只需要取出每个视频的url即可！然后去查看详情页

　　很容易就能找到视频的真实地址！复制地址，重新打开一个网页进行验证，确认地址正确，然后去源码查看地址是否存在

　　很明显，这个网站不是静态的网站，数据应该是存放在js文件中的，那我们怎么获取呢~？我需要分析js文件还是使用selenium？别担心，我偶然发现了这个

　　有没有发现网页源代码中存在URL中的关键字，虽然不完全相同，但是我们可以与上一个标签中的内容进行比较

　　可以确定，这里的值是网页渲染后出现在html标签中的值，在源码中有两个不同格式的视频地址！，很简单，我们来写代码吧！

　　代码

　　简单写一下，直接用requests请求内容，然后用re匹配，取出目标url

　　类似于网站

　　其实还有一个网站和这种情况很相似，那就是第二个视频，但是如果你想看更多的视频，还是需要打开客户端，所以我们就简单的把一个视频作为一个例子。抓住它的真实地址！具体过程就不一一讲解了，直接看结果，先看登陆页面

　　使用关键字在源代码中查找

　　最终代码

　　验证结果

　　以上文章如有错误，请在留言区指出。如果这个文章对你有用，你喜欢并转发吗？

0

2021-10-05

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册