浏览器抓取网页(如何使用java就能对网页数据进行爬取(图) )

优采云 发布时间: 2021-12-28 00:17

  浏览器抓取网页(如何使用java就能对网页数据进行爬取(图)

)

  今天,我将介绍如何使用java来抓取网页数据。本文将首先讲解如何分析对应的网页。

  以下是将要使用的技术或需要了解的技术:

  java(用来写爬虫程序)、Jsoup(java中解析html页面的工具)、html(一种识别语言,只要懂就好)、谷歌浏览器(用来浏览网页,也可以用其他浏览器)

  获取需求

  获取百度排名中的排名数据

  打开网页进行分析1.浏览网页

  下面是我们今天需要获取数据的网页,先打开

  

  从上面的截图我们可以看到,左上角是我们需要的数据,但是数据目前是嵌入在网页中的,所以我们需要一步步解析网页,得到一组结构化的数据。

  2.开放开发者工具

  通过使用快捷键 F12 或在页面上右击选择>检查(其他浏览器可能有不同的快捷键或选项)

  

  然后,我们可以看到浏览器中会出现开发者工具面板(根据默认设置,面板可能会出现在右侧或其他地方)

  

  接下来,我们阅读相关代码(什么?阅读代码?可能很多人看完之后会吐槽,这么多代码,眼睛可能要看看了),其实还有一个比较简单的定位热点排名的方法列表的代码。

  3.定位相关代码

  有3种方法可以直接定位到你想看的代码位置:

  在热点列表顶部右击直接选择check,可以看到开发者工具中的代码直接定位到相关代码

  

  我们可以通过将鼠标悬停在相关代码上来直观地看到代码显示的区域

  

  点击开发者工具左上角的按钮,然后点击页面的相关区域(今天我们需要爬取热点排名数据,所以选择了热点排名区域),可以看到里面的代码右边的开发者工具直接选择后定位到指定的代码

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线