前程无忧网站内容(网页分析使用Chrome浏览器信息的结构框架(一)(图))

优采云 发布时间: 2021-10-25 00:21

  前程无忧网站内容(网页分析使用Chrome浏览器信息的结构框架(一)(图))

  文章内容

  未来无忧网站

  小远想了解全国爬虫开发工程师的招聘需求,进行横向对比分析。*敏*感*词*招聘网站(如)有成百上千的职位需求。显然,网上的招聘信息太多了。

  所以,

  在爬虫上,

  干燥!

  目标,“无忧”爬虫帖子信息(网址:)

  第一步:找出你需要的东西

  

  

  Step2:进行网页分析

  用Chrome浏览器打开网页,发现第一页到第十三页的URL(统一资源定位符,即网络地址)分别对应“”到“”。由于网页布局是一样的,所以只需要完成所有的信息,一个循环一个接一个地写就可以爬取。

  查看页面源代码

  右键单击 -> 检查

  

  或者直接Ctrl+Shift+C,选中要检查的内容,可以在源码中快速定位到要检查的内容的位置,个人推荐这个方法,

  

  以防万一,你需要看看这个网页在服务器上获取数据的方式是GET还是POST。一般来说,不涉及登录信息或其他验证步骤的网页都是通过GET获取的,这里再多解释一下。详细说一下吧。(关于GET、POST等HTML相关知识请自行百度)

  

  由于我们需要的内容是由一个小单元组成的(在这个例子中,一个职位有自己的属性信息,比如“职位名称”、“公司”、“薪资待遇”等),所以取茧后,我们需要组织一个网页所需信息的结构框架

  大致如下两图所示:

  

  

  Step3:使用XPath Helper插件写出所需信息的大概Xpath路径

  关于这个插件,博主在之前的文章中提到过,不再赘述

  博主这里找到的Xpath路径是

  //div[@class="detlist gbox"]/div

  

  具体来说,本节取下后需要做什么,需要在程序中完成,后续文章会更新。

  下一课已更新

  概括

  分析网页三部曲:

  1、找到需要获取的网页内容,查看获取方式(GET、POST)

  2、查看源码,了解其网页框架

  3、 通过插件快速确定所需内容的Xpath路径。

  如果觉得博主文笔不错,欢迎点赞、评论、关注。您的来访是博主更新的不竭源泉文章!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线