前程无忧网站内容(网页分析使用Chrome浏览器信息的结构框架(一)(图))

优采云发布时间: 2021-10-25 00:21

　　文章内容

　　未来无忧网站

　　小远想了解全国爬虫开发工程师的招聘需求，进行横向对比分析。*敏*感*词*招聘网站（如）有成百上千的职位需求。显然，网上的招聘信息太多了。

　　所以，

　　在爬虫上，

　　干燥！

　　目标，“无忧”爬虫帖子信息（网址：）

　　第一步：找出你需要的东西

　　Step2：进行网页分析

　　用Chrome浏览器打开网页，发现第一页到第十三页的URL（统一资源定位符，即网络地址）分别对应“”到“”。由于网页布局是一样的，所以只需要完成所有的信息，一个循环一个接一个地写就可以爬取。

　　查看页面源代码

　　右键单击 -> 检查

　　或者直接Ctrl+Shift+C，选中要检查的内容，可以在源码中快速定位到要检查的内容的位置，个人推荐这个方法，

　　以防万一，你需要看看这个网页在服务器上获取数据的方式是GET还是POST。一般来说，不涉及登录信息或其他验证步骤的网页都是通过GET获取的，这里再多解释一下。详细说一下吧。（关于GET、POST等HTML相关知识请自行百度）

　　由于我们需要的内容是由一个小单元组成的（在这个例子中，一个职位有自己的属性信息，比如“职位名称”、“公司”、“薪资待遇”等），所以取茧后，我们需要组织一个网页所需信息的结构框架

　　大致如下两图所示：

　　Step3：使用XPath Helper插件写出所需信息的大概Xpath路径

　　关于这个插件，博主在之前的文章中提到过，不再赘述

　　博主这里找到的Xpath路径是

　　//div[@class="detlist gbox"]/div

　　具体来说，本节取下后需要做什么，需要在程序中完成，后续文章会更新。

　　下一课已更新

　　概括

　　分析网页三部曲：

　　1、找到需要获取的网页内容，查看获取方式（GET、POST）

　　2、查看源码，了解其网页框架

　　3、通过插件快速确定所需内容的Xpath路径。

　　如果觉得博主文笔不错，欢迎点赞、评论、关注。您的来访是博主更新的不竭源泉文章！

0

2021-10-25

前程无忧网站内容

0 个评论

要回复文章请先登录或注册