网页源代码抓取工具(任选一处供爬虫爬取源码)
优采云 发布时间: 2022-03-02 10:13网页源代码抓取工具(任选一处供爬虫爬取源码)
包裹的块级结构,这个结构有class关键字,class值为“neir_neir”。我们并不完全理解这些代码的含义。但是我们知道,有了这些唯一的关键字,我们就可以在源代码中找到这个位置,进一步定位到想要的信息。扩张
结构,我们看到如下源码:
惊喜!我们没有找到页面显示的公司名称,就在
在标签后面发现了一条注释(浏览器不解析,仅供人类阅读,格式为 )。公司名称存储在此注释中。可以猜到href(这个关键字后引出一个URL——universal resource locator,统一资源定位器,俗称URL)一定会引到公司的页面。
网址。访问网址后(添加如图所示的网址后合成)发现确实如此,我们来到了公司页面的首页。
我们想进一步了解公司的介绍页面。点击公司介绍,我们跳转到介绍页面,发现公司介绍页面网址是。URL 中只有一项 shopname=FS。这样我们就可以看到公司介绍页面URL的命名规则了。公司介绍页面的URL为公司代码/介绍,公司代码为评论中URL中shopname关键字后引导的内容。
当然,即使没有这个注释,我们仍然可以找到我们需要的资源。由于我们在网页上看到了公司的名称,并且可以通过点击超链接跳转到公司的页面,这意味着公司的名称和公司页面的URL必须记录在某个地方。因为评论中的内容没有被浏览器解析,所以我们在网页中看到的不可能是评论中的内容。
阅读源代码,发现信息存储在注释下方内联元素的超链接中(不需要专有名词)。href给出了公司页面URL,汉字明显是公司名称。我们需要的信息存储在两个不同的位置,我们可以选择一个供爬虫爬取。
我们已经到了公司介绍页面,通过箭头工具,我们可以在源代码中找到如上所示的公司介绍文字。解析 HTML 中的信息总是非常简单的。定位如下:
介绍信息收录在
之中。(这里有个坑,后面的公司介绍信息不都是这种形式的,有的直接包裹在
中间。这就需要我们根据情况进行调试。)
这样,我们就彻底完成了黄页第一个公司名称的定位和介绍信息的定位。之后查看公司,发现每个公司都有相同的 HTML 结构。这很容易想到,每个公司在网页上似乎都有相同的结构,源代码也必须有规律性。这样,我们就弄清楚了如何找到一家公司的名称和介绍页面,而且查找其他公司的信息也没有问题。
最后,即使我们没有编程基础,像天书一样阅读HTML源代码,我们也可以使用开发者工具的箭头工具来定位网页元素在源代码中的位置,并阅读源代码找到我们想要的信息。确定这个信息的位置,找到我们要爬取的信息的存储规则,分析HTML,即使成功完成。
(待续)
爬虫作为企业黄页的例子