抓取网页数据 php(最简单的爬虫URL是什么?如何解决前端问题)
优采云 发布时间: 2022-01-07 04:14抓取网页数据 php(最简单的爬虫URL是什么?如何解决前端问题)
1.1 最简单的爬虫
@我的老师:崔杰克
PS:我是看崔老师的文章学习爬虫的,这也为我以后的爬虫打开了大门。
1.1.1 什么是网址?
在学习爬虫之前,我们要知道,我们平时所说的网址,其实就是所谓的网址。
即:统一资源定位器(Uniform Resource Locator)
它的格式通常是:
协议://主机名[:端口]/资源路径/参数
但我们知道的是,通常我们看到的 URL 似乎并不那么完整。似乎隐藏着什么。对!是的,有些东西是隐藏的。(你可以使用谷歌浏览器的网络来抓包,抓到所有的数据。)
例如:
其实里面隐藏了一个很明显的东西,那就是端口!http协议的默认端口是80,https协议的默认端口是443。
:80
:443
所以说到这里,我们不得不回到正题。我们谈到了 URL,但是 URL 与网络爬虫有什么关系?
答:关系非常非常大!我们的网络爬虫就是抓取网络上的数据!获取我们可以使用的数据!互联网上最直接的数据获取方式是网页。也就是一一反馈给我们的资源文件。如果我们想要得到这个反馈,我们必须在浏览器中输入这个 URL。
这类似于你拿到地址(URL),然后我们根据这个地址去寻找资源文件,找到之后就可以读取数据了!甚至相关的网页操作。
1.1.2 数据在哪里?
我们都知道,每次访问网页并获得反馈时,数据就在我们眼前。但是我总觉得有一些不足。
学过前端知识的应该都知道,网页呈现给我们的效果是浏览器渲染出来的!
事实上,它们本质上也是代码。. .
即使是从来没有学过前端的人,其实也能发现这个秘密。也就是我们在网页上右键,点击查看源码。
我们将以代码的形式看到一个。突然,出现在我们面前。
所以我说数据就在眼前,但我总觉得有一些不足。造成这种情况的主要原因是渲染效果如此之好。这样你就不能以某种方式直接获得它。我觉得我想得到它,但它很难。. .
所以这个显示代码看起来有点丑陋和非结构化。我们如何解决?
答:右击查看
会有这么漂亮的工具栏,里面有很多工具。第一个工具用于查看代码。它是一个结构化查询。您也可以直接对网页进行相关更改。只要你懂前端代码。.
1.1.3个请求库
在cmd中,使用以下命令安装requests:
pip 安装请求
现在我们知道了,它的所有数据实际上都在源代码中。那么我们应该想办法得到这个源代码。
即安装requests库,使用get方法访问网页。访问后会自动在text属性中安装源码。
import requests
req = requests.get("http://www.baidu.com")
req.encoding = 'utf-8'
print(req.text)
utf-8是通用编码,可以编码几乎大多数国家的语言。
如果你不使用这种编码,你可能会发现你阅读的源代码很多地方都是乱码。
这样,我们就爬下了我们需要的源代码。
这个过程其实就是最简单的爬虫。因为爬取到源代码后,我们只需要对其进行重新正则定位和字符串相关处理即可。获取准确的数据。这是一个爬虫。. .
⭐更新列表⭐
Python3网络爬虫01
Python3网络爬虫02