抓取网页数据 php(最简单的爬虫URL是什么？如何解决前端问题)

优采云发布时间: 2022-01-07 04:14

　　1.1 最简单的爬虫

　　@我的老师：崔杰克

　　PS：我是看崔老师的文章学习爬虫的，这也为我以后的爬虫打开了大门。

　　1.1.1 什么是网址？

　　在学习爬虫之前，我们要知道，我们平时所说的网址，其实就是所谓的网址。

　　即：统一资源定位器（Uniform Resource Locator）

　　它的格式通常是：

　　协议：//主机名[:端口]/资源路径/参数

　　但我们知道的是，通常我们看到的 URL 似乎并不那么完整。似乎隐藏着什么。对！是的，有些东西是隐藏的。（你可以使用谷歌浏览器的网络来抓包，抓到所有的数据。）

　　例如：

　　其实里面隐藏了一个很明显的东西，那就是端口！http协议的默认端口是80，https协议的默认端口是443。

　　:80

　　:443

　　所以说到这里，我们不得不回到正题。我们谈到了 URL，但是 URL 与网络爬虫有什么关系？

　　答：关系非常非常大！我们的网络爬虫就是抓取网络上的数据！获取我们可以使用的数据！互联网上最直接的数据获取方式是网页。也就是一一反馈给我们的资源文件。如果我们想要得到这个反馈，我们必须在浏览器中输入这个 URL。

　　这类似于你拿到地址（URL），然后我们根据这个地址去寻找资源文件，找到之后就可以读取数据了！甚至相关的网页操作。

　　1.1.2 数据在哪里？

　　我们都知道，每次访问网页并获得反馈时，数据就在我们眼前。但是我总觉得有一些不足。

　　学过前端知识的应该都知道，网页呈现给我们的效果是浏览器渲染出来的！

　　事实上，它们本质上也是代码。. .

　　即使是从来没有学过前端的人，其实也能发现这个秘密。也就是我们在网页上右键，点击查看源码。

　　我们将以代码的形式看到一个。突然，出现在我们面前。

　　所以我说数据就在眼前，但我总觉得有一些不足。造成这种情况的主要原因是渲染效果如此之好。这样你就不能以某种方式直接获得它。我觉得我想得到它，但它很难。. .

　　所以这个显示代码看起来有点丑陋和非结构化。我们如何解决？

　　答：右击查看

　　会有这么漂亮的工具栏，里面有很多工具。第一个工具用于查看代码。它是一个结构化查询。您也可以直接对网页进行相关更改。只要你懂前端代码。.

　　1.1.3个请求库

　　在cmd中，使用以下命令安装requests：

　　pip 安装请求

　　现在我们知道了，它的所有数据实际上都在源代码中。那么我们应该想办法得到这个源代码。

　　即安装requests库，使用get方法访问网页。访问后会自动在text属性中安装源码。

　　import requests

req = requests.get("http://www.baidu.com")

req.encoding = 'utf-8'

print(req.text)

　　utf-8是通用编码，可以编码几乎大多数国家的语言。

　　如果你不使用这种编码，你可能会发现你阅读的源代码很多地方都是乱码。

　　这样，我们就爬下了我们需要的源代码。

　　这个过程其实就是最简单的爬虫。因为爬取到源代码后，我们只需要对其进行重新正则定位和字符串相关处理即可。获取准确的数据。这是一个爬虫。. .

　　⭐更新列表⭐

　　Python3网络爬虫01

　　Python3网络爬虫02

0

2022-01-07

抓取网页数据 php

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据 php(最简单的爬虫URL是什么？如何解决前端问题)

0 个评论

发起人

AI时代内容工厂

抓取网页数据 php(最简单的爬虫URL是什么？如何解决前端问题)

0 个评论

发起人

相关问题