抓取网页新闻( 关于利用python实现最简单的网页爬虫的相关资料介绍)
优采云 发布时间: 2021-10-17 08:29抓取网页新闻(
关于利用python实现最简单的网页爬虫的相关资料介绍)
python爬虫实战最简单的网络爬虫教程
更新时间:2017-08-13 10:08:49 作者:xiaomi
当我们在互联网上浏览网页时,我们经常会看到一些漂亮的图片。我们希望将这些图片保存和下载,或者用作桌面壁纸或设计材料。下面的文章文章就在这里给大家介绍一个最简单的使用python的网络爬虫。有需要的朋友可以参考。让我们来看看。
前言
网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐)是按照某些规则自动抓取万维网上信息的程序或脚本。最近对python爬虫产生了浓厚的兴趣。我在这里分享我的学习路径。欢迎您提出建议。我们相互交流,共同进步。话不多说,一起来看看详细介绍:
1.开发工具
我使用的工具是sublime text3,它简短而强大(可能男人不喜欢这个词)让我着迷。推荐大家使用,当然如果你的电脑配置好,pycharm可能更适合你。
推荐用sublime text3搭建python开发环境查看这个文章:
[Sublime搭建python开发环境][]
2.爬虫介绍
爬虫,顾名思义,就像蠕虫一样,在大互联网、互联网上爬行。这样,我们就可以得到我们想要的。
既然要在互联网上爬取,就需要了解URL、合法名称“Uniform Resource Locator”、昵称“Link”。其结构主要由三部分组成:
(1)Protocol:比如我们网站常用的HTTP协议。
(2)Domain name or IP address:域名,如:,IP地址,即域名解析后对应的IP。
(3) 路径:即目录或文件等
3.urllib 开发最简单的爬虫
(1)urllib 简介
模块介绍
urllib.error
由 urllib.request 引发的异常类。
urllib.parse
将 URL 解析为组件或从组件组装它们。
urllib.request
用于打开 URL 的可扩展库。
urllib.response
urllib 使用的响应类。
urllib.robotparser
加载 robots.txt 文件并回答有关其他 URL 可提取性的问题。
(2)开发最简单的爬虫
百度首页简洁大方,非常适合我们的爬虫。
爬虫代码如下:
from urllib import request
def visit_baidu():
URL = "http://www.baidu.com"
# open the URL
req = request.urlopen(URL)
# read the URL
html = req.read()
# decode the URL to utf-8
html = html.decode("utf_8")
print(html)
if __name__ == '__main__':
visit_baidu()
结果如下:
我们可以通过右键点击百度首页的空白处,查看评论元素来与我们的运行结果进行对比。
当然request也可以生成一个request对象,可以用urlopen方法打开。
代码显示如下:
from urllib import request
def vists_baidu():
# create a request obkect
req = request.Request('http://www.baidu.com')
# open the request object
response = request.urlopen(req)
# read the response
html = response.read()
html = html.decode('utf-8')
print(html)
if __name__ == '__main__':
vists_baidu()
操作的结果和之前一样。
(3)错误处理
错误处理由 urllib 模块处理,主要包括 URLError 和 HTTPError。HTTPError 是 URLError 的子类,即 HTTRPError 也可以被 URLError 捕获。