抓取网页新闻( 关于利用python实现最简单的网页爬虫的相关资料介绍)

优采云发布时间: 2021-10-17 08:29

　　抓取网页新闻(

关于利用python实现最简单的网页爬虫的相关资料介绍)

　　python爬虫实战最简单的网络爬虫教程

　　更新时间：2017-08-13 10:08:49 作者：xiaomi

　　当我们在互联网上浏览网页时，我们经常会看到一些漂亮的图片。我们希望将这些图片保存和下载，或者用作桌面壁纸或设计材料。下面的文章文章就在这里给大家介绍一个最简单的使用python的网络爬虫。有需要的朋友可以参考。让我们来看看。

　　前言

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOAF 社区中，更常见的是网络追逐）是按照某些规则自动抓取万维网上信息的程序或脚本。最近对python爬虫产生了浓厚的兴趣。我在这里分享我的学习路径。欢迎您提出建议。我们相互交流，共同进步。话不多说，一起来看看详细介绍：

　　1.开发工具

　　我使用的工具是sublime text3，它简短而强大（可能男人不喜欢这个词）让我着迷。推荐大家使用，当然如果你的电脑配置好，pycharm可能更适合你。

　　推荐用sublime text3搭建python开发环境查看这个文章：

　　[Sublime搭建python开发环境][]

　　2.爬虫介绍

　　爬虫，顾名思义，就像蠕虫一样，在大互联网、互联网上爬行。这样，我们就可以得到我们想要的。

　　既然要在互联网上爬取，就需要了解URL、合法名称“Uniform Resource Locator”、昵称“Link”。其结构主要由三部分组成：

　　（1）Protocol：比如我们网站常用的HTTP协议。

　　（2）Domain name or IP address：域名，如：，IP地址，即域名解析后对应的IP。

　　（3）路径：即目录或文件等

　　3.urllib 开发最简单的爬虫

　　(1）urllib 简介

　　模块介绍

　　urllib.error

　　由 urllib.request 引发的异常类。

　　urllib.parse

　　将 URL 解析为组件或从组件组装它们。

　　urllib.request

　　用于打开 URL 的可扩展库。

　　urllib.response

　　urllib 使用的响应类。

　　urllib.robotparser

　　加载 robots.txt 文件并回答有关其他 URL 可提取性的问题。

　　(2）开发最简单的爬虫

　　百度首页简洁大方，非常适合我们的爬虫。

　　爬虫代码如下：

from urllib import request

def visit_baidu():

URL = "http://www.baidu.com"

# open the URL

req = request.urlopen(URL)

# read the URL

html = req.read()

# decode the URL to utf-8

html = html.decode("utf_8")

print(html)

if __name__ == '__main__':

visit_baidu()

　　结果如下：

　　我们可以通过右键点击百度首页的空白处，查看评论元素来与我们的运行结果进行对比。

　　当然request也可以生成一个request对象，可以用urlopen方法打开。

　　代码显示如下：

from urllib import request

def vists_baidu():

# create a request obkect

req = request.Request('http://www.baidu.com')

# open the request object

response = request.urlopen(req)

# read the response

html = response.read()

html = html.decode('utf-8')

print(html)

if __name__ == '__main__':

vists_baidu()

　　操作的结果和之前一样。

　　(3）错误处理

　　错误处理由 urllib 模块处理，主要包括 URLError 和 HTTPError。HTTPError 是 URLError 的子类，即 HTTRPError 也可以被 URLError 捕获。

0

2021-10-17

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻( 关于利用python实现最简单的网页爬虫的相关资料介绍)

0 个评论

发起人