抓取网页新闻( 关于利用python实现最简单的网页爬虫的相关资料介绍)

优采云 发布时间: 2021-10-17 08:29

  抓取网页新闻(

关于利用python实现最简单的网页爬虫的相关资料介绍)

  python爬虫实战最简单的网络爬虫教程

  更新时间:2017-08-13 10:08:49 作者:xiaomi

  当我们在互联网上浏览网页时,我们经常会看到一些漂亮的图片。我们希望将这些图片保存和下载,或者用作桌面壁纸或设计材料。下面的文章文章就在这里给大家介绍一个最简单的使用python的网络爬虫。有需要的朋友可以参考。让我们来看看。

  前言

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中,更常见的是网络追逐)是按照某些规则自动抓取万维网上信息的程序或脚本。最近对python爬虫产生了浓厚的兴趣。我在这里分享我的学习路径。欢迎您提出建议。我们相互交流,共同进步。话不多说,一起来看看详细介绍:

  1.开发工具

  我使用的工具是sublime text3,它简短而强大(可能男人不喜欢这个词)让我着迷。推荐大家使用,当然如果你的电脑配置好,pycharm可能更适合你。

  推荐用sublime text3搭建python开发环境查看这个文章:

  [Sublime搭建python开发环境][]

  2.爬虫介绍

  爬虫,顾名思义,就像蠕虫一样,在大互联网、互联网上爬行。这样,我们就可以得到我们想要的。

  既然要在互联网上爬取,就需要了解URL、合法名称“Uniform Resource Locator”、昵称“Link”。其结构主要由三部分组成:

  (1)Protocol:比如我们网站常用的HTTP协议。

  (2)Domain name or IP address:域名,如:,IP地址,即域名解析后对应的IP。

  (3) 路径:即目录或文件等

  3.urllib 开发最简单的爬虫

  (1)urllib 简介

  模块介绍

  urllib.error

  由 urllib.request 引发的异常类。

  urllib.parse

  将 URL 解析为组件或从组件组装它们。

  urllib.request

  用于打开 URL 的可扩展库。

  urllib.response

  urllib 使用的响应类。

  urllib.robotparser

  加载 robots.txt 文件并回答有关其他 URL 可提取性的问题。

  (2)开发最简单的爬虫

  百度首页简洁大方,非常适合我们的爬虫。

  爬虫代码如下:

  

from urllib import request

def visit_baidu():

URL = "http://www.baidu.com"

# open the URL

req = request.urlopen(URL)

# read the URL

html = req.read()

# decode the URL to utf-8

html = html.decode("utf_8")

print(html)

if __name__ == '__main__':

visit_baidu()

  结果如下:

  

  我们可以通过右键点击百度首页的空白处,查看评论元素来与我们的运行结果进行对比。

  当然request也可以生成一个request对象,可以用urlopen方法打开。

  代码显示如下:

  

from urllib import request

def vists_baidu():

# create a request obkect

req = request.Request('http://www.baidu.com')

# open the request object

response = request.urlopen(req)

# read the response

html = response.read()

html = html.decode('utf-8')

print(html)

if __name__ == '__main__':

vists_baidu()

  操作的结果和之前一样。

  (3)错误处理

  错误处理由 urllib 模块处理,主要包括 URLError 和 HTTPError。HTTPError 是 URLError 的子类,即 HTTRPError 也可以被 URLError 捕获。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线