网页爬虫抓取百度图片(简要的实现Python爬虫爬取敏感词页面上的图片)

优采云发布时间: 2022-03-05 22:07

　　网页爬虫抓取百度图片(简要的实现Python爬虫爬取*敏*感*词*页面上的图片)

　　Python爬虫爬取*敏*感*词*页面图片的简单实现，下面这个网页就是本博客要爬取的网页，当然你看到的只是图片的一部分，也就是要爬取的页面被爬行，

　　下图是最终爬取的图片：

　　接下来简单说一下爬取的全过程：

　　首先，你需要一个好的编程工具。博主使用的是他们觉得更容易使用的 Pycharm 工具。这是Pycharm官网下载的下载地址。您可以根据自己的电脑配置下载。是的，网上还有很多，可以参考。

　　下一步是编写爬虫代码。先不说代码：

<p>import urllib.request

import re

import os

''' 这是需要引入的三个文件包 '''

def open_url(url):

req = urllib.request.Request(url)

req.add_header('User-Agent', 'mozilla/5.0 (windows nt 6.3; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/65.0.3325.181 safari/537.36')

'''User_Ahent是爬虫所需要模拟浏览器访问所需要的一些标识信息，如浏览器类型，操作系统等'''

page = urllib.request.urlopen(req)

html = page.read().decode('utf-8')

return html

def get_img(html):

p = r'

0

2022-03-05

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册