网页爬虫抓取百度图片(简要的实现Python爬虫爬取*敏*感*词*页面上的图片)
优采云 发布时间: 2022-03-05 22:07网页爬虫抓取百度图片(简要的实现Python爬虫爬取*敏*感*词*页面上的图片)
Python爬虫爬取*敏*感*词*页面图片的简单实现,下面这个网页就是本博客要爬取的网页,当然你看到的只是图片的一部分,也就是要爬取的页面被爬行,
下图是最终爬取的图片:
接下来简单说一下爬取的*敏*感*词*:
首先,你需要一个好的编程工具。博主使用的是他们觉得更容易使用的 Pycharm 工具。这是Pycharm官网下载的下载地址。您可以根据自己的电脑配置下载。是的,网上还有很多,可以参考。
下一步是编写爬虫代码。先不说代码:
<p>import urllib.request
import re
import os
''' 这是需要引入的三个文件包 '''
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', 'mozilla/5.0 (windows nt 6.3; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/65.0.3325.181 safari/537.36')
'''User_Ahent是爬虫所需要模拟浏览器访问所需要的一些标识信息,如浏览器类型,操作系统等'''
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'