网页爬虫抓取百度图片(简要的实现Python爬虫爬取*敏*感*词*页面上的图片)

优采云 发布时间: 2022-03-05 22:07

  网页爬虫抓取百度图片(简要的实现Python爬虫爬取*敏*感*词*页面上的图片)

  Python爬虫爬取*敏*感*词*页面图片的简单实现,下面这个网页就是本博客要爬取的网页,当然你看到的只是图片的一部分,也就是要爬取的页面被爬行,

  

  下图是最终爬取的图片:

  

  接下来简单说一下爬取的*敏*感*词*:

  首先,你需要一个好的编程工具。博主使用的是他们觉得更容易使用的 Pycharm 工具。这是Pycharm官网下载的下载地址。您可以根据自己的电脑配置下载。是的,网上还有很多,可以参考。

  下一步是编写爬虫代码。先不说代码:

<p>import urllib.request

import re

import os

&#39;&#39;&#39; 这是需要引入的三个文件包 &#39;&#39;&#39;

def open_url(url):

req = urllib.request.Request(url)

req.add_header(&#39;User-Agent&#39;, &#39;mozilla/5.0 (windows nt 6.3; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/65.0.3325.181 safari/537.36&#39;)

&#39;&#39;&#39;User_Ahent是爬虫所需要模拟浏览器访问所需要的一些标识信息,如浏览器类型,操作系统等&#39;&#39;&#39;

page = urllib.request.urlopen(req)

html = page.read().decode(&#39;utf-8&#39;)

return html

def get_img(html):

p = r&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线