网页数据抓取软件(注意:爬虫是需要基础python知识的,python入门使用 )

优采云 发布时间: 2021-11-29 17:18

  网页数据抓取软件(注意:爬虫是需要基础python知识的,python入门使用

)

  注意:

  爬虫需要基本的 Python 知识。没学过python的可以看我的python入门系列博客:python入门使用(一):操作方式和基本命令

  以爬取我的博客python的入口获取文章的标题名称(一):以运行方式和基本命令为例:

  1、获取页面

  import requests #引入包requests

link = "https://blog.csdn.net/qq_45154565/article/details/109261945" #将目标网页的网址定义为link

# 定义请求头的浏览器代理,伪装成火狐浏览器

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers) #请求网页,r是requests的response回复对象,可以从中获取想要的信息

print (r.text) #r.text是获取的网页内容代码

  

  

  从上面的输出中可以看到文章的标题等内容。它实际上是获取博客页面的HTML代码(一种用来描述网页的语言,以后会更新博客学习),可以理解为网页呈现的内容都是HTML代码。

  2、提取需要的数据

  获取整个页面的HTML代码后,可以从整个网格网页中提取文章的标题。

  import requests

from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

link = "https://blog.csdn.net/qq_45154565/article/details/109261945"

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers)

soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析这段代码,把HTML代码转化为soup对象

#用soup.find函数找到文章标题,定位到class是"post-title"的h1元素,提取a,提取里面的字符串,strip()去除左右空格

title = soup.find("h1", class_="title-article")

print (title)

  

  从上图可以看出,指定的标题内容已经被提取出来了。

  

  3、如何准确定位标题的HTML代码位置

  你可以在2中的代码中看到这段代码

  #用soup.find函数找到文章标题,定位到class是"post-title"的h1元素,提取a,提取里面的字符串,strip()去除左右空格

title = soup.find("h1", class_="title-article")

  那么soup.find函数中的这些参数是如何确定的呢?请看下面的解释

  (1)在浏览器中右击> Check Element (IE)/Check (Google)

  以下以IE浏览器为例,与谷歌相同:

  

  出现如下界面:

  

  右侧显示的HTML代码

  (2)在HTML代码界面左上角点击鼠标:

  

  然后用鼠标点击页面界面的任意位置,就会出现对应的HTML代码块(蓝色):

  

  4、存储数据

  #coding: utf-8

import requests

from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

link = "https://blog.csdn.net/qq_45154565/article/details/109261945"

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers)

soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析这段代码,把HTML代码转化为soup对象

#用soup.find函数找到文章标题,定位到class是"post-title"的h1元素,提取a,提取里面的字符串,strip()去除左右空格

title = soup.find("h1", class_="title-article")

print (title.text)

title1 = str(title)

# 打开一个空白的txt,然后使用f.write写入刚刚的字符串title

with open('title1.txt', "a+") as f:

f.write(title1)

  

  生成的txt文本:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线