网页数据抓取软件(注意：爬虫是需要基础python知识的，python入门使用 )

优采云发布时间: 2021-11-29 17:18

　　网页数据抓取软件(注意：爬虫是需要基础python知识的，python入门使用

)

　　注意：

　　爬虫需要基本的 Python 知识。没学过python的可以看我的python入门系列博客：python入门使用（一）：操作方式和基本命令

　　以爬取我的博客python的入口获取文章的标题名称（一）：以运行方式和基本命令为例：

　　1、获取页面

　　import requests #引入包requests

link = "https://blog.csdn.net/qq_45154565/article/details/109261945" #将目标网页的网址定义为link

# 定义请求头的浏览器代理，伪装成火狐浏览器

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers) #请求网页，r是requests的response回复对象，可以从中获取想要的信息

print (r.text) #r.text是获取的网页内容代码

　　从上面的输出中可以看到文章的标题等内容。它实际上是获取博客页面的HTML代码（一种用来描述网页的语言，以后会更新博客学习），可以理解为网页呈现的内容都是HTML代码。

　　2、提取需要的数据

　　获取整个页面的HTML代码后，可以从整个网格网页中提取文章的标题。

　　import requests

from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

link = "https://blog.csdn.net/qq_45154565/article/details/109261945"

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers)

soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析这段代码，把HTML代码转化为soup对象

#用soup.find函数找到文章标题，定位到class是"post-title"的h1元素，提取a，提取里面的字符串，strip()去除左右空格

title = soup.find("h1", class_="title-article")

print (title)

　　从上图可以看出，指定的标题内容已经被提取出来了。

　　3、如何准确定位标题的HTML代码位置

　　你可以在2中的代码中看到这段代码

　　#用soup.find函数找到文章标题，定位到class是"post-title"的h1元素，提取a，提取里面的字符串，strip()去除左右空格

title = soup.find("h1", class_="title-article")

　　那么soup.find函数中的这些参数是如何确定的呢？请看下面的解释

　　(1）在浏览器中右击> Check Element (IE)/Check (Google)

　　以下以IE浏览器为例，与谷歌相同：

　　出现如下界面：

　　右侧显示的HTML代码

　　(2）在HTML代码界面左上角点击鼠标：

　　然后用鼠标点击页面界面的任意位置，就会出现对应的HTML代码块（蓝色）：

　　4、存储数据

　　#coding: utf-8

import requests

from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

link = "https://blog.csdn.net/qq_45154565/article/details/109261945"

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers)

soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析这段代码，把HTML代码转化为soup对象

#用soup.find函数找到文章标题，定位到class是"post-title"的h1元素，提取a，提取里面的字符串，strip()去除左右空格

title = soup.find("h1", class_="title-article")

print (title.text)

title1 = str(title)

# 打开一个空白的txt，然后使用f.write写入刚刚的字符串title

with open('title1.txt', "a+") as f:

f.write(title1)

　　生成的txt文本：

0

2021-11-29

网页数据抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据抓取软件(注意：爬虫是需要基础python知识的，python入门使用 )

0 个评论

发起人

AI时代内容工厂

网页数据抓取软件(注意：爬虫是需要基础python知识的，python入门使用 )

0 个评论

发起人

相关问题