python抓取网页数据(如何用“Python爬虫”来获取网页中的内容？)

优采云发布时间: 2021-10-20 04:13

　　大家好，今天教大家如何使用“Python爬虫”获取网页内容。下面我以一本小说网站为例来实现它。

　　环境配置下载Anaconda3并完成安装。在Anaconda3的Scripts文件夹中找到“idle.exe”，打开“idle.exe”，新建一个扩展名为“.py”的文件，打开新的“.py”文件，删除初始的Content，在里面完成编程当前文件实现网页的urllib.request模块和正则表达式re模块的导入和读取

　　import urllib.request as req

import re

　　定义一个变量来接收目标网址，然后定义一个变量来接收打开网页的内容，并使用相应的编码进行解码接收

　　data = req.urlopen(url).read().decode('gb18030')

　　运行当前代码，使用print方法查看输出结果，找到想要获取的内容，找到包内容关键词，使用re模块的findall方法读取内容并使用一个变量接收运行代码，使用print方法查看输出结果，使用repalce方法删除其他内容。使用print方法查看输出结果。具体实现代码如下：

　　import urllib.request as req

import re #导入模块

url = 'https://www.farpop.com/0_4/771708.html' #操作网页的网址

data = req.urlopen(url).read().decode('gb18030') #获取解码后的网页内容

i = re.findall(r'(.*?)',data,re.S) #获取想要的内容

fi = i[0]

#删除其它内容

fi = fi.replace(' ','')

fi = fi.replace('<br />','')

fi = fi.replace('readx();','')

#查看输出结果

print(fi)

　　最终得到的内容如下：

　　小说内容

0

2021-10-20

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(如何用“Python爬虫”来获取网页中的内容？)

0 个评论

发起人

AI时代内容工厂

python抓取网页数据(如何用“Python爬虫”来获取网页中的内容？)

0 个评论

发起人

相关问题