python抓取网页数据(如何用“Python爬虫”来获取网页中的内容?)
优采云 发布时间: 2021-10-20 04:13python抓取网页数据(如何用“Python爬虫”来获取网页中的内容?)
大家好,今天教大家如何使用“Python爬虫”获取网页内容。下面我以一本小说网站为例来实现它。
环境配置下载Anaconda3并完成安装。在Anaconda3的Scripts文件夹中找到“idle.exe”,打开“idle.exe”,新建一个扩展名为“.py”的文件,打开新的“.py”文件,删除初始的Content,在里面完成编程当前文件实现网页的urllib.request模块和正则表达式re模块的导入和读取
import urllib.request as req
import re
定义一个变量来接收目标网址,然后定义一个变量来接收打开网页的内容,并使用相应的编码进行解码接收
data = req.urlopen(url).read().decode('gb18030')
运行当前代码,使用print方法查看输出结果,找到想要获取的内容,找到包内容关键词,使用re模块的findall方法读取内容并使用一个变量接收运行代码,使用print方法查看输出结果,使用repalce方法删除其他内容。使用print方法查看输出结果。具体实现代码如下:
import urllib.request as req
import re #导入模块
url = 'https://www.farpop.com/0_4/771708.html' #操作网页的网址
data = req.urlopen(url).read().decode('gb18030') #获取解码后的网页内容
i = re.findall(r'(.*?)',data,re.S) #获取想要的内容
fi = i[0]
#删除其它内容
fi = fi.replace(' ','')
fi = fi.replace('<br />','')
fi = fi.replace('readx();','')
#查看输出结果
print(fi)
最终得到的内容如下:
小说内容