python抓取网页数据(如何用“Python爬虫”来获取网页中的内容?)

优采云 发布时间: 2021-10-20 04:13

  python抓取网页数据(如何用“Python爬虫”来获取网页中的内容?)

  大家好,今天教大家如何使用“Python爬虫”获取网页内容。下面我以一本小说网站为例来实现它。

  环境配置下载Anaconda3并完成安装。在Anaconda3的Scripts文件夹中找到“idle.exe”,打开“idle.exe”,新建一个扩展名为“.py”的文件,打开新的“.py”文件,删除初始的Content,在里面完成编程当前文件实现网页的urllib.request模块和正则表达式re模块的导入和读取

  import urllib.request as req

import re

  定义一个变量来接收目标网址,然后定义一个变量来接收打开网页的内容,并使用相应的编码进行解码接收

  data = req.urlopen(url).read().decode('gb18030')

  运行当前代码,使用print方法查看输出结果,找到想要获取的内容,找到包内容关键词,使用re模块的findall方法读取内容并使用一个变量接收运行代码,使用print方法查看输出结果,使用repalce方法删除其他内容。使用print方法查看输出结果。具体实现代码如下:

  import urllib.request as req

import re #导入模块

url = 'https://www.farpop.com/0_4/771708.html' #操作网页的网址

data = req.urlopen(url).read().decode('gb18030') #获取解码后的网页内容

i = re.findall(r'(.*?)',data,re.S) #获取想要的内容

fi = i[0]

#删除其它内容

fi = fi.replace(' ','')

fi = fi.replace('<br />','')

fi = fi.replace('readx();','')

#查看输出结果

print(fi)

  最终得到的内容如下:

  

  小说内容

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线