网页数据抓取怎么写( 常用抽取网页数据的方式有哪些?-乐题库)
优采云 发布时间: 2022-03-20 22:26网页数据抓取怎么写(
常用抽取网页数据的方式有哪些?-乐题库)
Python写爬虫2-三种数据抓取方式
网页数据提取常用的三种方式:正则表达式、Beautiful Soup、lxml
1.正则表达式
正则表达式的一个主要缺点是它们难以构造,可读性差,并且难以适应网页未来的变化。编写伪代码:
import re
url = 'http://xxxx.com/sdffs'
html = download(url)
re.findall('正则表达式', html)
2.靓汤
这是一个非常流行的 python 模块。安装命令如下:
pip install beautifulsoup4
使用该模块的第一步是将下载的html内容解析成soup文档。因为很多html网页不是标准格式的,Beautiful Soup可以判断出来,调整成标准的html文件。
3.Lxml
Lxml是一个基于libxml2的python包,一个XML解析库。本模块用c语言编写,解析速度比Beautiful Soup还快。
安装命令如下:
pip install lxml
pip install cssselect
如下代码,从html中获取class=country的ul标签下li标签id=a的文本,获取li标签class=b的文本
4.三种方式的比较,抓取方式的性能,使用难度,安装难度
正则表达式
快速
难度
简单(内置模块)
美丽的汤
慢
简单
简单(纯python)
Lxml
快速
简单
比较难
一般来说,lxml 是抓取数据的最佳选择,因为它快速且健壮,而常规和 Beautiful Soup 仅在某些场景下使用。