网页数据抓取软件(python爬网页数据方便，python爬取数据到底有多方便 )

优采云发布时间: 2022-01-25 02:11

　　网页数据抓取软件(python爬网页数据方便，python爬取数据到底有多方便

)

　　都说python爬网数据很方便，今天就来试试，python爬数据有多方便

　　简介

　　爬取数据基本上是通过网页的URL获取网页的源代码，根据源代码过滤出需要的信息

　　准备

　　IDE：PyCharm

　　库：请求，lxml

　　注意：

　　请求：获取网页源代码

　　lxml：获取网页源代码中的指定数据

　　建筑环境

　　这里的构建环境不是python的开发环境。这里的构建环境是指我们使用pycharm新建一个python项目，然后进行requests和lxml

　　创建一个新项目：

　　依赖库导入

　　由于我们使用的是pycharm，所以我们导入这两个库会很简单

import requests

　　此时requests会报红线。这时候我们把光标对准requests，按下快捷键：alt+回车，pycharm会给出解决方案，这时候选择install package requests，pycharm会自动我们安装好了，我们只需要等待一个安装库的时刻。 lxml的安装方法是一样的。

　　获取网页源代码

　　前面说了，requests可以很方便的让我们拿到网页的源代码

　　网页以我的博客地址为例：

　　获取源代码：

# 获取源码 html = requests.get("https://coder-lida.github.io/") # 打印源码 print html.text

　　代码就是这么简单，这个html.text就是这个URL的源码

　　完整代码：

import requests import lxml html = requests.get("https://coder-lida.github.io/") print (html.text)

　　打印：

　　获取指定数据

　　现在我们有了网页的源代码，我们需要使用lxml来过滤掉我们需要的信息

　　这里以我的博客列表为例，可以找到原网页，通过F12查看XPath，如图

　　通过XPath语法获取网页内容。

　　查看第一个文章标题

//*[@id="layout-cart"]/div[1]/a/@title

　　// 定位根节点

　　/向下看下一层

　　提取文本内容：/text()

　　提取属性内容：/@xxxx

import requests from lxml import etree html = requests.get("https://coder-lida.github.io/") #print (html.text) etree_html = etree.HTML(html.text) content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title') print(content)

　　查看所有文章标题

//*[@id="layout-cart"]/div/a/@title

　　代码：

import requests from lxml import etree html = requests.get("https://coder-lida.github.io/") #print (html.text) etree_html = etree.HTML(html.text) content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title') print(content)

　　输出：

[' springboot逆向工程 ', ' 自己实现一个简单版的HashMap ', ' 开发中常用的 25 个JavaScript 单行代码 ', ' shiro 加密登录密码加盐处理 ', ' Spring Boot构建RESTful API与单元测试 ', ' 记一次jsoup的使用 ']

0

2022-01-25

网页数据抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据抓取软件(python爬网页数据方便，python爬取数据到底有多方便 )

0 个评论

发起人