java爬虫抓取网页数据(Python环境和Pycharm编辑器同时本次爬取网页信息)

优采云发布时间: 2021-09-22 20:08

　　一、环境备准

　　Python环境和pycharm编辑

　　与此同时，此爬升网页需要用于请求和LXML两个库，如果没有，将要安装的需要。

　　作为LXML的一个例子如下：

　　运行-cmd后，输入PIP安装LXML，并且如果没有下一个执行的安装成功。

　　如果第一步不成功，则需要手动下载相关文件，但保险是可以下载的Python支持的可用，第一个查询。进入Python中，先进入PIP*敏*感*词*，然后输入打印（pip.pep425tags.get_supported（）），得到的支持版本，保持一致的时下载。

　　LXML下载链接：

　　〜gohlke / pythonlibs /＃LXML

　　输入命令行文件下载目录，进入PIP安装文件名，显示成功，你可以做下一步〜

　　注意：不要将文件放在与中国的目录中，安装程序会报告错误

　　二、抓取网络信息

　　抓取网页的全局信息，主要是利用请求库，新构建Pycharm新爬虫文件夹后，一个新的Python文件中，这个例子采取CSDN官方网站首页为例来获取Web H5代码中，语句如下：

　　#coding:UTF-8import requests# 获取源码html = requests.get("https://www.csdn.net/")# 打印源码print html.text

　　执行后，将网页的前端代码爬下，如下所示：

　　三、爬行特定数据

　　在数据爬上这段时间是CSDN首页的标题。要获取信息，请使用LXML库ETREE，你需要获取文本的XPath的信息，请查看Chrome浏览器的源代码，点击左上角的鼠标位置要查找的信息，右键点击相应的HTML标签，点击copyxpath。把它作为一个例子，复制后的XPath信息如下：// * [@ ID = “NAV”] / DIV / DIV / UL /利[1] / A

　　以下是左导航栏的帧的代码。在整个NAV，使用ID =“NAV”管理风格并获得NAV信息，就可以知道，XPath是准确和完全定位。

　　但是，当我们执行内容文件时，它被显示在要素信息：

　　当你需要提取其它的信息，可以XPath的后添加提取属性的内容：/ @ XXXX，如获取链接，加载/ @ HREF。如果你想获得特定的文本信息，XPath的后添加文本（），可以显示完整的信息，具体的XPath路径是：// * [@ ID = “NAV”] / DIV / DIV / UL /李[1] / A /文本（）当只有左侧的“推荐”被获得的信息，XPath是上述路径，如下面的图中，相应于立[1]的信息/ A是“推荐”。

　　与此同时，从结构，可以看出，左边的信息在UL的李，让李删除[*]，你可以在左边的所有目录的信息。完整的代码如下所示：

　　#coding:UTF-8import requestsfrom lxml import etreehtml = requests.get("https://www.csdn.net/")# print html.textetree_html = etree.HTML(html.text)content = etree_html.xpath('//*[@id="nav"]/div/div/ul/li/a/text()')for each in content: print each

　　四、摘要

　　一个简单的Python爬行动物，但在实践中，一些小毛病也遇到在稍后阶段一些小毛病，和的数据和其他爬行动物的方法筛选。

0

2021-09-22

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(Python环境和Pycharm编辑器同时本次爬取网页信息)

0 个评论

发起人