java爬虫抓取网页数据(Python环境和Pycharm编辑器同时本次爬取网页信息)

优采云 发布时间: 2021-09-22 20:08

  java爬虫抓取网页数据(Python环境和Pycharm编辑器同时本次爬取网页信息)

  一、环境备准

  Python环境和pycharm编辑

  与此同时,此爬升网页需要用于请求和LXML两个库,如果没有,将要安装的需要。

  作为LXML的一个例子如下:

  运行-cmd后,输入PIP安装LXML,并且如果没有下一个执行的安装成功。

  如果第一步不成功,则需要手动下载相关文件,但保险是可以下载的Python支持的可用,第一个查询。进入Python中,先进入PIP*敏*感*词*,然后输入打印(pip.pep425tags.get_supported()),得到的支持版本,保持一致的时下载。

  

  LXML下载链接:

  〜gohlke / pythonlibs /#LXML

  

  输入命令行文件下载目录,进入PIP安装文件名,显示成功,你可以做下一步〜

  注意:不要将文件放在与中国的目录中,安装程序会报告错误

  

  二、抓取网络信息

  抓取网页的全局信息,主要是利用请求库,新构建Pycharm新爬虫文件夹后,一个新的Python文件中,这个例子采取CSDN官方网站首页为例来获取Web H5代码中,语句如下:

  #coding:UTF-8import requests# 获取源码html = requests.get("https://www.csdn.net/")# 打印源码print html.text

  执行后,将网页的前端代码爬下,如下所示:

  

  三、爬行特定数据

  在数据爬上这段时间是CSDN首页的标题。要获取信息,请使用LXML库ETREE,你需要获取文本的XPath的信息,请查看Chrome浏览器的源代码,点击左上角的鼠标位置要查找的信息,右键点击相应的HTML标签,点击copyxpath。把它作为一个例子,复制后的XPath信息如下:// * [@ ID = “NAV”] / DIV / DIV / UL /利[1] / A

  

  以下是左导航栏的帧的代码。在整个NAV,使用ID =“NAV”管理风格并获得NAV信息,就可以知道,XPath是准确和完全定位。

  

  但是,当我们执行内容文件时,它被显示在要素信息:

  

  当你需要提取其它的信息,可以XPath的后添加提取属性的内容:/ @ XXXX,如获取链接,加载/ @ HREF。如果你想获得特定的文本信息,XPath的后添加文本(),可以显示完整的信息,具体的XPath路径是:// * [@ ID = “NAV”] / DIV / DIV / UL /李[1] / A /文本()当只有左侧的“推荐”被获得的信息,XPath是上述路径,如下面的图中,相应于立[1]的信息/ A是“推荐”。

  

  与此同时,从结构,可以看出,左边的信息在UL的李,让李删除[*],你可以在左边的所有目录的信息。完整的代码如下所示:

  #coding:UTF-8import requestsfrom lxml import etreehtml = requests.get("https://www.csdn.net/")# print html.textetree_html = etree.HTML(html.text)content = etree_html.xpath('//*[@id="nav"]/div/div/ul/li/a/text()')for each in content: print each

  四、摘要

  一个简单的Python爬行动物,但在实践中,一些小毛病也遇到在稍后阶段一些小毛病,和的数据和其他爬行动物的方法筛选。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线