网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)

优采云 发布时间: 2021-09-30 04:19

  网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)

  一、项目背景

  在Python Instant Web Crawler Project的描述一文中,我们说我们应该做一个通用的网络爬虫,它可以节省程序员大部分时间。重点是提取器使用的爬取规则需要快速生成。在python中使用xslt提取网页数据的文章中,我们看到这个提取规则就是xslt程序。示例程序中,将xslt的一长段直接赋值给了一个变量,但是没有提到xslt的这一段是怎么来的。

  网友难免会质疑:这个xslt这么长,是不是要写很久?

  实际情况是这个xslt是由GooSeeker的MS直观的标注功能自动生成的,熟练的话1分钟就可以搞定。

  2. MS 能找到什么

  MS 牟书台具有图形界面,集成了一系列 html 解析工具,包括:

  MS Moshutai 的界面分为三个部分:DOM 数据窗口、嵌入式浏览器窗口和工作台。在工作台上定义 xslt 转换规则。

  3.使用MS生成XSLT

  假设我们要抓取一个论坛帖子列表,下面是操作方法的分步说明:

  第一步,打开GooSeeker的MS平台,输入要爬取的URL;

  第二步,直接在MS Muzushi浏览器显示窗口中选择要提取的内容,并命名,点击确定;

  

  第三步,点击工作台上的“测试”按钮,就会生成xslt并显示在“数据规则”窗口中。

  

  通过以上操作,无需编程,使用图形界面直接在页面上进行标注,1分钟即可生成xslt。

  4. 如何使用 XSLT

  在python中使用xslt提取网页数据的文章中,我们将生成的xslt作为字符串交给了程序,感觉一下子回到了史前文明。上面说的太好了,最后我们用了一个非常原创的副本。其实不然,那只是一个例子。在python实时网络爬虫项目中:内容提取器的定义已经初具规模。注入xslt的方式有很多种,自动化程度最高的方式是api,后续文章会详细讲解。

  5. 文档修改历史

  2016-05-28:V3.0,增加第二章

  2016-05-27:V2.0,添加文字说明

  上一章常用浏览器的UserAgent 下一章Python编程规范

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线