网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)
优采云 发布时间: 2021-09-30 04:19网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)
一、项目背景
在Python Instant Web Crawler Project的描述一文中,我们说我们应该做一个通用的网络爬虫,它可以节省程序员大部分时间。重点是提取器使用的爬取规则需要快速生成。在python中使用xslt提取网页数据的文章中,我们看到这个提取规则就是xslt程序。示例程序中,将xslt的一长段直接赋值给了一个变量,但是没有提到xslt的这一段是怎么来的。
网友难免会质疑:这个xslt这么长,是不是要写很久?
实际情况是这个xslt是由GooSeeker的MS直观的标注功能自动生成的,熟练的话1分钟就可以搞定。
2. MS 能找到什么
MS 牟书台具有图形界面,集成了一系列 html 解析工具,包括:
MS Moshutai 的界面分为三个部分:DOM 数据窗口、嵌入式浏览器窗口和工作台。在工作台上定义 xslt 转换规则。
3.使用MS生成XSLT
假设我们要抓取一个论坛帖子列表,下面是操作方法的分步说明:
第一步,打开GooSeeker的MS平台,输入要爬取的URL;
第二步,直接在MS Muzushi浏览器显示窗口中选择要提取的内容,并命名,点击确定;
第三步,点击工作台上的“测试”按钮,就会生成xslt并显示在“数据规则”窗口中。
通过以上操作,无需编程,使用图形界面直接在页面上进行标注,1分钟即可生成xslt。
4. 如何使用 XSLT
在python中使用xslt提取网页数据的文章中,我们将生成的xslt作为字符串交给了程序,感觉一下子回到了史前文明。上面说的太好了,最后我们用了一个非常原创的副本。其实不然,那只是一个例子。在python实时网络爬虫项目中:内容提取器的定义已经初具规模。注入xslt的方式有很多种,自动化程度最高的方式是api,后续文章会详细讲解。
5. 文档修改历史
2016-05-28:V3.0,增加第二章
2016-05-27:V2.0,添加文字说明
上一章常用浏览器的UserAgent 下一章Python编程规范