网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)

优采云发布时间: 2021-09-30 04:19

　　一、项目背景

　　在Python Instant Web Crawler Project的描述一文中，我们说我们应该做一个通用的网络爬虫，它可以节省程序员大部分时间。重点是提取器使用的爬取规则需要快速生成。在python中使用xslt提取网页数据的文章中，我们看到这个提取规则就是xslt程序。示例程序中，将xslt的一长段直接赋值给了一个变量，但是没有提到xslt的这一段是怎么来的。

　　网友难免会质疑：这个xslt这么长，是不是要写很久？

　　实际情况是这个xslt是由GooSeeker的MS直观的标注功能自动生成的，熟练的话1分钟就可以搞定。

　　2. MS 能找到什么

　　MS 牟书台具有图形界面，集成了一系列 html 解析工具，包括：

　　MS Moshutai 的界面分为三个部分：DOM 数据窗口、嵌入式浏览器窗口和工作台。在工作台上定义 xslt 转换规则。

　　3.使用MS生成XSLT

　　假设我们要抓取一个论坛帖子列表，下面是操作方法的分步说明：

　　第一步，打开GooSeeker的MS平台，输入要爬取的URL；

　　第二步，直接在MS Muzushi浏览器显示窗口中选择要提取的内容，并命名，点击确定；

　　第三步，点击工作台上的“测试”按钮，就会生成xslt并显示在“数据规则”窗口中。

　　通过以上操作，无需编程，使用图形界面直接在页面上进行标注，1分钟即可生成xslt。

　　4. 如何使用 XSLT

　　在python中使用xslt提取网页数据的文章中，我们将生成的xslt作为字符串交给了程序，感觉一下子回到了史前文明。上面说的太好了，最后我们用了一个非常原创的副本。其实不然，那只是一个例子。在python实时网络爬虫项目中：内容提取器的定义已经初具规模。注入xslt的方式有很多种，自动化程度最高的方式是api，后续文章会详细讲解。

　　5. 文档修改历史

　　2016-05-28：V3.0，增加第二章

　　2016-05-27：V2.0，添加文字说明

　　上一章常用浏览器的UserAgent 下一章Python编程规范

0

2021-09-30

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)

0 个评论

发起人

AI时代内容工厂

网站内容抓取(Python即时网络爬虫项目背景在Python中的项目说明)

0 个评论

发起人

相关问题