集搜客网页抓取软件( Python网络爬虫内容提取器一文项目启动说明(一))

优采云发布时间: 2021-12-01 09:09

　　集搜客网页抓取软件(

Python网络爬虫内容提取器一文项目启动说明(一))

　　1 简介

　　在Python网络爬虫内容提取器一文中，我们详细讲解了核心组件：可插拔内容提取器类gsExtractor。本文记录了在确定gsExtractor技术路线过程中所做的编程实验。这是第一部分。使用xslt一次性提取静态网页内容并转换为xml格式的实验。

　　2.使用lxml库提取网页内容

　　lxml是python的一个可以快速灵活处理XML的库。它支持 XML 路径语言 (XPath) 和可扩展样式表语言转换 (XSLT)，并实现了通用的 ElementTree API。

　　这2天在python中测试了通过xslt提取网页内容，记录如下：

　　2.1、爬取目标

　　假设你要提取Jisuke官网旧版论坛的帖子标题和回复数，如下图，提取整个列表并保存为xml格式

　　2.2、源码1：只抓取当前页面，结果会在控制台显示

　　Python的优点是可以用少量的代码解决一个问题。请注意，以下代码看起来很长。其实python函数调用并不多。大空间被一个 xslt 脚本占用。在这段代码中， just 只是一个长字符串。至于为什么选择 xslt 而不是离散的 xpath 或者抓正则表达式，请参考《Python Instant Web Crawler 项目启动说明》。我们希望通过这种架构，将程序员的时间节省一半以上。

　　可以复制运行如下代码（windows10下测试，python3.2）：

　　from urllib import request

from lxml import etree

url="http://www.gooseeker.com/cn/forum/7"

conn = request.urlopen(url)

doc = etree.HTML(conn.read())

xslt_root = etree.XML("""\

""")

transform = etree.XSLT(xslt_root)

result_tree = transform(doc)

print(result_tree)

　　2.3、抢结果

　　捕获的结果如下：

　　2.4、源码2：翻页抓取，并将结果保存到文件中

　　我们对2.2的代码做了进一步的修改，增加了翻页、抓取和保存结果文件的功能，代码如下：

　　from urllib import request

from lxml import etree

import time

xslt_root = etree.XML("""\

""")

baseurl = "http://www.gooseeker.com/cn/forum/7"

basefilebegin = "jsk_bbs_"

basefileend = ".xml"

count = 1

while (count < 12):

url = baseurl + "?page=" + str(count)

conn = request.urlopen(url)

doc = etree.HTML(conn.read())

transform = etree.XSLT(xslt_root)

result_tree = transform(doc)

print(str(result_tree))

file_obj = open(basefilebegin+str(count)+basefileend,'w',encoding='UTF-8')

file_obj.write(str(result_tree))

file_obj.close()

count += 1

time.sleep(2)

　　我们添加了写入文件的代码，并添加了一个循环来构建每个页面的 URL。但是如果在翻页的过程中URL总是相同的呢？其实这就是动态网页的内容，下面会讲到。

　　三、总结

　　这是开源Python通用爬虫项目的验证过程。在爬虫框架中，其他部分很容易做到通用化，即很难将网页内容提取出来并转化为结构化操作。我们称之为提取器。不过在GooSeeker可视化提取规则*敏*感*词*MS的帮助下，提取器生成过程会变得非常方便，并且可以标准化插入，从而实现通用爬虫，后续文章会具体说明MS 策略平台与 Python 合作的具体方法。

　　4. 阅读下一步

　　本文介绍的方法通常用于抓取静态网页内容，也就是所谓的html文档中的内容。目前很多网站的内容都是用javascript动态生成的。一开始html没有这些内容，通过后加载。如果添加方法，则需要动态技术。请阅读《Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容》。

　　5.采集GooSeeker开源代码下载源码

　　GooSeeker开源Python网络爬虫GitHub源码

　　6. 文档修改历史

0

2021-12-01

集搜客网页抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

集搜客网页抓取软件( Python网络爬虫内容提取器一文项目启动说明(一))

0 个评论

发起人

AI时代内容工厂

集搜客网页抓取软件( Python网络爬虫内容提取器一文项目启动说明(一))

0 个评论

发起人

相关问题