集搜客网页抓取软件(1.《1分钟快速生成用于网页内容提取的xslt模板》)

优采云 发布时间: 2022-04-15 04:13

  集搜客网页抓取软件(1.《1分钟快速生成用于网页内容提取的xslt模板》)

  1.项目背景

  在python即时网络爬虫项目启动说明中,我们讨论了一个数字:程序员在调试内容提取规则上浪费时间,所以我们推出这个项目是为了让程序员从繁琐的调试规则中解放出来,投入更多的高端数据处理工作。

  2.解决方案

  为了解决这个问题,我们将影响通用性和工作效率的提取器隔离出来,描述数据处理流程图如下:

  

  图中的“可插拔提取器”一定是非常模块化的,所以关键接口是:

  3. 提取器代码

  可插拔提取器是即时网络爬虫项目的核心组件,定义为一个类:gsExtractor

  请从 github 下载 python 源代码文件及其文档

  使用模式是这样的:

  下面是这个 gsExtractor 类的源代码

  #!/usr/bin/python

# -*- coding: utf-8 -*-

# 模块名: gooseeker

# 类名: gsExtractor

# Version: 2.0

# 说明: html内容提取器

# 功能: 使用xslt作为模板,快速提取HTML DOM中的内容。

# released by 集搜客(http://www.gooseeker.com) on May 18, 2016

# github: https://github.com/FullerHua/jisou/core/gooseeker.py

from urllib import request

from urllib.parse import quote

from lxml import etree

import time

class gsExtractor(object):

def _init_(self):

self.xslt = ""

# 从文件读取xslt

def setXsltFromFile(self , xsltFilePath):

file = open(xsltFilePath , 'r' , encoding='UTF-8')

try:

self.xslt = file.read()

finally:

file.close()

# 从字符串获得xslt

def setXsltFromMem(self , xsltStr):

self.xslt = xsltStr

# 通过GooSeeker API接口获得xslt

def setXsltFromAPI(self , APIKey , theme, middle=None, bname=None):

apiurl = "http://www.gooseeker.com/api/getextractor?key="+ APIKey +"&theme="+quote(theme)

if (middle):

apiurl = apiurl + "&middle="+quote(middle)

if (bname):

apiurl = apiurl + "&bname="+quote(bname)

apiconn = request.urlopen(apiurl)

self.xslt = apiconn.read()

# 返回当前xslt

def getXslt(self):

return self.xslt

# 提取方法,入参是一个HTML DOM对象,返回是提取结果

def extract(self , html):

xslt_root = etree.XML(self.xslt)

transform = etree.XSLT(xslt_root)

result_tree = transform(html)

return result_tree

  4. 使用示例

  下面是一个示例程序,演示如何使用 gsExtractor 类提取 GooSeeker 官网的 bbs 帖子列表。这个例子有以下特点

  下面是源码,都可以从github下载

  #-*_coding:utf8-*-

# 使用gsExtractor类的示例程序

# 访问集搜客论坛,以xslt为模板提取论坛内容

# xslt保存在xslt_bbs.xml中

from urllib import request

from lxml import etree

from gooseeker import gsExtractor

# 访问并读取网页内容

url = "http://www.gooseeker.com/cn/forum/7"

conn = request.urlopen(url)

doc = etree.HTML(conn.read())

# 生成xsltExtractor对象

bbsExtra = gsExtractor()

# 调用set方法设置xslt内容

bbsExtra.setXsltFromFile("xslt_bbs.xml")

# 调用extract方法提取所需内容

result = bbsExtra.extract(doc)

# 显示提取结果

print(str(result))

  提取结果如下图所示:

  

  5. 继续阅读

  这篇文章已经解释了提取器的价值和用法,但是并没有说如何生成它。只有快速生成提取器,才能达到节省开发者时间的目的。为网页内容提取生成 xslt 模板"

  6. GooSeeker开源代码下载源

  1.GooSeeker开源Python网络爬虫GitHub源码

  7. 文档修改历史

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线