集搜客网页抓取软件( 《Python网络数据采集》一个抓取网页pdf内容的抓取规则)

优采云 发布时间: 2021-10-05 09:05

  集搜客网页抓取软件(

《Python网络数据采集》一个抓取网页pdf内容的抓取规则)

  

  一,。导言

  晚上,我读了《Python网络数据》采集。我看到了阅读PDF内容的代码。我记得jisoke几天前刚刚发布了一个用于抓取网页PDF内容的抓取规则。此规则可以将PDF内容用作网页爬网的HTML。这一神奇之处在于Firefox解析PDF的能力。它可以将PDF格式转换为HTML标记,如div,这样Google seeker网页捕获软件就可以像普通网页一样捕获结构化内容

  因此,出现了一个问题:python爬虫在多大程度上可以被使用。下面将描述一个实验过程和源代码

  二,。用于将PDF转换为文本的Python源代码

  下面的Python源代码读取PDF文件的内容(在Internet或本地),将其转换为文本并打印出来。此代码主要使用第三方库pdfminer3k将PDF读入字符串,然后使用stringio将其转换为文件对象。(有关源代码下载地址,请参阅文章末尾的GitHub源代码)

  from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

  如果PDF文件在您的计算机上,请将urlopen返回的对象Pdfile替换为普通的open()文件对象

  三,。前景

  本实验仅将PDF转换为文本,而不是如开始所述的HTML标记。它在Python编程环境中是否具有这种能力还有待于将来的探索

  四,。Jisoke gooseeker开源代码下载源代码

  1.gooseeker开源Python网络爬虫GitHub源代码

  五,。文档修改历史记录

  2016-05-26:V2.0,补充文本说明

  2016-05-29:V2.1,增加第6章:下载源代码并更改GitHub source网站

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线