集搜客网页抓取软件( 《Python网络数据采集》一个抓取网页pdf内容的抓取规则)

优采云发布时间: 2021-10-05 09:05

　　集搜客网页抓取软件(

《Python网络数据采集》一个抓取网页pdf内容的抓取规则)

　　一,。导言

　　晚上，我读了《Python网络数据》采集。我看到了阅读PDF内容的代码。我记得jisoke几天前刚刚发布了一个用于抓取网页PDF内容的抓取规则。此规则可以将PDF内容用作网页爬网的HTML。这一神奇之处在于Firefox解析PDF的能力。它可以将PDF格式转换为HTML标记，如div，这样Google seeker网页捕获软件就可以像普通网页一样捕获结构化内容

　　因此，出现了一个问题：python爬虫在多大程度上可以被使用。下面将描述一个实验过程和源代码

　　二,。用于将PDF转换为文本的Python源代码

　　下面的Python源代码读取PDF文件的内容（在Internet或本地），将其转换为文本并打印出来。此代码主要使用第三方库pdfminer3k将PDF读入字符串，然后使用stringio将其转换为文件对象。（有关源代码下载地址，请参阅文章末尾的GitHub源代码）

　　from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

　　如果PDF文件在您的计算机上，请将urlopen返回的对象Pdfile替换为普通的open（）文件对象

　　三,。前景

　　本实验仅将PDF转换为文本，而不是如开始所述的HTML标记。它在Python编程环境中是否具有这种能力还有待于将来的探索

　　四,。Jisoke gooseeker开源代码下载源代码

　　1.gooseeker开源Python网络爬虫GitHub源代码

　　五,。文档修改历史记录

　　2016-05-26:V2.0，补充文本说明

　　2016-05-29:V2.1，增加第6章：下载源代码并更改GitHub source网站

0

2021-10-05

集搜客网页抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

集搜客网页抓取软件( 《Python网络数据采集》一个抓取网页pdf内容的抓取规则)

0 个评论

发起人

AI时代内容工厂

集搜客网页抓取软件( 《Python网络数据采集》一个抓取网页pdf内容的抓取规则)

0 个评论

发起人

相关问题