集搜客网页抓取软件(用Python爬虫的话抓取网页pdf内容的规则和展望规则)
优采云 发布时间: 2021-12-21 10:09集搜客网页抓取软件(用Python爬虫的话抓取网页pdf内容的规则和展望规则)
1、介绍
晚上翻看《Python网络数据采集》这本书,看到了阅读PDF内容的代码。记得前几天,Jisouke刚刚发布了一个抓取网页pdf内容的抓取规则。 , 该规则可以将pdf内容当成html进行网页抓取。神奇之处在于Firefox具有解析PDF的能力,可以将pdf格式转换成html标签,比如div之类的标签,让GooSeeker网络爬虫软件可以像普通网页一样抓取结构化内容。
于是就有了一个问题:Python爬虫能做到什么程度。下面将描述一个实验过程和源代码。
2、pdf转文本的python源码
下面的python源代码读取pdf文件的内容(网上或本地),转换成文本,打印出来。这段代码主要是使用第三方库PDFMiner3K将PDF读取为字符串,然后使用StringIO将其转换为文件对象。 (源码下载地址请见文章末尾的GitHub源码)
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
如果 PDF 文件在您的计算机上,请将 urlopen 返回的 pdfFile 替换为普通的 open() 文件对象。
3、展望
本次实验只将pdf转为文本,并没有像开头提到的转为html标签,所以在Python编程环境中是否有这个能力,留待以后探索。
4、采集GooSeeker开源代码下载源码
1. GooSeeker 开源 Python 网络爬虫 GitHub 源码
5、文档修改历史
上一章使用Selenium+PhantomJS抓取Ajax动态内容 下一章Python内容提取器定义