snoopy php网页抓取工具(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址 )
优采云 发布时间: 2021-10-13 00:11snoopy php网页抓取工具(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址
)
任务:批量抓取网页pdf文件
有一个 excel,其中有数千个指向 pdf 下载链接的网页地址。现在需要批量抓取这些网页地址中的pdf文件。
Python环境:
蟒蛇3
打开pyxl
Beautifulsoup4 读取excel,获取网页地址
使用 openpyxl 库读取 .xslx 文件;
(我尝试使用xlrd库读取.xsl文件,但是无法获取超链接)
安装 openpyxl
pip install openpyxl
提取 xslx 文件中的超链接
示例文件结构
公告日期 证券代码公告名称
2018-04-20
603999.SH
读者媒体:2017年年报
2018-04-28
603998.SH
方盛药业:2017年年报
def readxlsx(path):
workbook = openpyxl.load_workbook(path)
Data_sheet = workbook.get_sheet_by_name('sheet1')
rowNum = Data_sheet.max_row #读取最大行数
c = 3 # 第三列是所需要提取的数据
server = 'http://news.windin.com/ns/'
for row in range(1, rowNum + 1):
link = Data_sheet.cell(row=row, column=c).value
url = re.split(r'\"', link)[1]
print(url)
downEachPdf(url, server)
获取网页pdf下载地址
进入阅读媒体:2017年年报,可以在Chrome浏览器中按F12查看网页源码,以下是源码截取:
<p>附件: