snoopy php网页抓取工具(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址 )

优采云发布时间: 2021-10-13 00:11

　　snoopy php网页抓取工具(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址

)

　　任务：批量抓取网页pdf文件

　　有一个 excel，其中有数千个指向 pdf 下载链接的网页地址。现在需要批量抓取这些网页地址中的pdf文件。

　　Python环境：

　　蟒蛇3

　　打开pyxl

　　Beautifulsoup4 读取excel，获取网页地址

　　使用 openpyxl 库读取 .xslx 文件；

　　（我尝试使用xlrd库读取.xsl文件，但是无法获取超链接）

　　安装 openpyxl

　　pip install openpyxl

　　提取 xslx 文件中的超链接

　　示例文件结构

　　公告日期证券代码公告名称

　　2018-04-20

　　603999.SH

　　读者媒体：2017年年报

　　2018-04-28

　　603998.SH

　　方盛药业：2017年年报

　　def readxlsx(path):

workbook = openpyxl.load_workbook(path)

Data_sheet = workbook.get_sheet_by_name('sheet1')

rowNum = Data_sheet.max_row #读取最大行数

c = 3 # 第三列是所需要提取的数据

server = 'http://news.windin.com/ns/'

for row in range(1, rowNum + 1):

link = Data_sheet.cell(row=row, column=c).value

url = re.split(r'\"', link)[1]

print(url)

downEachPdf(url, server)

　　获取网页pdf下载地址

　　进入阅读媒体：2017年年报，可以在Chrome浏览器中按F12查看网页源码，以下是源码截取：

<p>附件:

0

2021-10-13

snoopy php网页抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

snoopy php网页抓取工具(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址 )

0 个评论

发起人

AI时代内容工厂

snoopy php网页抓取工具(603999.SH读者传媒:2017年年度报告获取网页pdf下载地址 )

0 个评论

发起人

相关问题