excel抓取多页网页数据(如何使用网页抓取函数(url,,csscss))
优采云 发布时间: 2021-10-26 05:18excel抓取多页网页数据(如何使用网页抓取函数(url,,csscss))
接上一个话题,今天继续讲解如何使用网络爬虫函数GetTableByClassNameW(url, css)抓取1688上产品的规格、型号、价格、库存数据网站 .
如下图,打开1688网页,请求规格、价格、库存等数据。
根据网页的结构,我们可以很容易的知道一个表格中的规格、价格、库存情况,所以我们使用Firefox的check element函数来查找表格的样式名称或者id。
从源码中找到table的类名是table-sku
接下来在excel表格中写入公式=GetTableByClassNameW(A2,"table-sku"),打开Excel浏览器开始网络爬虫任务。
当Excel浏览器完成捕获任务后,返回Excel重新计算公式,会得到如下数据。
公式返回的数据是一长串文本。仔细观察,发现“-+断货”;是表格每一行的最后一个关键词,为了方便阅读,我们按照关键词 "-+Out of stock;"包装。
1.5米10灯电池款;6.50元;7190套可售;-+缺货;3米20灯电池款;11.00元;9488套可售;-+缺货;3米20灯usb款;11.00元;9941套可售;-+缺货;6米40灯电池款;21.00元;9994套可售;-+缺货;6米40灯usb款;21.00元;9997套可售;-+缺货;......
使用函数Split2Row(data!A1:B18,2,"-+out of stock;")将捕获的表格数据逐行拆分。函数中data!A1:B18指的是表格区域,2指的是表格第二列的明细行数据,需要拆分,“-+out of stock;”是关键词,点击这里关键词拆分。
拆分后的数据需要进一步处理。使用公式 =Split2Column(B3,";") 继续拆分数据,将规格、价格和库存拆分为列。用分号“;”分割在这里。
经过以上步骤,利用Excel网络函数库的网页爬取功能就可以抓取网页数据,进行数据处理。看起来有点难,但是写公式比学Python编程容易多了。
如果你觉得这个技巧很实用,请帮忙转发给你的朋友