知乎网页采集功能(一)数据采集截止日期2018年
优采云 发布时间: 2022-06-15 10:02知乎网页采集功能(一)数据采集截止日期2018年
文章采集功能:本文采集截止日期2018年1月11日;提供数据来源于:导航2.数据处理:本功能用于处理链接分析和取值数据,还未有数据收集和导入数据等环节,不过今后会加上以下数据处理2.1爬取并导入数据爬取流程:1.首先登录知乎:;camp=5392.进入知乎后台创建camp账号(找到我的淘宝)3.浏览知乎网页并回答问题(并收藏和赞)后台会返回:"请求抓取"数据(postapi接口),点击"用户登录"-->"添加*敏*感*词*"4.联系知乎后台,数据会发来:"采集网址""密码"5.登录,我们使用抓包软件进行抓包分析:secret>start>requestfunctionrequest(url,username,password):request(url,username,password)返回的是一个json数据,为了做处理,我们先取名叫"username","password"ifrequest(url,username,password)isnotnone:request(url,username,password)else:request(url,username,password)在,本文的camp返回的是text(一个json字符串,下划线开头,表示不明文)。
3.转化为json数据通过schemajson=json.loads(json.dumps({"path":"","name":"公司","campaign":"月薪2500"}))forjsoninjson.loads(schema):json.stringify(c.get("username"))+c.get("password")3.2解析并存储数据源文件我们先查看一下来源网址的解析,访问的时候,在请求参数中返回2个值,一个是username,一个是password,按惯例,我们在工具栏按钮执行safari的ctrl+c(拖拽鼠标滚轮),我们会得到如下图所示的页面:safari的解析我们继续把页面拉到底,会看到json字符串有:"请求抓取"数据,找到这一行,抓包,并分析:这是json的一种格式,采用json.stringify()函数实现。
json.stringify()函数生成json字符串,输出的是.json()中的“path”字段:然后我们的"请求抓取"数据依次放到了存储的目录里:通过sofa工具的read.csv()read.xlsx()来解析网页数据。read.csv()解析后就是如下图所示:我们需要得到“salary”这一列,"salary"这一列有4个列值:“月薪","年薪","所在城市"和".”,我们的爬虫应该抓取的是"年薪"这一列并存入数据库中:请求导出json格式是这样:-c3-1.zip经过解析后我们得到的最终格式是:-c3-3.json-all.json-full.json找到标题和评论区这一列,我们在"评论区"这一列建立一个字典,公布在自己的文章右下角,数据如下:写代码时也。