网页源代码抓取工具(知乎话题『美女』下所有问题中回答所出现的图片)
优采云 发布时间: 2021-12-23 08:21网页源代码抓取工具(知乎话题『美女』下所有问题中回答所出现的图片)
免责声明:所有直接或间接、明示或暗示的文字、图片及相关外部链接,涉及性别、颜值得分等信息均由相关人脸检测界面给出。没有任何客观性,仅供参考。
1 数据来源
知乎“美女”主题下所有问题的答案中出现的图片
2 履带
Python 3,并使用第三方库Requests、lxml、AipFace,共100+行代码
3 必要的环境
Mac / Linux / Windows(Linux没有测试过,理论上,Windows之前反应过异常,但检查后发现Windows限制了本地文件名中的字符并使用了常规过滤),无需登录知乎(即无需提供知乎账号密码),人脸检测服务需要百度云账号(即百度云盘/贴吧账号)
4 人脸检测库
百度云AI开放平台提供的AipFace是一个可以进行人脸检测的Python SDK。可以直接通过HTTP访问,免费使用
5 测试过滤条件
6 实现逻辑
7 抓取结果
直接存放在文件夹中(angelababy实力出国)。另外,目前拍摄的照片中,除了baby,88分是最高分。我个人反对排名,我老婆也不是最高分。
8码
这篇文章中的代码有一百行。针对微信公众号代码阅读体验不佳,小编已将源码保存。请到微信公众号后台回复关键词“知乎爬虫”获取。
微信后台入口
9 操作准备
{
"error": {
"message": "ZERR_NO_AUTH_TOKEN",
"code": 100,
"name": "AuthenticationInvalidRequest"
}
}
10 结论
❈