网页源代码抓取工具(知乎话题『美女』下所有问题中回答所出现的图片)

优采云 发布时间: 2021-12-23 08:21

  网页源代码抓取工具(知乎话题『美女』下所有问题中回答所出现的图片)

  免责声明:所有直接或间接、明示或暗示的文字、图片及相关外部链接,涉及性别、颜值得分等信息均由相关人脸检测界面给出。没有任何客观性,仅供参考。

  1 数据来源

  知乎“美女”主题下所有问题的答案中出现的图片

  2 履带

  Python 3,并使用第三方库Requests、lxml、AipFace,共100+行代码

  3 必要的环境

  Mac / Linux / Windows(Linux没有测试过,理论上,Windows之前反应过异常,但检查后发现Windows限制了本地文件名中的字符并使用了常规过滤),无需登录知乎(即无需提供知乎账号密码),人脸检测服务需要百度云账号(即百度云盘/贴吧账号)

  4 人脸检测库

  百度云AI开放平台提供的AipFace是一个可以进行人脸检测的Python SDK。可以直接通过HTTP访问,免费使用

  5 测试过滤条件

  6 实现逻辑

  7 抓取结果

  直接存放在文件夹中(angelababy实力出国)。另外,目前拍摄的照片中,除了baby,88分是最高分。我个人反对排名,我老婆也不是最高分。

  

  

  

  

  8码

  这篇文章中的代码有一百行。针对微信公众号代码阅读体验不佳,小编已将源码保存。请到微信公众号后台回复关键词“知乎爬虫”获取。

  

  微信后台入口

  9 操作准备

  

  

  

  

  {

"error": {

"message": "ZERR_NO_AUTH_TOKEN",

"code": 100,

"name": "AuthenticationInvalidRequest"

}

}

  

  10 结论

  ❈

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线