网页抓取qq( 如何用Python登录各大网站,并用自然语言处理还是计算机视觉)

优采云 发布时间: 2022-02-07 05:21

  网页抓取qq(

如何用Python登录各大网站,并用自然语言处理还是计算机视觉)

  

  无论是自然语言处理还是计算机视觉,机器学习算法总会出现数据不足的情况,这时候我们就需要借助爬虫来获取一些额外的数据。本项目介绍如何使用Python登录各大网站,并使用简单的爬虫获取一些有用的数据。目前该项目已经提供了知乎、B站、豆瓣等18种网站登录方式。

  这是小编准备的python爬虫学习资料,关注转发,私信小编“01”免费领取!

  

  笔者采集了网站的一些登录方式和爬虫程序,有的通过selenium登录,有的直接通过抓包模拟登录。作者希望这个项目可以帮助初学者学习网站专业的模拟登录方法,爬取一些需要的数据。

  笔者表示,模拟登录基本采用直接登录或者使用selenium+webdriver的方式,有些网站直接登录难度很大,比如空间和bilibili等,使用selenium登录相对容易。虽然登录时使用了selenium,但是为了效率,我们也可以在登录后维护获取到的cookie。登录后我们可以调用requests或者scrapy等工具获取数据采集,这样数据的速度< @采集 可以保证。

  到目前为止完成的 网站 包括:

  如下图,如果我们满足依赖,那么我们可以直接运行代码,它会下载Graphworm网站中搜索到的图片。

  

  下图是搜索“秋天”并完成下载的图片:

  

  每个网站都会有对应的登录码,有的还有数据爬取码。以豆瓣为例,主要登录功能如下,获取验证码,处理验证码,返回登录数据完成登录,最后保留cookies。

  

  验证码获取与解析函数如下:

  

  当然这些都是简单的演示,更多的例子可以在 GitHub 项目中找到。另外,作者指出由于 网站 策略或样式更改导致代码失败,我们也可以提交 Issue 或 Pull Requests。最后,项目以后会继续维护,很多东西会逐渐完善。项目作者表示:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线