网页抓取qq( 如何用Python登录各大网站，并用自然语言处理还是计算机视觉)

优采云发布时间: 2022-02-07 05:21

　　网页抓取qq(

如何用Python登录各大网站，并用自然语言处理还是计算机视觉)

　　无论是自然语言处理还是计算机视觉，机器学习算法总会出现数据不足的情况，这时候我们就需要借助爬虫来获取一些额外的数据。本项目介绍如何使用Python登录各大网站，并使用简单的爬虫获取一些有用的数据。目前该项目已经提供了知乎、B站、豆瓣等18种网站登录方式。

　　这是小编准备的python爬虫学习资料，关注转发，私信小编“01”免费领取！

　　笔者采集了网站的一些登录方式和爬虫程序，有的通过selenium登录，有的直接通过抓包模拟登录。作者希望这个项目可以帮助初学者学习网站专业的模拟登录方法，爬取一些需要的数据。

　　笔者表示，模拟登录基本采用直接登录或者使用selenium+webdriver的方式，有些网站直接登录难度很大，比如空间和bilibili等，使用selenium登录相对容易。虽然登录时使用了selenium，但是为了效率，我们也可以在登录后维护获取到的cookie。登录后我们可以调用requests或者scrapy等工具获取数据采集，这样数据的速度< @采集可以保证。

　　到目前为止完成的网站包括：

　　如下图，如果我们满足依赖，那么我们可以直接运行代码，它会下载Graphworm网站中搜索到的图片。

　　下图是搜索“秋天”并完成下载的图片：

　　每个网站都会有对应的登录码，有的还有数据爬取码。以豆瓣为例，主要登录功能如下，获取验证码，处理验证码，返回登录数据完成登录，最后保留cookies。

　　验证码获取与解析函数如下：

　　当然这些都是简单的演示，更多的例子可以在 GitHub 项目中找到。另外，作者指出由于网站策略或样式更改导致代码失败，我们也可以提交 Issue 或 Pull Requests。最后，项目以后会继续维护，很多东西会逐渐完善。项目作者表示：

0

2022-02-07

网页抓取qq

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取qq( 如何用Python登录各大网站，并用自然语言处理还是计算机视觉)

0 个评论

发起人

AI时代内容工厂

网页抓取qq( 如何用Python登录各大网站，并用自然语言处理还是计算机视觉)

0 个评论

发起人

相关问题