网页抓取qq(络上主流网站的模拟登陆方法:知乎需要手机号才能注册登陆)
优采云 发布时间: 2022-01-31 01:21网页抓取qq(络上主流网站的模拟登陆方法:知乎需要手机号才能注册登陆)
网上有各种各样的网站。不同类型的网站爬虫有不同的策略和不同的难度。至于是否需要登录,一些简单的网站不用登录也可以爬,比如之前爬过的猫眼影视、东方财富网等。有的网站在爬山前需要先登录,比如知乎、微信等。这类网站在模拟登录时需要处理验证码、js加密参数等问题,而且爬行会困难得多。登录爬取想要的内容需要花费很大的精力,这需要花费很多时间。
这是小编准备的py thon学习资料。想学py thon或者人工智能的朋友可以私信小编“01”获取学习资料!
实现每个网站的模拟登录方法是不是必须自己动手?从效率上来说,其实是没有必要的。前人已经为我们造好了轮子。
最近发现了一个神奇的库,总结了几十种主流的网站模拟登录方式:
这些网站基本都是使用直接登录或者selenium+webdriver的方式。每个网站都有完整的模拟登录代码,可以在自己的爬虫中使用。
让我们测试一下。
再说说难以爬取的“知乎”。如果我们要爬取知乎首页的HTML内容,必须先登录才能爬取,否则就看不到这个界面了。以下是该过程的简要概述。
知乎注册登录需要手机号,为了方便测试,可以找个手机号
登录成功后,即可进入首页。
接下来,我们使用这个库提供的代码来模拟登录,输出首页的HTML内容进行测试。操作非常简单,只需要输入手机号、密码和验证码即可。
登录成功后,接下来可以做一些有趣的事情。比如有人爬取了所有知乎账号的信息,分析了知乎用户群的画像。
是不是很有趣。
再来看看微信。使用上述微信代码抓取所有微信好友信息,如:昵称、性别、地区、个人签名。然后你可以分析一下你的朋友圈是什么样子的,应该很有趣吧。
你也可以爬B站:
还可以爬上链家租房信息:
里面有很多实用有趣的内容,就不一一列举了,有兴趣的可以试试