网页抓取工具(如何搭建一个知乎爬虫框架?--阿雷的回答)

优采云 发布时间: 2021-10-18 17:02

  网页抓取工具(如何搭建一个知乎爬虫框架?--阿雷的回答)

  网页抓取工具webauthenticatorlabeledload-in-and-out,抓取前把网页放进去,抓取结束,不能保留js文件。语言方面需要会爬虫开发或者编译器开发,一般java。

  上javaswing的东西吧,

  cookie

  googleapipost的ws方法封装,我们一般这么用的。用这个封装一套基本可以封装国内post请求。然后将一些功能封装成php函数。再封装一些模块。剩下的就是框架的问题。能不用框架的还是尽量不用。

  请scrapy

  这种一般都是需要自己开发,像我都是使用nginx转发请求,然后处理结果输出到浏览器,然后以cookie或者session的形式保存返回的数据。网上有例子,看一下就知道了。

  说的不就是flask么?

  模拟登录找方法,

  我的知乎回答:如何搭建一个知乎爬虫框架?-阿雷的回答

  python相关可以尝试试试pil的封装,进行图片爬取。也可以尝试下这个+的结构,打包后的xml.python可以直接执行爬取网页内容,不需要发送请求。

  建议用web方面的框架,requests,postman就可以,前端就不要过分依赖第三方库了,基本语法是爬虫基础,框架本身已经封装好爬取数据的语法,你可以查看看。基础的爬虫不比python高深,说真的学写一个爬虫要学好多东西,还不如写一个简单的爬虫的代码量。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线