网页抓取工具(如何搭建一个知乎爬虫框架？--阿雷的回答)

优采云发布时间: 2021-10-18 17:02

　　网页抓取工具webauthenticatorlabeledload-in-and-out，抓取前把网页放进去，抓取结束，不能保留js文件。语言方面需要会爬虫开发或者编译器开发，一般java。

　　上javaswing的东西吧，

　　cookie

　　googleapipost的ws方法封装，我们一般这么用的。用这个封装一套基本可以封装国内post请求。然后将一些功能封装成php函数。再封装一些模块。剩下的就是框架的问题。能不用框架的还是尽量不用。

　　请scrapy

　　这种一般都是需要自己开发，像我都是使用nginx转发请求，然后处理结果输出到浏览器，然后以cookie或者session的形式保存返回的数据。网上有例子，看一下就知道了。

　　说的不就是flask么？

　　模拟登录找方法，

　　我的知乎回答：如何搭建一个知乎爬虫框架？-阿雷的回答

　　python相关可以尝试试试pil的封装，进行图片爬取。也可以尝试下这个+的结构，打包后的xml.python可以直接执行爬取网页内容，不需要发送请求。

　　建议用web方面的框架，requests，postman就可以，前端就不要过分依赖第三方库了，基本语法是爬虫基础，框架本身已经封装好爬取数据的语法，你可以查看看。基础的爬虫不比python高深，说真的学写一个爬虫要学好多东西，还不如写一个简单的爬虫的代码量。

0

2021-10-18

网页抓取工具

0 个评论

要回复文章请先登录或注册