网页抓取数据(网页抓取数据，可以写javascript函数，方便自己把js代码保存下来)

优采云发布时间: 2022-01-14 19:01

　　网页抓取数据，可以写javascript函数，方便自己把js代码保存下来，然后用python或ruby进行解析。可以了解下爬虫开发，打造自己专属爬虫。推荐一本爬虫开发的好书：http权威指南(豆瓣)，其中介绍了python，基础库，程序设计等部分内容。

　　ajax生成动态的cookie，

　　http权威指南

　　找一些自己看的懂的python和ruby的教程

　　爬虫的基础是python+ruby我要推荐一个，我只推荐python和ruby，我们经常说的restful，http，python里面现成的这个库都是无敌的，你们去看看requests包括exception之后的if,else代码都是无敌的，包括asyncio包括接下来的continue也是无敌的，defasync_future_call():break:returntrue一举弄定了，再来看看pythonexception模块defcontinue_interval():passasyncio模块raise等等这些模块请先实现接口返回的http请求，然后每一条操作都带上异步io的方法等等，这些无敌了，我的代码除了用了redis，用了纯python，其他的异步io是自己实现的。

　　今天我看了一个爬虫的，搞定用nodejs的httpquest，看起来比较简单，有些难点:1.请求头里的host,port等需要查看明确和人工补全。2.请求头里的正则表达式是否恰当，还有':',等符号也需要复制下来。3.请求过程中的一些特殊字符串，比如空格等需要自己处理以及生成字符串注意:：1.看懂基本入门用的这个库nodejshttpquestbabeljquery2.学好http协议接下来完全可以http.header、http协议概念、http方法等多看看。

　　3.适当增加js*敏*感*词*器抓取点数据。4.多尝试在python语言里实现http协议，打包成gzip压缩包、p2p传输等方式来搞爬虫。5.基于requests库实现从get请求获取网页，模拟登录再弄本页面爬取。w3cschool(现在不包了)提供完整的爬虫教程，爬虫不难，别人写好的模板现成的，自己修改下就好了，download一下就是了，要注意处理post，别太频繁post和header反正主要就是python，或者ruby(proxies包在这)，python，ruby环境，方便，基础不好用1年老项目，别tmd玩nodejs了，解释型语言，自己google项目和实现不都是那些事儿吗，或者你直接看我的系列[爬虫·解决]()，三天你就精通爬虫了。

0

2022-01-14

网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据(网页抓取数据，可以写javascript函数，方便自己把js代码保存下来)

0 个评论

发起人

AI时代内容工厂

网页抓取数据(网页抓取数据，可以写javascript函数，方便自己把js代码保存下来)

0 个评论

发起人

相关问题