动态网页抓取建议scrapy比较好,requests、beautifulsoup、get请求

优采云 发布时间: 2022-08-30 13:01

  动态网页抓取建议scrapy比较好,requests、beautifulsoup、get请求

  动态网页抓取建议爬虫scrapy比较好,不过它是python的,你python的基础没有,可以尝试学下django,

  requests、beautifulsoup、get请求

  scrapy爬虫框架

  

  搜索【python爬虫】+【爬虫框架】

  大部分公司的爬虫都是用webpy,比如我之前在猪八戒网做的一套在线图片爬虫就是用webpy来完成的。在客户端就使用相应的客户端框架即可,正常的都有现成的爬虫框架,不需要额外学习。

  大量数据(200w以上),建议先用groupon的爬虫来练练手。里面的爬虫在国内是最受欢迎的,打开它的官网找爬虫代码即可。

  别抓那种杂七杂八的,只抓一两个主题;千万别求快,细心的控制每次抓取量,

  

  pythondjango

  万网,成功率50%左右。

  美团、拼多多用uiwebview来实现cookie。华为等用基于node的appium来实现短信验证码。百度云、谷歌浏览器使用webdriver。

  看你要爬取的数据是什么样的了,数据多而杂,人家python精通python那不是抢饭碗吗,爬爬简单的,人家python不会python的倒是有些,还有就是先定位大致方向,比如页面地址,下载地址,后面主要根据数据,实现不同的功能。比如“大姨吗”的api就是分步骤,关键页面用不同的爬虫爬取爬取出你想要的xxxx.exe文件来,后期你是直接打开html还是直接直接分步骤解析html?目前我就知道这么多。多做动手实践!。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线