动态网页抓取建议scrapy比较好，requests、beautifulsoup、get请求

优采云发布时间: 2022-08-30 13:01

　　动态网页抓取建议爬虫scrapy比较好，不过它是python的，你python的基础没有，可以尝试学下django，

　　requests、beautifulsoup、get请求

　　scrapy爬虫框架

　　搜索【python爬虫】+【爬虫框架】

　　大部分公司的爬虫都是用webpy，比如我之前在猪八戒网做的一套在线图片爬虫就是用webpy来完成的。在客户端就使用相应的客户端框架即可，正常的都有现成的爬虫框架，不需要额外学习。

　　大量数据（200w以上），建议先用groupon的爬虫来练练手。里面的爬虫在国内是最受欢迎的，打开它的官网找爬虫代码即可。

　　别抓那种杂七杂八的，只抓一两个主题；千万别求快,细心的控制每次抓取量，

　　pythondjango

　　万网，成功率50%左右。

　　美团、拼多多用uiwebview来实现cookie。华为等用基于node的appium来实现短信验证码。百度云、谷歌浏览器使用webdriver。

　　看你要爬取的数据是什么样的了，数据多而杂，人家python精通python那不是抢饭碗吗，爬爬简单的，人家python不会python的倒是有些，还有就是先定位大致方向，比如页面地址，下载地址，后面主要根据数据，实现不同的功能。比如“大姨吗”的api就是分步骤，关键页面用不同的爬虫爬取爬取出你想要的xxxx.exe文件来，后期你是直接打开html还是直接直接分步骤解析html？目前我就知道这么多。多做动手实践！。

0

2022-08-30

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

动态网页抓取建议scrapy比较好，requests、beautifulsoup、get请求

0 个评论

发起人