动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)

优采云发布时间: 2022-03-17 12:03

　　动态网页抓取建议选择iis性能可能会低一些，最多不超过iis的30%。但chrome的性能还是可以的，抓取静态网页的性能也完全可以了。windows的话建议选择yum，ubuntu可以选择apt-getimagepackages安装。静态网页抓取java可以使用eclipse，有使用securecrt的扩展。

　　服务器端建议sqlite1（3.2以下版本。）或者oracle11g。网页抓取linux环境可以使用nginx。每一种环境可以自行安装来尝试。

　　推荐使用爬虫scrapy,简单易用文档齐全.scrapyjs

　　iis-uwsgi+lxml

　　1.首先你要使用前端工具不同：如apache、nginx、mysql、ror等等。iis是用来做web的工具，主要负责数据库，而osx下的fedora是做服务器开发的，不是用来做数据库的，所以你要使用服务器工具，比如lxml或者ror.python，apache，nginx等.2.windows下：首推lxml,。

　　用爬虫还是要抓到数据吧，要是数据多，手写redis好像也没那么快，找些别人搭好的web服务应该也不难，既然要实时抓取，快速服务器肯定必须的。

　　用fedora做服务器应该可以吧。

　　我用的是windows10用eclipse写iis,lxml写python。写好for循环依然无法向服务器输出数据，然后换ide，读取同样的文件列表没有任何问题，看来很可能是编译器的问题，我感觉很可能是xcode的bug，

0

2022-03-17

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)

0 个评论

发起人

AI时代内容工厂

动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)

0 个评论

发起人

相关问题