动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)

优采云 发布时间: 2022-03-17 12:03

  动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)

  动态网页抓取建议选择iis性能可能会低一些,最多不超过iis的30%。但chrome的性能还是可以的,抓取静态网页的性能也完全可以了。windows的话建议选择yum,ubuntu可以选择apt-getimagepackages安装。静态网页抓取java可以使用eclipse,有使用securecrt的扩展。

  服务器端建议sqlite1(3.2以下版本。)或者oracle11g。网页抓取linux环境可以使用nginx。每一种环境可以自行安装来尝试。

  推荐使用爬虫scrapy,简单易用文档齐全.scrapyjs

  iis-uwsgi+lxml

  1.首先你要使用前端工具不同:如apache、nginx、mysql、ror等等。iis是用来做web的工具,主要负责数据库,而osx下的fedora是做服务器开发的,不是用来做数据库的,所以你要使用服务器工具,比如lxml或者ror.python,apache,nginx等.2.windows下:首推lxml,。

  用爬虫还是要抓到数据吧,要是数据多,手写redis好像也没那么快,找些别人搭好的web服务应该也不难,既然要实时抓取,快速服务器肯定必须的。

  用fedora做服务器应该可以吧。

  我用的是windows10用eclipse写iis,lxml写python。写好for循环依然无法向服务器输出数据,然后换ide,读取同样的文件列表没有任何问题,看来很可能是编译器的问题,我感觉很可能是xcode的bug,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线