动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)
优采云 发布时间: 2022-03-17 12:03动态网页抓取(静态网页抓取java可以使用爬虫写python+lxml)
动态网页抓取建议选择iis性能可能会低一些,最多不超过iis的30%。但chrome的性能还是可以的,抓取静态网页的性能也完全可以了。windows的话建议选择yum,ubuntu可以选择apt-getimagepackages安装。静态网页抓取java可以使用eclipse,有使用securecrt的扩展。
服务器端建议sqlite1(3.2以下版本。)或者oracle11g。网页抓取linux环境可以使用nginx。每一种环境可以自行安装来尝试。
推荐使用爬虫scrapy,简单易用文档齐全.scrapyjs
iis-uwsgi+lxml
1.首先你要使用前端工具不同:如apache、nginx、mysql、ror等等。iis是用来做web的工具,主要负责数据库,而osx下的fedora是做服务器开发的,不是用来做数据库的,所以你要使用服务器工具,比如lxml或者ror.python,apache,nginx等.2.windows下:首推lxml,。
用爬虫还是要抓到数据吧,要是数据多,手写redis好像也没那么快,找些别人搭好的web服务应该也不难,既然要实时抓取,快速服务器肯定必须的。
用fedora做服务器应该可以吧。
我用的是windows10用eclipse写iis,lxml写python。写好for循环依然无法向服务器输出数据,然后换ide,读取同样的文件列表没有任何问题,看来很可能是编译器的问题,我感觉很可能是xcode的bug,