一般公司做爬虫采集的话常用哪些语言

优采云 发布时间: 2020-05-03 08:09

  

  其实我不太同意做了DHT爬虫这位的说法。

  不同语言自然会有不同害处。离开环境谈那个好网络爬虫用什么语言写,哪个不好都是耍流氓。

  1,如果是自己做着玩的话,定向爬几个页面网络爬虫用什么语言写,效率不是核心要求的话,问题不会大,什么语言都行的,性能差别不会大。当然,如果遇到极其复杂的页面,正则写的很复杂的话,爬虫的可维护性都会增长。

  2,如果是做定向爬取,而目标又要解析动态js。

  那么这个时侯,用普通的恳求页面,然后得到内容的方式肯定不行了,就要一个类似firfox,chrome的js引擎来对js代码做动态解析。这个时侯推荐casperJS+phantomjs或slimerJS+phantomjs

  3,如果是*敏*感*词*的网站爬取

  这个时侯就要考虑到,效率,扩展性,可维护性,等等了。

  *敏*感*词*的爬取涉及的方面好多,比如分布式爬取,判重机制,任务调度。这些问题深入下去哪一个简单了?

  语言选定这个时侯很重要。

  NodeJs:做爬虫效率很高。高并发,多线程编程弄成了简单的遍历和callback,内存cpu占用小,要处理好callback。

  PHP:各种框架四处有,随便拉个来用都行。但是,PHP的效率真的有问题…不多说

  Python:我用python写的比较多,对各类问题都有比较好的支持。scrapy框架挺好用,优点多。

  我认为js也不是太适宜写…效率问题。没写过,估计会有麻烦一堆。

  据我晓得的,大公司也有用c++的,总之大多数都是在开源框架上改建。真重新造个轮子的不多吧。

  不值。

  随手凭印象写的,欢迎见谅。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线