爬虫抓取网页数据(python、数据挖掘、机器学习和自然语言处理领域的应用情况)
优采云 发布时间: 2021-11-06 12:05爬虫抓取网页数据(python、数据挖掘、机器学习和自然语言处理领域的应用情况)
python是如何用于网络爬虫、数据挖掘、机器学习和自然语言处理的?
Python 的快速迭代能力使其广受欢迎。根据原主持人的问题,结合我有限的经验一一解答:
1)Scrapy,易于使用。结合rq-queue,可以轻松构建分布式爬虫。有一次我是这样爬下整个豆瓣朋友圈的。
2) 数据挖掘中常用的算法都是用python实现的。肖志博提到的scikit learn可谓是最好的。不仅文档清晰,而且几乎所有常用的算法都实现了。我们使用 scikit learn 制作了一个 evemt 检测系统。整个系统用python编写,机器学习部分用python编写
3)nlp 部分不是特别好理解。nltk 在许多大学课程中被广泛使用。
在企业:
据我所知在公司的使用情况
谷歌:爬虫 C++、数据挖掘 C++、nlp C++。Python用于处理数据。
twitter:所有服务都使用java和scala,使用python编写快速迭代的工具。比如做搜索引擎算法的同事写了一个python客户端,在内部测试搜索质量。我用py写了一个搜索词推荐系统,包括接口、算法和接口,测试通过后改写成java。
一点想法:
py 的优势在于,py 可以用几十行其他语言的数百个句子来做事情,帮助开发者专注于问题。总结各种工具包,没有人会花时间写一个 svm(并确保不要写错)。但是py有一个巨大的缺点,它仍然很慢。有人会说算法优化很重要,不需要不断优化。但现实是大家都在不断优化,因为如果算法优化了,设计阶段就优化了,这就是为什么py在twitter中被翻译成java的原因。
但总的来说,即使你使用py开发然后翻译,也比直接在java中编写和测试要快得多。