爬虫抓取网页数据(python、数据挖掘、机器学习和自然语言处理领域的应用情况)

优采云发布时间: 2021-11-06 12:05

　　python是如何用于网络爬虫、数据挖掘、机器学习和自然语言处理的？

　　Python 的快速迭代能力使其广受欢迎。根据原主持人的问题，结合我有限的经验一一解答：

　　1）Scrapy，易于使用。结合rq-queue，可以轻松构建分布式爬虫。有一次我是这样爬下整个豆瓣朋友圈的。

　　2）数据挖掘中常用的算法都是用python实现的。肖志博提到的scikit learn可谓是最好的。不仅文档清晰，而且几乎所有常用的算法都实现了。我们使用 scikit learn 制作了一个 evemt 检测系统。整个系统用python编写，机器学习部分用python编写

　　3）nlp 部分不是特别好理解。nltk 在许多大学课程中被广泛使用。

　　在企业：

　　据我所知在公司的使用情况

　　谷歌：爬虫 C++、数据挖掘 C++、nlp C++。Python用于处理数据。

　　twitter：所有服务都使用java和scala，使用python编写快速迭代的工具。比如做搜索引擎算法的同事写了一个python客户端，在内部测试搜索质量。我用py写了一个搜索词推荐系统，包括接口、算法和接口，测试通过后改写成java。

　　一点想法：

　　py 的优势在于，py 可以用几十行其他语言的数百个句子来做事情，帮助开发者专注于问题。总结各种工具包，没有人会花时间写一个 svm（并确保不要写错）。但是py有一个巨大的缺点，它仍然很慢。有人会说算法优化很重要，不需要不断优化。但现实是大家都在不断优化，因为如果算法优化了，设计阶段就优化了，这就是为什么py在twitter中被翻译成java的原因。

　　但总的来说，即使你使用py开发然后翻译，也比直接在java中编写和测试要快得多。

0

2021-11-06

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫抓取网页数据(python、数据挖掘、机器学习和自然语言处理领域的应用情况)

0 个评论

发起人