汇总:p2p网站自动采集，或手动采集(一)

优采云发布时间: 2022-11-12 21:23

　　自动采集，或手动采集。

　　1、爬虫采集，如腾讯、百度的众多爬虫采集工具。

　　2、请求数据库采集，如一些p2p的网站，有的要求必须在session中采集数据。

　　3、ocr文字识别采集，如电子表格数据库采集及ocr文字识别之类的技术。

　　4、提取域名后缀进行采集。网站只要实现对特定网页的快速抓取，内容的覆盖就足够丰富了。比如对一些资讯网站，可以抓取评论，分析短评的内容，进行用户画像。抓取的方式也不局限，可以使用scrapy框架，也可以使用requests+beautifulsoup。至于这些采集方式的编程语言，大概得看爬虫编程的知识。

　　现在用的比较多的爬虫框架是scrapy、beautifulsoup，nodejs，python，python爬虫框架有celery、scrapy、beautifulsoup、sklearn、lxml、mongoose，

　　2、hibernate、springmvc、tomcat、zendesk、maven。bat员工的能力，小公司的，也好多能超过celery+beautifulsoup+scrapy一定多处爬虫开发能力，比如celery和beautifulsoup的对多爬虫的特点，功能，可以根据工作需要个性化定制，做到功能无差别。代码可以和开发人员分享，分成工作效率工作经验贡献。

　　如果你公司也有爬虫的产品或者部门，

0

2022-11-12

自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总:p2p网站自动采集，或手动采集(一)

0 个评论

发起人

AI时代内容工厂

汇总:p2p网站自动采集，或手动采集(一)

0 个评论

发起人

相关问题