自动采集子系统(分布式计算中常见的4大问题和分布式系统相关问题)
优采云 发布时间: 2021-12-24 20:08自动采集子系统(分布式计算中常见的4大问题和分布式系统相关问题)
自动采集子系统有3个核心:各模块相互之间配合才能完整的实现采集目的;不同子系统采集的数据量不一样;采集出来的数据经过整理分类,做了汇总和展示;有限几个服务器可以运行1000个各子系统;采集效率高可以2000次/秒左右的吞吐量;支持全网300万条记录的采集;一键即可采集到上万条上万条信息;可以把采集数据进行清洗,进行去重;支持热门关键词自动采集和seo抓取;高并发,强内存,各项技术指标符合要求;根据数据量采用了两套集群,io密集型高可用集群和存储密集型高可用集群,服务器数量没有限制;双副本组合,多台web机器同时对外提供数据接口;全新架构,无缝切换服务器和ip;主要知识点:。
1、分布式基础架构、hadoop
2、基于springboot、springcloud等开发基础技术;
3、分布式集群部署、springmvc,mybatis等框架的使用。
4、分布式安全技术;本文摘要简单介绍了分布式计算中存在的问题和分布式系统的相关问题;为大家分享本文内容,主要是分布式系统相关问题的分享;以供大家学习。
分布式计算中常见的4大问题(后续我们分享更多的内容)
1、网络io多。系统必须同时有很多台机器作为服务器,而其中数据存在cache中,所以就需要gossip的方式记录的数据以及所有的操作记录在服务器上,服务器需要做很多数据review,服务器数量成问题。
2、并发访问量高。很多系统因为采用soa架构,一台机器上会部署大量的客户端请求,同时也会采用db来存储数据,当数据量比较大,这样gossip方式记录的数据容易被dbmiss。
3、整个数据库中,有很多schema、package、sql表等数据。很多数据本身就是一个statement(日志)。数据采集接口如果对内存进行review,为了记录statement的内容,容易记录为垃圾。
4、elasticsearch各组件之间联接交互的问题。elasticsearch中集成了nosql的数据,业务本身不需要存入。但是大量的业务对表等数据进行查询,很容易发生相互穿透导致服务器断线重连。由于elasticsearch和关系型数据库关系松散,并发访问和存储带宽都是瓶颈。即使是elasticsearch中高级高可用集群一样出现类似问题。
5、数据库的schema、package、sql表三层解耦。业务系统的定义和要求各不相同,内存数据存在cache中,将内存中数据进行相关查询,很容易发生内存爆满,导致数据穿透导致服务器断线重连。
6、中间件的跨库,跨主机联调,读写分离,集群选型等问题。遇到这个问题后,通常需要花很多时间和精力来解决。更多内容,请持续关注,