0
点赞
收藏
分享

微信扫一扫

如何把一堆硬件计算机变成一台软件超级计算机​

今天这篇是答疑解惑,回答一位网友的提问:Laxcus分布式操作系统7.0是如何把一堆硬件的计算机变成一台软件的超级计算机,并让它们稳定运行的?

其实这个问题在其它贴子里已经说过,但是可能说的不太详细,今天咱们就从头到尾说说这件事。

咱们先讲讲现在ICT产业的发展趋势,再说说Laxcus分布式操作系统在这个市场的位置。

从去年开始,由于OpenAI GPT大模型在技术产品的突破,整个人工智能产业被迅速带动起来了,计算机网络从1.0的互联网,2.0的移动互联网,切换到3.0的人工智能互联网。与前两次网络革命不同,这一轮人工智能产业革命严重依赖计算机算力,英伟达所以能够迅速异军突起,远远超越曾经的一众产业大佬,进入万亿美元俱乐部,就得益于它早期在硬件算力产品上的布局。所以本轮人工智能革命其实也是一次算力革命,没有巨量的算力支撑,AI大模型和AI产业化只能是空谈。

其次,人工智能是一个产业体系,如果只有硬件算力远远不够,发展人工智能更多是依赖各种软件,特别是操作系统。就像小型机时代出现了Unix,Windows、Macintosh成为PC时代的主流,开源打造出Linux,iOS、Android引领手机时代风潮一样。在人工智能时代,操作系统是绕不过去的一环,而传统基于单机环境的操作系统很难匹配海量的计算需求,只有新的支持分布式并行计算的操作系统,才能符合人工智能的大规模计算业务,这就是英伟达的黄仁勋一直强调要重构计算体系的原因。

基于之前在大规模和分布式并行计算上的技术积累,Laxcus分布式操作系统7.0版本开始上线,从操作系统层面,也就是软件算力的基础层面,去重构软件的大规模分布式并行计算体系,推动人工智能发展。

这是研发Laxcus分布式操作系统7.0版本的背景。

咱们再看看Laxcus分布式操作系统7.0是怎样实现这些工作的。

以算力中心为例,计算机在机架里是一台台独立放置的,如果让它们运转起来一起工作,首先需要网络把它们连接起来,只有联网的计算机才能进行通信交互,对外输出强大算力,这就是计算机集群和它的价值。当年的SUN提供的“网络就是计算机”,也是这个意思。

如何把一堆硬件计算机变成一台软件超级计算机​_人工智能

Laxcus分布式操作系统体系架构

见上图,在Laxcus分布式操作系统的体系规划里,底层是一堆堆的计算机,在这些计算机之上,是硬件的网络设备,网络设备和光纤把计算机物理连接起来,让它们可以通信。然后进入Laxcus分布式操作系统本身,在“多模通信网络”,Laxcus从软件上把计算机进行连接。基于“多模通信网络”,在“松耦合架构”层,Laxcus把所有计算机聚合起来,形成逻辑统一的整体,如果用户通过Laxcus操作计算机集群,每条指令会分发到各个计算机上并行处理,从用户角度看,就好像操作一台计算机一样。这个时候,其实Laxcus已经“把一堆硬件计算机变成一台软件超级计算机”了。

但是真正让计算机集群和集群中每个节点稳定、可靠、高效、持续运行,Laxcus需要做两件事:

1. 把它们“管”起来

2. 把它们“用”起来。

先说怎么“管”起来。

“管”的工作除了在“系统内核”处理,更多是发生在“多模通信网络”和“松耦合架构”。多模通信网络提供了基于硬件通信之上的软件通信,这样让Laxcus分布式操作系统能够感知到每个计算机节点是否存在,并为此做出相应的反应。大量的冗余容错工作,都在这里执行。如果发生网络故障或者计算机节点故障,Laxcus分布式操作系统会向管理员发出警告,并根据情况做出适时判断,决定是否进行修复或者隔离等处理。

如何把一堆硬件计算机变成一台软件超级计算机​_人工智能_02

Laxcus图形桌面

如何把一堆硬件计算机变成一台软件超级计算机​_人工智能_03

Laxcus命令行界面

松耦合架构是逻辑上把一堆计算机组成一台超级计算机,它是真正把一堆硬件的计算机“管”起来。每个计算节点的软硬件资源在松耦合架构上聚合,计算节点以“弱连接”的方式存在于Laxcus分布式操作系统,所有资源由Laxcus分布式操作系统统一分配调度管理。

管理员也一些负责“管”的工作,比如追踪计算机节点运行情况,查看CPU、GPU、内存、磁盘的工作状态,都是管理员的职责。具体是通过Laxcus的图形桌面上的应用软件或者命令行界面去操作处理。

再说说怎么“用”起来。

“用”的工作属于应用软件开发者和应用软件用户。对于开发者,Laxcus提供了一套分布式的并行计算接口,简称为DSDK(Distributed DSK)。它类于英伟达的CUDA,能够让单机环境下的串行计算工作变成在多机环境下并行计算工作,基于DSDK开发的应用软件,能够在运行时大幅提高了计算效率。由于计算效率依赖计算机节点数量,并且Laxcus可以高达10,000个节点以上的计算机集群,大量在单机系统上运行的高耗时和高算力计算工作,在Laxcus分布式操作系统上都可以瞬时化解所以这也是为什么说Laxcus是面向AI的算力操作系统原因。

你觉得这样的操作系统怎么样呢?


举报

相关推荐

0 条评论