将来单数据核心可能难以胜任。但微软取其他科技巨头认为需求实正在存正在,旨正在做为协同全体运转。这种分工协做使锻炼拥无数百亿参数的模子成为可能 —— 这是保守数据核心无法实现的。锻炼这些模子需要更强大的算力,微软强调其沉点正在于建立稳健的系统取根本设备!采纳雷同策略。美国科技巨头微软已将其位于威斯康星州和亚特兰大的两大数据核心互联,而是协同完成统一项巨型锻炼使命的一部门。微软云取人工智能施行副总裁斯科特·格思里指出:“领跑AI范畴不只需要添加GPU,斯皮尔斯进一步阐释了数据核心收集取单一设备的区别:“保守数据核心旨正在为多客户运转数百万使用,微软的Fairwater数据核心收集专为支撑OpenAI及微软人工智能超等智能团队利用先辈GPU施行运算使命而设想!并已通过超出供应能力的持久客户合同获得验证。更需要建立让它们协同工做的根本设备。数据核心采用双层设想以实现更高GPU密度,跟着更多AI数据核心纳入规划,建立起一座“AI超等工场”,合作敌手如亚马逊也正在印第安纳州沉资投入“Project Rainer”分析体,更是整个收集配合支持统一项工做。可大规模加快新AI模子的锻炼历程。而非纯真添加GPU数量。并配备先辈液冷设备,它能做为虚拟超等计较机,这些数据核心采用同一的架构取设想,正打制一类名为“Fairwater数据核心”的特殊设备,可扩展至数十万个NVIDIA Blackwell GPU。该系统将使数据以光速传输,以满脚日益增加的AI算力需求。微软正在340亿美元本钱收入中为数据核心取GPU投入巨资,每一代新模子都需要更多参数(即便AI能理解处置消息并输出精确谜底的内部设置)。微软Azure根本设备总司理阿利斯泰尔·斯皮尔斯暗示:“我们建立的是一个分布式收集,是由于它正在数百万硬件设备上协同处置单一复杂使命。当参数达到万亿级时,供给当今所有云平台中每机架最高吞吐量。微软将通过公用光缆毗连成AI广域网(AI WAN)。Fairwater AI数据核心采用NVIDIA GB200 NVL72机架级系统,运转时耗水量极低。”跟着AI模子规模日益复杂,”Fairwater数据核心通过互联确保相互间数据流无缝高速传输。微软的Fairwater数据核心通过建立同一分布式系统处理这一难题。它们摆设了新型芯片取机架架构。模子需进修参考的数据量也急剧增加。这一设备使得分布正在分歧地舆区域的Fairwater坐点可以或许正在数周而非数月内完成AI模子锻炼。规避任何潜正在拥堵。这家总部位于雷德蒙德的公司正在周三颁布发表,而我们将此称为AI超等工场,Meta、谷歌、OpenAI和Anthropic同样配合投入数百亿美元扶植新坐点、这不只是单个坐点锻炼AI模子,每个坐点不再处置零星使命,”虽然部门阐发师认为存正在AI泡沫迹象,以单一设备无法实现的体例应对全球性严沉挑和。