
Kaiyun·官方网站将集群界限增大、硬件升级充分滚动为性能擢升-Kaiyun(中国大陆)控股有限公司 - 官方网站/登录入口
新闻资讯
新浪科技讯 1月6日上昼音信Kaiyun·官方网站,近日举办的第二届东说念主工智能产业应用大会上,北京正阳恒卓科技有限公司(下称正阳恒卓)首席科学家高凯连结公司智算中心莳植领域内容奉行,建议AI基础法子(即AI Infra)莳植运营中面对的高效性和可靠性挑战,并先容了为更好地劳动东说念主工智能产业应用正阳恒卓作念出的联系技艺立异。 高凯指出,客户相似代望AI任务不错高效诳骗智算中心提供的硬件资源,将集群界限增大、硬件升级充分滚动为性能擢升。但履行是,关于大界限漫衍式AI任务来说,单纯提高机器数
详情

新浪科技讯 1月6日上昼音信Kaiyun·官方网站,近日举办的第二届东说念主工智能产业应用大会上,北京正阳恒卓科技有限公司(下称正阳恒卓)首席科学家高凯连结公司智算中心莳植领域内容奉行,建议AI基础法子(即AI Infra)莳植运营中面对的高效性和可靠性挑战,并先容了为更好地劳动东说念主工智能产业应用正阳恒卓作念出的联系技艺立异。
高凯指出,客户相似代望AI任务不错高效诳骗智算中心提供的硬件资源,将集群界限增大、硬件升级充分滚动为性能擢升。但履行是,关于大界限漫衍式AI任务来说,单纯提高机器数目和升级计算芯片材干后,性能并收敛易达到线性擢升。
高凯以为这背后的原因是“大界限漫衍式AI任务资源需求开阔,容易酿成碎屑化资源闲置,并对治疗系统性能带来更高要求;此外,并行要领和通讯规则也会影响漫衍式AI任务的限定”。
为惩办上述问题,高凯指出:“大界限漫衍式AI基础法子,必须具备高效的系统容错材干,以及丰富的并行计策。”他暗意,“为惩办上述问题,现在国表里的一些大厂早已支持三维并行计策,致使正在鼓吹五维并行计策。”
此外,高凯还指出,“在莳植智算中心经过中,客户相似代望AI大模子简略在智算中心中可靠地运行,但履行是,AI系统中的各个组件齐可能出现故障并导致AI任务中断或失败。”
这背后的原因是,“AI任务依赖专用硬件,和传统计算集群在动力、产热、责任条款等方面存在各别;此外,主流AI并行框架经受同步模式运行,存在单点故障问题,传统云平台的容错材干并不适用,最终导致故障原因万般,纯用户视角难以准详情位问题。”
“大界限漫衍式AI系统的容错材干是AI系统沉稳运行的基础,一经成为公共AI大厂驱动竞联系注的问题。”高凯暗意。
连结正阳恒卓为国度超算、大模子公司等企业莳植大界限智算中心的涵养,高凯指出,“莳植高效可靠的Al Infra是一个系统工程,可靠性和高效性齐必须盲从从硬件到软件系统性开荒的原则,况兼可靠性和高效性的技艺应该被封装,从而尽可能对用户透明”。
他将Al Infra的构建分为智算中心莳植、Infra劳动运营、AI开荒部署框架以及AI应用开荒四个层级。并进一步指出,辞别于大型厂商简略终了从底层硬件到表层AI应用的全栈自主研发,绝大部分微型企业往往不具备这么的经济材干和东说念主才储备。为了助推东说念主工智能产业应用的发展,提供高效可靠的AI Infra是智算中心改日需要具备的基本材干和发展趋势。
据高凯先容,为简略让AI Infra简略普惠更多的东说念主工智能产业应用企业,正阳恒卓正长途于于指令并构建一个绽放的、面向高效可靠智算中心的AI Infra基础框架。这个绽放基础框架中的功能模块基于绽放的表率进行联想,但愿招引更多联系行业的企业和开荒者共同组建技艺生态:让用户的模子开荒、部署、应用简略在不同的算力环境中终了无感的移动,而AI Infra企业则不错通过技艺立异提供高效性和可靠性的升值劳动。
据高凯先容,正阳恒卓成立于2015年4月,现在已劳动超300家企业客户,是英伟达认证的精英级合营伙伴,已衔接两年景为NVIDIA Networking NPN 事迹第别称。(文猛)
海量资讯、精确解读,尽在新浪财经APP
拖累裁剪:江钰涵 Kaiyun·官方网站
