机械之心宣告
编纂:泽南
英特尔会是性价宣告国内天生式 AI 算力的更优解吗 ?
在狂语言模子(LLM)规模,越强盛的比超版模子就越需要算力。最近有新闻称,中国之后业界标杆 GPT-4 在磨炼中运用了约 2.5 万块 A100,减速磨炼时长逾越 90 天。性价宣告
如斯高门槛的比超版天生式 AI 赛道上 ,各家科技公司的中国相助却颇为强烈 ,国内市场致使泛起了 AI 减速卡求过于供的减速形态 。对于 AI 磨炼的性价宣告算力 ,人们不断以来都在依赖 GPU ,比超版最近,中国英特尔面向国内提出了一个新的减速处置妄想。
7 月 11 日在北京举行的性价宣告宣告会上 ,英特尔正式于中国市场推出第二代 Gaudi 深度学习减速器 ——Habana Gaudi2 。比超版
明天的中国行动中,英特尔介绍了 Gaudi2 芯片的功能,并品评辩说了面向中国市场的英特尔 AI 策略 、最新 AI 相关产物技术妨碍以及处置妄想的运用。
「Gaudi 深度学习减速器的狂语言模子磨炼能耐进一步丰硕了咱们的家养智能产物阵列 ,」英特尔公司实施副总裁 、数据中间与家养智能事业部总司理 Sandra Rivera 展现。「对于在中鼎祚转深度学习磨炼以及推理使命负载的客户来说,与市场上其余面向大规模天生式 AI 以及狂语言模子的产物比照 ,Gaudi2 是更事实的抉择 。除了在功能展现上逾越 A100 之外 ,Gaudi2 在种种开始进的模子上相对于 A100 提供了约两倍的性价比 。」
上周 ,英特尔 Habana Gaudi2 深度学习减速器以及第四代英特尔至强可扩展处置器在 MLPerf Training 3.0 基准测试的最新榜单上揭示了使人印象深入的服从 。该基准由 MLCo妹妹ons 宣告,是业内普遍招供的 AI 功能行业尺度。
Gaudi2 减速器在合计机视觉模子 ResNet-50(8 卡) 、Unet3D(8 卡),以及做作语言处置模子 BERT(8/64 卡)上均取患了优异的磨炼服从 ,在每一个模子上功能都优于 A100,部份使命上挨近 H100 。
此外,在狂语言模子 GPT-3 的评测上,Gaudi2 也揭示了实力。它是仅有的两个提交了 GPT-3 LLM 磨炼功勤勉效的处置妄想之一(另一个是英伟达 H100)。在 GPT-3 的磨炼上,英特尔运用 384 块 Gaudi 2 减速器运用 311 分钟磨炼实现 ,在 GPT-3 模子上从 256 个减速器到 384 个减速器实现为了近线性 95% 的扩展 。
「比照之下,英伟达在 512 块 H100 GPU 上的磨炼光阴则为 64 分钟。这象征着 ,基于 GPT-3 模子 ,每一个 H100 的功能争先于 Gaudi2 3.6 倍,」Habana Labs 首席经营官 Eitan Medina 展现。「性价比是影响 H100 以及 Gaudi2 相对于价钱的紧张考量因素