北京时间3月21日晚11点,一年一度的英伟达GPU技术大会GTC(Gpu Technology Conference)如期而至,吸引了超过25万名观众参与。
黄教主一如既往地穿着标志性的黑皮夹,进行了长达78分钟的主题演讲,逐一向观众披露了英伟达的最新产品——挑战芯片极限的计算光刻技术、ChatGPT专用GPU等,无一不是“核弹”级别的杀手锏。
“我们正处于人工智能的iPhone时代。”英伟达创始人黄仁勋表示:“生成式AI将重塑几乎所有行业”。
野心勃勃的英伟达,不断用芯片推动AI技术,也正在用AI技术赋能芯片行业。
ChatGPT专用GPU:H100 NVL发布,提速10倍
今年以来,随着ChatGPT爆火,英伟达股价上涨近80%,最新市值超过6400亿美元。
在刚结束的GTC大会上,英伟达发布了全新的核弹级产品 H100 NVL!据悉,H100 NVL附带94GB内存,与上一代产品相比,H100的综合技术创新可以将大型语言模型的速度提高30倍。据黄仁勋透露,H100 NVL预计将在今年下半年上市。
在性能方面,黄仁勋表示,“当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100。与前者相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。”
毫不夸张的说,谁能买到H100 NVL,谁就能在这AI大战中,获取更充足的弹药!有AI相关领域企业家已经公开表示,他们将获得的英伟达GPU数量,视为是否抢得先机的标志。
在价格方面,H100的官方建议价一直没公布,但日本市场之前预售的价格是475万日元,约合人民币24.7万元!而现在,手握一块支撑ChatGPT算力,性能提速10倍的H100 NVL芯片,黄仁勋就差把“我是赢家”,写在脸上了。
“核弹级”产品对中国禁售,英伟达推出“最佳替代品”
2022年8月,美国监管机构以国家安全为由,禁止英伟达向中国客户销售其两款最先进芯片,即A100和更新的H100,此类芯片对于开发生成式人工智能技术至关重要。
对此,英伟达表示,已开发出类似H100芯片的中国出口版本,名为H800,H800被视为是H100的“阉割版”。也就是说,这是中国的AI研发公司,能够获得的最佳替代品。据悉,阿里巴巴、百度和腾讯等中国科技公司的云计算部门已开始使用这款新的芯片。
有消息人士称,H800主要是将芯片间数据传输速率降低,至旗舰机型H100的一半左右。实际传输速度如何英伟达发言人表示拒绝透露,只是说“我们的800系列产品完全符合出口管制规定。”
国产GPU成色几何?
高性能GPU缺货,正成为限制中国AI研发的最直接因素之一。
就市场来看,据Verified Market Research数据显示,从2021年到2030年,GPU将以33.3%的年复合成长率,从330亿美元成长至4773亿美元。大算力芯片领域主要有两个玩家,英伟达和 AMD。从市占率来说,英伟达远超 AMD。根据 John Peddie Research 的数据,英伟达占据了GPU市场约 86% 的份额。行业早已苦垄断久矣!
时至今日,发展自主芯片已经不再是一个有争议的选择题,而是必须要去做的事情。目前国内GPU芯片的研发,处于一个怎样的水平呢?
近年来,国产GPU频频传出好消息。在市场和政策的推动下,曾经蒙尘的国产GPU开始闪烁自己的光芒,目前已经聚集了约20家GPU领域的厂商,其中许多已经将其GPU 芯片投入量产。
景嘉微
中国第一家GPU制造商,景嘉微2015年该公司推出了第一代GPU,称为JM5400,采用65nm CMOS工艺制造;2018年8月,景嘉微推出第二代产品JM7200,主要应用于商务台式机;2021年12月,公司推出第三代14nm高性能GPU—JH920,该芯片采用14nm工艺,支持OpenGL4.0、OpenCL 3.0、Vulkan 1.1等。关键指标上,JH920像素填充率为32G Pixels/s,FP32浮点性能为1.5Tflops,功耗为30W。
旗下全资子公司景美JM7201芯?和标准显卡已成为主要国产整机型号的基本配置,并在金融、电力、轨交、教育等众多?业实现规模应?。
海光信息:
海光信息基于通用GPGPU架构,推出深度计算处理器DCU,其DCU协处理器全面兼容ROCm GPU计算生态。
据悉,ROCm和CUDA在生态、编程环境等方面高度相似,CUDA用户可以以较低代价快速迁移至ROCm平台,因此ROCm也被称为“类CUDA”,主要部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。
目前公司的系列产品“深算一号”已经实现商业化应用,主要应用于大数据处理、人工智能、商业计算等应用领域。海光DCU系列产品已于2021年实现商业化应用。
龙芯
2022年7月19日,新一代龙芯3号系列处理器配套桥片7A2000正式发布,完成了GPU驱动、显示需求和系统配套组件的研发,可满足日常桌面办公使用需求,提高产品性价比和商业竞争力。
GPU核心频率达到400-500Mhz,基于OpenGL 2.1和OpenGL ES 2.0规范实现,集成DDR4显存控制器,显存频率达到2000Mhz-2400Mhz,最大支持16GB,典型分辨率1920X1080@60Hz 最高支持2560x1440@30Hz,glmark2性能超过300 fps,glxgears 性能超过1800 fps。
龙芯中科透露,目前已启动第二代龙芯图形处理器架构LG200系列图形处理器核的研制。
兆芯
在核显级GPU领域,兆芯2019年发布了兆芯KX-6000,其核显与S3的C645规格和性能类似,甚至连驱动都能共用,3Dmark成绩为250分左右,当时集成的是C-960 GPU。
芯动科技
2021年11月正式发布了其用于服务器和桌面应用的风华一号GPU。它率先实现5-10TFLOPS的渲染能力,率先实现图形API支持超过OpenGL 4.0等;
2022年8月,芯动科技又推出了针对于桌面市场的“风华2号”GPU,“风华2号”渲染能力突出,GPU像素填充率48GPixel/s,FP32单精度浮点性能1.5TFLOPS,AI运算(INT8)性能12.5TOPS,实测功耗4至15W,支持OpenGL4.3、DX11、Vulkan等API;
目前“风华3号”已基本完成研发,将为国内用户提供超大算力光追等酷炫性能。
天数智芯
2021年3月31日,上海天数智芯对外正式发布了7nm的天垓100芯片及天垓100加速卡,实现了国内通用GPU从0到1的突破。天数智芯其首款7nm制程的云端推理通用GPU产品“智铠100”,该芯片已于今年5月点亮,将于2022年第四季度正式发布,年底量产。
2022年5月8日,天数智芯第二款产品7nm云边推理芯片“智铠100”成功点亮,产品迭代开发和商业应用领先国内同行。
摩尔线程
在短短18个月内,就发布了全新统一系统架构MUSA和全能GPU产品“苏堤”等系列新品。
基于MUSA统一系统架构GPU苏堤,摩尔线程推出了第一代桌面级显卡MTT S60,它采用12nm制程,包含2048个MUSA核心,单精度算力最高可达6TFlops;以及面向数据中心级多功能GPU产品MTT S2000,MTT S2000采用12nm制程,使用4096个MUSA核心。
登临科技
2020年6月,登临科技Goldwasser系列产品在台积电12nm工艺上Full Mask 量产成功。包括边缘计算产品 Goldwasser UL,功率25-35W,INT8 算力 32-64TOPS;半高半长的服务器计算卡 Goldwasser L,功耗 40-70W,提供 128-256TOPS 算力;另有一种全高全长的 Goldwasser XL,输出 512TOPS 算力。
沐曦
2022年1月,沐曦首款7nm工艺的异构GPU产品启动流片,预计将于2023年初实现规模量产。
沐曦致力于为异构计算提供安全可靠的通用GPU芯片及解决方案,推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于AI训练,以及MXG系列GPU(曦彩)用于图形渲染,满足数据中心对“高能效”和“高通用性”的算力需求。
壁仞科技
2022年8月10日,壁仞科技就推出了首款通用GPU产品BR100系列,采用7nm制程,并创新性应用Chiplet与2.5D CoWoS封装技术,创出全球算力纪录。据透露,其16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,以“每秒1千万亿次的计算”算力纪录,超过了英伟达目前在售的旗舰计算产品A100 GPU的3倍,强势对标英伟达H100。
瀚博半导体
去年,瀚博半导体发布了面向云端的通用AI推理芯片SV102芯片,其特点是推理性能高(单芯片INT8峰值计算能力200TOPS,还支持FP16/BF16数据类型),延迟低,视频解码性能。支持64路1080p(解码格式支持H.264、H.265、AVS2)。
芯瞳半导体
2020年8月,芯瞳半导体第一代GPU芯片GenBu01问世。enBu01显卡平均功耗3W,为应用提供超长续航能力,满足对功耗有特殊需求的场景;满足国产操作系统2D显示、3D渲染需求,支持OpenGL 4.3图形标准、1080P高清显示、多窗口显示、具有VGA和HDMI双路显示输出接口等,集成1GB DDR3存储等。
据悉,芯瞳半导体的第二代芯片正在研发阶段,预期2023年完成市场化应用。
智绘微
2020年10月,智绘微电子成功推出第一款GPU芯片IDM919。采用高性能SIMT指令实现架构和可编程统一着色器架构,不仅可用于2D和3D图像渲染,也可以用于高性能计算等。
经过最新一轮的融资后,智绘微电子将提升旗下第二代GPU芯片IDM929流片进度和第三代GPU芯片IDM939的研发进度。
结语
可能让英伟创始人都未曾预料到的是,成立30年后,在半导体遭遇罕见逆风的当下,让英伟达股价飞升、市值超越英特尔、撑起财报表现的,不是游戏显卡,而是包含AI加速、高性能计算、超算等业务的数据中心业务。
正如黄仁勋在本次演讲中所说“生成式AI正在推动AI的快速应用,并重塑无数行业。”“我们正处于AI的‘iPhone时刻’,初创公司竞相构建具有颠覆性的产品和商业模式,老牌公司则在寻求应对之策。”
当前,国内GPU芯片的研制虽然可满足目前大多数图形应用需求,但在科学计算、人工智能及新型的图形渲染技术方面仍然和国外领先水平存在不小差距。但中国巨大的市场体量和快速迭代发展仍然为众多国产GPU芯片厂商提供了丰富的试验基地和应用设计机会,接下来的3-5年将是国产厂商加速AI应用落地和大规模部署的快速发展时期。”
现在,国产GPU厂商,在自研路仍任重道远。