NVIDIA新中国特供芯片B30曝光:首度支持多GPU扩展!
据报道,NVIDIA正在为中国市场研发一款名为“B30”的降规版AI芯片,这款芯片将首度支持多GPU扩展,允许用户通过连接多组芯片来打造更高性能的计算集群。B3...
2025-06-03
据媒体报道,NVIDIA的最新研究可能彻底改变AI的未来,其研究团队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。
这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。
nGPT架构的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。
这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。
实验结果表明,nGPT在训练时所需的步骤比标准Transformer模型减少了4到20倍,具体加速效果取决于序列长度。
例如,在1k上下文中,训练速度提高了4倍;在4k上下文中,提高了10倍;而在8k上下文中,更是提高了20倍。
研究人员指出,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的输出预测,其中位移量由MLP和注意力模块定义。
这种方法不仅提高了训练速度,还增强了模型的稳定性。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 3941001135@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
据报道,NVIDIA正在为中国市场研发一款名为“B30”的降规版AI芯片,这款芯片将首度支持多GPU扩展,允许用户通过连接多组芯片来打造更高性能的计算集群。B3...
2025-06-03
特斯拉公司重新提交了“TeslaRobotaxi”这一名称的商标申请。此前,特斯拉在2024年10月首次申请了“Robotaxi”和“Cybercab”两个商...
2025-06-03
6月1日,福建一只狗狗看到主人回家后兴奋地旋转像陀螺。视频被发布后,不少网友在评论区留言,喊话主人:“快抱起来吧,一会儿飞走了。”...
2025-06-03
6月2日,宋雨琦在哔哩哔哩《永远22毕业歌会》开场演唱《绿光》,与1000名学生共创舞台,表演后回应“开场没压力”,表示享受舞台而非在意结果。...
2025-06-03
6月2日,广东河源一48岁再婚女子怀孕后15分钟超快顺产。据悉,该孕妇发现怀孕时已怀7个月,其28岁独生女喜迎弟弟,当事人丈夫:孙子比儿子大3岁!...
2025-06-03
热评文章
宾利推出超豪华儿童三轮车 :售价5380元!
日本核污水将排放30年 全球百余家公司已研发“人造海
男孩脚踩兰博基尼炫耀致车损17万 车主再发声:会追责
多地机票跳水!上海飞成都机票降价80%!
2023国庆档票房破26亿:张艺谋电影《坚如磐石》上
曾与林正英、李小龙搭档 著名武打演员孟海去世:终年6