Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏
快科技6月7日消息,Intel官方宣布,旗下数据中心、客户端、边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的全球发布提供支持,已取得ModelScope、阿里云PAI、OpenVINO等诸多创新成果。
为了最大限度地提升诸通义千问2等大模型的效率,Intel进行了全面的软件优化,包括高性能融合算子、平衡精度和速度的先进量化技术等。
Intel还采用KV Caching、PagedAttention机制和张量并行,提高推理效率。
Intel的硬件也可利用软件框架和工具包进行加速,并获得出色的大模型推理性能,包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging Face库、vLLM。
首先看Intel Gaudi AI加速器,专为生成式AI、大模型的高性能加速而设计,最新版的Gaudi Optimum可以轻松部署新号的大模型。
Intel使用Gaudi 2,对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试,以下为详细性能指标和测试结果:
70亿参数通义千问2在单颗Gaudi 2加速器上的推理
720亿参数通义千问2在八颗Gaudi 2加速器上的推理
通义千问2 FP8在Gaudi 2加速器上的推理
通义千问2在Gaudi 2加速器上的微调
再看Intel至强处理器,作为通用平台具有广泛的可用性,适用于各个规模的数据中心,对于希望快速部署AI解决方案、没有专项基础设施企业非常理想。
至强处理器的每个核心都内置了Intel AMX高级矩阵扩展,可以处理多样化的AI工作负载,并加速AI推理。
以上是在五代可扩展至强上运行阿里云ecs.ebmg8i.48xlarge实例,通义千问2的下一个推理token延迟情况。
最后是消费级的AI PC,可以在本地部署大模型,既然可以使用处理器内置GPU核显、NPU AI引擎,也可以搭配独立的锐炫显卡。
以下展示了AI PC运行15亿参数的通义千问2:
酷睿Ultra 7 165H上的通义千问2推理
酷睿 Ultra 7 165H上的通义千问2下一个token延迟
锐炫A770 16GB显卡上的通义千问2下一个token延迟
本文链接:http://www.sanshiling.com/content-21-1844-1.html
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
合资插混最强匮电也是龙 雪佛兰探界者Plus上市:14.99万起!
雪佛兰首款智电插混SUV探界者Plus今日正式上市,共推4款配置车型,售价区间14 99-17 99万元。该车采用新一代设计语言,延续美式SUV典型的设 [详细] -
光峰科技发布2023年财报:营收22.13亿元 经营现金流大增105%
4月26日晚间,光峰科技披露2023年年报。年报显示,2023年光峰科技实现营业收入22 13亿元;归母净利润实现1 03亿元;整体毛利率达到36 22%; [详细] -
张艺谋《第二十条》网播上线:爱奇艺、腾讯视频、优酷会员免费看
今日,张艺谋电影《第二十条》正式开启网播,上线爱奇艺、腾讯视频、优酷、芒果TV、B站等视频平台,开通平台会员后可免费观看。据了解,《 [详细] -
《蛋仔派对》注重保护未成年人网络安全 保护未成年人不受到诈骗
在目前这个飞速发展的数字化时代,互联网让我们的娱乐生活得到了极大的丰富,各种各样的游戏层出不穷,但网络安全问题也随之凸显,大额充值 [详细] -
百度:AI专利申请量、授权量国内第一
在第24个世界知识产权日来临之际,百度昨日举办专利运用赋能AI产业高质量发展论坛。在论坛上,百度首席技术官王海峰透露,百度在以大模型为 [详细]