• 主页 > 头条新闻NEW
  • 性能爆表,全面赶超!

    近期,国内悄悄发布了两个大模型。

    一个是幻方近日发布DeepSeek-V2模型,可以说是目前业内推理性价比最高的模型。根据DeepSeek官网,V2版本提供了极具竞争力的API价格(用户使用成本/推理成本),分别为1元/百万输入Tokens及2元/百万输出Tokens。之所以成本更低,在于DeepSeek-V2采用了创新架构,保证经济训练和高效推理,分别采用了MLA(多头潜在注意力)和DeepSeekMoE 架构(一种高性能的 MoE 架构)。

    据业内评测,DeepSeek-V2新版本的性能接近GPT4等主流大模型,而API价格却远低于竞品,所以说目前DeepSeek-V2性价比很高。

    另一个是阿里近日发布通义千问2.5大模型。据阿里云智能集团首席技术官称,在中文语境下,文本理解、文本生成、知识问答&生活建议、闲聊&对话,和安全风险等多项能力上赶超GPT-4,成为地表最强中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

    一个主打性价比,一个追赶中文性能,这两个大模型的发布提升了国内大模型的整体竞争力,同时也为国内AI应用的爆发奠定了基础,尤其是DeepSeek模型有利于降低应用开发者的成本,利好AI应用开发生态。

    ......

    另外,近期海外大模型进展也有一个值得注意的趋势:

    4月23日,微软推出了大模型Phi-3-mini,可以在多种手机中部署使用该模型。

    4月23日,商汤推出了端侧模型SenseChat Lite,采用了端云“联动”的MoE框架,在部分场景中端侧推理占70%,会让推理成本变得更低。

    4月24日,苹果推出了大模型OpenELM,是一款专门针对手机等移动设备的模型。苹果使用了1.8万亿tokens的数据进行预训练,表现出超强性能。

    终端大模型也在迅速发展,说明科技大厂已经在往端侧发力了,不久将出现更智能的AI手机等智能终端,尤其是苹果的加入,使得AI手机的发展更具确定性。


    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88888888@qq.com 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.cbbeb.cn/html/WPSjiaocheng/615.html

    加载中~

    相关推荐

    加载中~