当前位置:首页 > 资讯 > 正文

一文可懂国内外主流AI大模型

一文可懂国内外主流AI大模型

人工智能技术的飞速进步,正在重塑全球商业格局,其影响辐射到各个行业领域。大模型时代,开源与闭源模型不断涌现,大模型为AI领域注入了新的活力,基于开源大模型的应用如雨后春笋般出现,同时也为研究者和开发者提供了更广阔的创新空间。在此,梳理当前国内外主流的大模型,并赋予简单介绍。

DeepSeek生态圈不断扩大

2025年1月20日,DeepSeek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。自1月20日DeepSeek发布R1模型,该模型的用户数实现了飞速增长,根据AI产品榜的数据,截至1月末DeepSeek的月活数量达到3370万,迅速成为国内第二位。

自从DeepSeek 发布开源大模型以来,引发众多关注。阿里云、百度智能云等多个平台已经宣布上线DeepSeek大模型;中国移动、电信、联通三家基础电信企业均已全面接入DeepSeek开源大模型;国家超算互联网平台推出“AI生态伙伴加速计划”,提供3个月DeepSeek API接口、千万卡时算力资源池等激励;部分微信用户发现,微信搜索已经上线“AI搜索”功能,并接入DeepSeek-R1提供的“深度思考”服务。

海外方面,亚马逊AWS、微软Azure、英伟达等全球多家科技厂商陆续宣布接入DeepSeek模型;AMD、Intel等国际芯片巨头也均选择与DeepSeek合作。

阿里云推出Qwen2.5-Max,开发者可免费体验

Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。开发者可在Qwen Chat平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型API服务。

三方基准测试平台Chatbot Arena盲测发现:阿里Qwen2.5-Max在多领域表现强劲,数学及编程能力斩获第一。

马斯克:发布“地球上最聪明的AI”

2025年2月18日,马斯克在X平台正式发布了旗下xAI公司研发的最新聊天机器人Grok 3,并进行了现场功能演示。此前,他称该模型为"地球上最聪明的AI"。在数学(AIME24测试52分)、科学(GPQA)和编程能力测试中表现超过DeepSeek-V3(39分)和Gemini-2 Flash Thinking(54分)。其训练规模达20万GPU集群,推理能力显著提升,且支持实时访问X平台数据,具备独特的信息整合优势。

商业模式:提供独立订阅服务“Super Grok”和API接口,直接对标OpenAI与DeepSeek的闭源服务。

OpenAI将在未来几个月内推出GPT-5,可免费无限使用

OpenAI CEO萨姆・奥尔特曼在社交媒体平台X详细阐述了公司GPT-4.5和GPT-5人工智能模型的发展计划。根据计划,OpenAI 将推出GPT-4.5,这将是OpenAI“最后一个非链式思考模型”。并将GPT-5作为整合了多项技术的系统发布,其中包括o3技术。

在GPT-5上线之后,奥尔特曼表示,免费版ChatGPT用户将获得“标准智能设置”下的“无限聊天权限”。不过,奥尔特曼并未明确透露GPT-4.5和GPT-5的具体发布时间,仅给出了“数周 / 数月”的大致估计。

近日,OpenAI宣布将推出更新版模型规范文件,明确了AI模型行为标准,内容涵盖AI如何处理有争议话题、用户定制化等,并强调了三个主要原则:可定制性、透明度及知识自由。宣称人工智能模型将不会回避敏感话题,也不会做出可能“排斥某些观点”的断言,旨在确保AI在讨论复杂议题时保持中立和包容。

OpenAI正在筹备的下一代旗舰模型,CEO奥尔特曼称其将让更多人感受到“AGI时刻”。尽管尚未正式发布,但OpenAI通过释放相关消息试图削弱Grok-3发布的影响,表明其技术储备仍具竞争力。

现有模型对比:DeepSeek-R1在性能测试中已接近OpenAI的o1正式版,而OpenAI的闭源模型在商业化服务(如收费API)和生态布局上仍占据优势。

微软推出LLaVA-Rad,自动生成高质量放射学报告

近日,微软研究院联合华盛顿大学、斯坦福大学等学校研究人员共同推出一种新型的小型多模态模型LLaVA-Rad。LLaVA-Rad专注于胸部X光(CXR)成像——最常见的医学影像检查类型,旨在自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练,共包含697435对放射学图像报告,并在仅有结构化标签时利用GPT-4进行报告合成。

Perplexity推出Deep Research,对标谷歌和OpenAI

2月14日,人工智能初创公司Perplexity推出Deep Research,能够生成深度研究报告。它面向所有人开放,非订阅用户每天最多可查询5次,Pro用户每天可查询500次。性能方面,在最近考验AI推理能力大火的Humanity’s Last Exam,准确率达到了20.5%,优于许多主流模型。谷歌Gemini AI平台与OpenAI此前也发布过类似功能。

Mistral AI发布le chat,处理速度接近GPT-4的10倍

近日法国人工智能初创公司Mistral AI宣布对旗下旗舰产品Le Chat进行了全面升级,正式上线移动端,后续也会向企业私有基础设施开放。Le Chat的响应速度是其最大亮点。据称,Le Chat每秒可处理1100个tokens,这一速度接近OpenAI的GPT-4模型的10倍。

苹果正加速推进机器人项目,近期已加大招聘规模

根据记者马克・古尔曼2月9日发布的《PowerOn》时事通讯,苹果正加大机器人技术投入,近期发布了更多相关岗位招聘信息,希望为其产品带来更智能的体验。目前,团队正研发具备基础个性特征的智能家居设备。

Meta正加大机器人领域投资

据彭博社消息,Meta正在加大对机器人领域的投资,计划自研人形机器人硬件,已经在其现实实验室(Reality Labs)的硬件部门组建了机器人研发团队。该团队由前通用汽车Cruise自动驾驶部门CEO Marc Whitten负责,他还计划今年招聘100位工程师。据称,Meta正在与宇树科技、FigureAI等头部机器人企业展开接洽,探讨合作的可能。

最近,Meta联合认知科学和神经科学顶尖研究机构发布两项研究结果。第一项研究成功地通过非侵入式方法解码了脑部活动中句子的生成,准确解码了多达80%的字符,即可以完全通过大脑信号重建想表达的完整句子;第二项详细介绍了 AI 如何帮助理解这些大脑信号,并阐明大脑如何有效地将思想转化为一连串的文字。这使得高级机器智能更加接近实现,有望实现“无障碍”交互。

Meta的开源大模型在开发者社区中广泛应用,但性能上被DeepSeek-R1超越。DeepSeek的开源策略(完全公开模型权重)进一步挤压了Meta等公司的闭源商业化空间。

其他开源社区项目:如Hugging Face的BLOOM或Claude系列,虽在特定领域有竞争力,但整体性能尚未达到头部闭源模型水平。

谷歌推出史上最大规模视觉语言数据集WebLI-100B

谷歌推出史上最大规模视觉语言数据集WebLI-100B,包含1000亿图像-文本对,希望增强人工智能视觉语言模型的文化多样性和多语言性。它进一步证明,数据Scaling Law还没有到上限。在英文世界之外的多元文化、多语言维度,1000亿规模数据集能更好覆盖长尾场景,由此带来明显性能提升。并证明,CLIP等模型的过滤筛选步骤,会对这种多元性提升带来负面影响。

谷歌CEO皮查伊2月12日在迪拜举行的世界政府峰会上表示,“实际有用”的量子计算机还需要5到10年的时间,并将这项突破性技术与之前的人工智能发展阶段进行了比较,“量子时刻让我想起了2010年代的人工智能,当时我们正在开发谷歌大脑,并取得了早期进展”。

谷歌的高成本大模型(训练成本1.91亿美元),虽然综合性能略逊于DeepSeek-R1,但其在多模态任务和全球用户基础方面仍有优势。不过,DeepSeek的低成本训练策略(如H800芯片的高效利用)对谷歌的高投入模式形成挑战。

中国本土竞争者

1月22日,豆包全新基础模型 Doubao-1.5-pro 正式发布,模型能力全面升级,融合并进一步提升了多模态能力。1月29日,阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布,预训练数据超过20万亿tokens,在多项公开主流模型评测基准上录得高分。1月20日,Kimi发布k1.5 多模态思考模型,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。

Kimi与月之暗面:国内AI模型中的新兴力量,部分测试表现接近DeepSeek,但全球影响力有限。例如,月之暗面在长文本处理上有特色,而Kimi在垂直领域应用中快速迭代。

商业化适配:如钉钉、WPS等企业通过接入DeepSeek实现智能化,间接反映了国内其他模型在生态整合上的差距。

ERNIE(百度)

ERNIE(Enhanced Representation through kNowledge Integration):一种基于知识增强的语言模型,能够更好地理解和生成自然语言。

Pangu-Alpha(华为)

一个大规模的语言模型,具有多种应用能力,涵盖自然语言处理和生成任务。

M6(阿里巴巴)

M6:一个多模态大模型,支持文本、图像和其他数据类型的处理,具有强大的生成和理解能力。

GLM(清华大学)

GLM(General Language Model):一个通用的语言模型,能够处理多种自然语言任务,具有良好的性能。

ChatGLM(清华大学)

竞争格局分析

技术路线差异:DeepSeek以“低成本+高性能”颠覆行业,而OpenAI和谷歌依赖高算力投入,xAI则强调实时数据整合。

开源与闭源对抗:DeepSeek的开源策略直接冲击OpenAI和谷歌的闭源商业模式,但Grok-3和GPT-4.5通过功能差异化(如语音模式、多模态)维持竞争力。

市场扩张速度:DeepSeek通过7天增长1亿用户的爆发力,展示了开源模型的普及潜力,而OpenAI和xAI更依赖品牌效应和资本支持。