智通财经APP获悉,中信证券发布研报称,Grok 4在专业学科和复杂任务上的推理能力突出,展现未来模型在长流程专业工作上的应用潜力,支持Agent落地高价值场景,结合后续多模态能力有望突破打开全新应用场景,行业落地对应带动AI Infra和算力需求,建议关注相关领域重点公司的投资机会,综合梳理以下投资主线:1)主线一:通用管理软件; 2)主线二:工具软件和其他重点行业软件;3)主线三:AI基础设施。
中信证券主要观点如下:
事项:Grok 4正式发布并开放使用
北京时间7月10日,XAI发布新一代基座大模型Grok 4,包括Grok 4和Grok 4 Heavy两个版本,在专业学科任务推理上性能提升。模型B端API定价输入3美元/百万Tokens,输出15美元/百万Tokens,较o3大约贵50%。C端30美元/月的订阅会员即可使用Grok 4,高推理算力投入的Grok-4 Heavy版本则需要300美元/月的会员费用才可以使用。
重点升级专业学科和复杂任务的推理能力
Grok 4在专业学科和商业环境推理等复杂任务中表现大幅超越此前最佳(SOTA)的模型,在知识能力上已经超越本科生和研究生水平,正在全领域快速缩小与人类顶级专家的差距。
1)HLE:在各学科专家编写的高难度学术测试集Humanity's Last Exam(HLE)测试集中,Grok-4在不使用工具的情况下正确率为26.9%,使用工具的情况下为41.0%,在推理阶段加大RL算力投入后可进一步提升到50.7%,较此前的SOTA模型21.6%的水平翻倍增长。
2)Vending-Bench:在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok-4得分是第二名Claude Opus 4的两倍,模型正朝着解决真实复杂问题的方向迈进。
3)其他:在GPQA、AIME25、HMMT 25、USAMO 25等专业学科知识测试集上,Grok 4 Heavy在其中4项夺冠,尤其在 AIME25与HMMT25 分别获得100% /96.7%的接近满分表现。
推理能力发展带动算力需求,技术创新为后续模型推理提效带来新思路
训练侧,Grok 4较Grok 2训练量提升了100倍,较Grok-3在后训练强化学习上的计算量提升10倍。推理侧,和OpenAI o3-high相似,Grok 4 Heavy通过提高强化学习的算力投入提升模型效果,验证Test time computing的有效性。以强化学习为基础的推理能力在训推两端同步带动算力投入提升,并且根据ARC-AGI v2测试结果显示,Grok 4推理性价比(单位成本下的推理效率)显著高于此前所有模型。技术方面,本次Grok 4的工程创新包括两点:1)验证工具使用能力对推理性能的重要价值,通过在预训练阶段让模型学习使用工具,模型推理场景实际表现大幅提升;2)在后训练强化学习中找到了可靠的奖励信号方案。Grok 4的创新体现了推理能力依然是产业焦点和未来方向,工程探索为后续模型推理能力升级提供新的思路。
更新对话灵活、情感细腻的语音交互,多模态是后续更新计划的重点
Grok 4发布新语音助手Eve,对话延迟降低一半,每日用户使用时长提升10倍。在现场演示中,新语音助手的对话音色、音调、语气与真人高度相似,具备模仿耳语或者演唱现编歌曲的功能。同时现场也展示了Grok-4在游戏开发领域的潜力,游戏设计师在4小时内利用AI制作出一个简单的第一人称射击游戏,发布会上马斯克提出明年有望出现首款AI游戏和首部AI电影。Grok 4当前在视觉领域的理解和生成能力仍然不足,根据马斯克发言,相关功能预计在数周到数月内的下个小版本上做重点改进。后续XAI计划在8月发布代码模型,9月发布多模态智能体,10月发布视频生成模型。
风险因素:
AI核心技术发展不及预期,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧,地缘政治风险。
【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com