来源:21世纪经济报道
媒体
2025-11-19 19:32:55
(原标题:谷歌发布Gemini 3,AI竞赛转向比拼“执行力”)
21世纪经济报道记者 董静怡
大模型领域的竞赛,在2025年年末又迎来一波新高潮。
OpenAI在8月初发布GPT-5,Anthropic在9月底推出Claude Sonnet 4.5,而科技巨头谷歌也终于亮出了自己的王牌。美国当地时间11月18日,Google正式发布了其最新一代人工智能模型 Gemini 3,即日起在Google AI Studio开放预览,API接口同步上线,即将全面集成到谷歌搜索、Android系统等产品中。
这一发布距离上次Gemini 2.5的发布仅过去七个月,被视为谷歌在AI领域的“绝地反击”关键一战。
在谷歌官方的描述中,Gemini 3可以助力“学习、构建和规划一切”。该模型不仅刷新多项性能纪录,还突出展现了AI从“回答问题”到“完成工作”的转变。
“Gemini 3是我们目前最智能的模型,目标是让用户把任何想法变成现实。”谷歌CEO Sundar Pichai在官方博客中写道。
Gemini 3的发布在行业内引发了巨大反响,被认为是谷歌重回AI第一阵营的标志。OpenAI联合创始人、CEO Sam Altman和xAI创始人、CEO Elon Musk均第一时间向谷歌发来“贺信”。
对于行业来讲,大模型的深度落地和商业化路径正变得更加清晰。
Gemini 3.0之所以引发如此大的震动,源于它在三个关键领域的突破性进展。
在深度推理能力方面,“Gemini 3的推理能力有了巨大的飞跃,”谷歌Gemini模型产品负责人Tulsee Doshi表示,“它的响应深度和细致程度是我们以前从未见过的。”
在LMSys Elo Arena排行榜上,Gemini 3 Pro 以1501分的突破性分数登顶,比其前代Gemini 2.5 Pro高出50个等级分。
此外,在更考验深层理解的基准测试中,它的表现同样突出:在Humanity’s Last Exam中(要求多步逻辑和专家级推理的基准测试),Gemini 3 Pro在未使用任何工具的情况下得分率达 37.5%,在GPQA Diamond中(衡量研究生水平推理与知识的基准测试)准确率高达 91.9%。
数学能力也得到进一步突破,在“地狱难度”的MathArena测试中,以23.4%的得分率碾压群雄,而GPT-5.1等对手仅在1%左右。
这种推理能力不仅体现在抽象逻辑和复杂问题拆解上,还延伸至长时程规划任务。在Vending-Bench 2的全年模拟运营测试中,Gemini 3 Pro能持续保持决策一致性,实现业务回报最大化,为现实世界中的自动化工作流,如邮件分类、行程协调、资源调度等提供了可靠支撑。
在多模态理解方面,Gemini系列从诞生之初就以“原生多模态”为核心优势。Sundar Pichai 在博客中写道:“近两年前,我们开启了Gemini时代,这是我们公司有史以来最大的科学和产品项目之一。仅仅两年时间,人工智能就从单纯阅读文本和图像发展到能够读懂场景。”
在测试中,Gemini 3 Pro在多学科多模态理解测试MMMU-Pro上取得81%的成绩,在专门评估视频理解能力的Video-MMMU上达到87.6%。
在官方演示里,它拿到一叠手写字体潦草、包含各种符号的菜谱照片后,自动生成一本结构化的电子家庭菜谱,包含食物图片、食材类别、烹饪顺序等核心信息,条理清晰。
同时,该模型在事实准确性指标SimpleQA Verified基准测试中也斩获了当前最先进的72.1%得分。谷歌明确表示,新模型将摒弃过去AI常见的“奉承式回应”或“安全但空洞”的话术,转而提供“你需要听到的真相”。
值得一提等是,与竞争对手相比,Gemini 3.0的记忆容量实现了质的飞跃,支持高达100万tokens的超长上下文长度,约相当于700页英文书籍或2小时的4K视频,这使其能够处理超长、复杂的多模态输入,并在其中建立连贯的语义关联。
在编程与软件工程领域,Gemini 3同样展现出接近专业开发者的综合能力。
在WebDev Arena编码竞赛中,Gemini 3以1487分的成绩位居榜首;在基于真实开源项目的SWE-bench Verified测试中,其修复并通过验证的代码占比达76.2%;而在Terminal-Bench 2.0终端操作测试中也取得了54.2%的高分。
谷歌表示,Gemini 3让产品更具自主性,同时提高开发者生产力。
这一突破的核心载体则是Antigravity,一个用于构建人工智能驱动编码代理的新开发平台。平台中,“代理或智能体”被提升到一个专门的界面,DeepMind首席技术官Koray Kavukcuoglu解释说:“智能体可以在你的编辑器、终端和浏览器之间工作,以最佳方式帮助你构建应用程序。”
在演示中,谷歌展示了一个AI智能体生成完整航班跟踪应用的过程:用户只需要一句自然语言指令“帮我做一个航班跟踪应用”,平台就会自动完成规划结构、编写代码、验证输出并生成文档。这也标志着AI编程已从“辅助”迈入“自主”的新阶段。
事实上,自2022年底ChatGPT引爆生成式AI浪潮以来,谷歌一度陷入被动。内部“红色警报”的传闻、产品迭代节奏滞后、市场信心动摇,使其在公众认知中沦为“追赶者”。
不过,Gemini 3的发布显示出谷歌开始主动定义下一代AI的竞争,尤其是“智能体”范式的落地。
过去两年,AI行业陷入“模型军备竞赛”,但资本市场对单纯的技术突破已显疲态。Meta虽开源Llama系列却难变现,OpenAI因治理动荡和商业化路径模糊遭遇估值回调,投资者关注焦点已从谁的模型更强转向谁的AI能赚钱。
此次Gemini 3的发布正是着重展示了AI作为“执行任务的代理”的角色。谷歌Gemini团队负责人Josh Woodward在一个访谈中表示,谷歌将其定位为“超级工具”而非情感伴侣,核心价值是帮助用户高效完成日常任务,提升生产力,“这更接近初代谷歌搜索的核心价值——效率。”
这种转变不仅契合企业级客户对自动化工作流的真实需求,也使谷歌得以将其庞大的产品生态转化为AI落地的天然试验场和变现通道。在业内看来,这一战略转向极具商业价值。
而谷歌也进行了迅速的商业部署。Gemini 3模型发布首日,谷歌就将其全面整合进其搜索产品生态,这是谷歌首次在模型发布当天就将其引入搜索。同时,Gemini 3也在发布当天同步向Gemini App用户、AI Studio和Vertex AI的开发者开放,并在智能体开发平台Google Antigravity推出,支持开发者构建更强大的AI应用。
“我们正将Gemini注入Maps、YouTube、安卓、搜索、Workspace等产品,这个分发网络和终端数据反馈环是无法逾越的护城河。”DeepMind CEO Demis Hassabis在一场访谈中表示。
据谷歌披露数据,Gemini应用目前月活跃用户已达6.5 亿,而搜索的AI Overviews拥有20亿月活用户。
Needham分析师Laura Martin在Gemini发布前的一份报告中指出,谷歌的搜索、YouTube、安卓、云等业务部门在分发AI产品方面具有战略优势,使其能够“捕获”AI投资的回报。
最新财报数据看,AI已成为谷歌增长的重要引擎。谷歌云业务第三季度营收达152亿美元,同比增长33.5%,营业利润率提升至23.7%,其中AI相关收入已达到“每季度数十亿美元”规模,基于生成式AI模型构建的产品收入,同比增长超过200%,显示出AI驱动商业化的强劲势头。
同时,巨额的资本支出仍在持续。CFO Anat Ashkenazi在财报会议上表示,2025年资本支出预期从此前的850亿美元上调至910-930亿美元,远超市场预期的806.7亿美元,并且预计2026年资本支出将大幅增长。
虽然和众多加码AI的科技巨头一样,谷歌仍面临着投资回报的压力,但大模型也带来了新的想象空间。当AI真正开始规模化理解、规划并执行复杂任务时,一个由智能体驱动的生产力革命,才算是真正拉开序幕。
21世纪经济报道
2025-11-19
21世纪经济报道
2025-11-19
21世纪经济报道
2025-11-19
21世纪经济报道
2025-11-19
21世纪经济报道
2025-11-19
观点
2025-11-19
证券之星资讯
2025-11-19
证券之星资讯
2025-11-19
证券之星资讯
2025-11-19