谷歌发布Gemini 3，AI竞赛转向比拼“执行力”

来源：21世纪经济报道

媒体

2025-11-19 19:32:55

（原标题：谷歌发布Gemini 3，AI竞赛转向比拼“执行力”）

21世纪经济报道记者董静怡

大模型领域的竞赛，在2025年年末又迎来一波新高潮。

OpenAI在8月初发布GPT-5，Anthropic在9月底推出Claude Sonnet 4.5，而科技巨头谷歌也终于亮出了自己的王牌。美国当地时间11月18日，Google正式发布了其最新一代人工智能模型 Gemini 3，即日起在Google AI Studio开放预览，API接口同步上线，即将全面集成到谷歌搜索、Android系统等产品中。

这一发布距离上次Gemini 2.5的发布仅过去七个月，被视为谷歌在AI领域的“绝地反击”关键一战。

在谷歌官方的描述中，Gemini 3可以助力“学习、构建和规划一切”。该模型不仅刷新多项性能纪录，还突出展现了AI从“回答问题”到“完成工作”的转变。

“Gemini 3是我们目前最智能的模型，目标是让用户把任何想法变成现实。”谷歌CEO Sundar Pichai在官方博客中写道。

Gemini 3的发布在行业内引发了巨大反响，被认为是谷歌重回AI第一阵营的标志。OpenAI联合创始人、CEO Sam Altman和xAI创始人、CEO Elon Musk均第一时间向谷歌发来“贺信”。

对于行业来讲，大模型的深度落地和商业化路径正变得更加清晰。

多重突破

Gemini 3.0之所以引发如此大的震动，源于它在三个关键领域的突破性进展。

在深度推理能力方面，“Gemini 3的推理能力有了巨大的飞跃，”谷歌Gemini模型产品负责人Tulsee Doshi表示，“它的响应深度和细致程度是我们以前从未见过的。”

在LMSys Elo Arena排行榜上，Gemini 3 Pro 以1501分的突破性分数登顶，比其前代Gemini 2.5 Pro高出50个等级分。

此外，在更考验深层理解的基准测试中，它的表现同样突出：在Humanity’s Last Exam中（要求多步逻辑和专家级推理的基准测试），Gemini 3 Pro在未使用任何工具的情况下得分率达 37.5%，在GPQA Diamond中（衡量研究生水平推理与知识的基准测试）准确率高达 91.9%。

数学能力也得到进一步突破，在“地狱难度”的MathArena测试中，以23.4%的得分率碾压群雄，而GPT-5.1等对手仅在1%左右。

这种推理能力不仅体现在抽象逻辑和复杂问题拆解上，还延伸至长时程规划任务。在Vending-Bench 2的全年模拟运营测试中，Gemini 3 Pro能持续保持决策一致性，实现业务回报最大化，为现实世界中的自动化工作流，如邮件分类、行程协调、资源调度等提供了可靠支撑。

在多模态理解方面，Gemini系列从诞生之初就以“原生多模态”为核心优势。Sundar Pichai 在博客中写道：“近两年前，我们开启了Gemini时代，这是我们公司有史以来最大的科学和产品项目之一。仅仅两年时间，人工智能就从单纯阅读文本和图像发展到能够读懂场景。”

在测试中，Gemini 3 Pro在多学科多模态理解测试MMMU-Pro上取得81%的成绩，在专门评估视频理解能力的Video-MMMU上达到87.6%。

在官方演示里，它拿到一叠手写字体潦草、包含各种符号的菜谱照片后，自动生成一本结构化的电子家庭菜谱，包含食物图片、食材类别、烹饪顺序等核心信息，条理清晰。

同时，该模型在事实准确性指标SimpleQA Verified基准测试中也斩获了当前最先进的72.1%得分。谷歌明确表示，新模型将摒弃过去AI常见的“奉承式回应”或“安全但空洞”的话术，转而提供“你需要听到的真相”。

值得一提等是，与竞争对手相比，Gemini 3.0的记忆容量实现了质的飞跃，支持高达100万tokens的超长上下文长度，约相当于700页英文书籍或2小时的4K视频，这使其能够处理超长、复杂的多模态输入，并在其中建立连贯的语义关联。

在编程与软件工程领域，Gemini 3同样展现出接近专业开发者的综合能力。

在WebDev Arena编码竞赛中，Gemini 3以1487分的成绩位居榜首；在基于真实开源项目的SWE-bench Verified测试中，其修复并通过验证的代码占比达76.2%；而在Terminal-Bench 2.0终端操作测试中也取得了54.2%的高分。

谷歌表示，Gemini 3让产品更具自主性，同时提高开发者生产力。

这一突破的核心载体则是Antigravity，一个用于构建人工智能驱动编码代理的新开发平台。平台中，“代理或智能体”被提升到一个专门的界面，DeepMind首席技术官Koray Kavukcuoglu解释说：“智能体可以在你的编辑器、终端和浏览器之间工作，以最佳方式帮助你构建应用程序。”

在演示中，谷歌展示了一个AI智能体生成完整航班跟踪应用的过程：用户只需要一句自然语言指令“帮我做一个航班跟踪应用”，平台就会自动完成规划结构、编写代码、验证输出并生成文档。这也标志着AI编程已从“辅助”迈入“自主”的新阶段。

重回第一阵营

事实上，自2022年底ChatGPT引爆生成式AI浪潮以来，谷歌一度陷入被动。内部“红色警报”的传闻、产品迭代节奏滞后、市场信心动摇，使其在公众认知中沦为“追赶者”。

不过，Gemini 3的发布显示出谷歌开始主动定义下一代AI的竞争，尤其是“智能体”范式的落地。

过去两年，AI行业陷入“模型军备竞赛”，但资本市场对单纯的技术突破已显疲态。Meta虽开源Llama系列却难变现，OpenAI因治理动荡和商业化路径模糊遭遇估值回调，投资者关注焦点已从谁的模型更强转向谁的AI能赚钱。

此次Gemini 3的发布正是着重展示了AI作为“执行任务的代理”的角色。谷歌Gemini团队负责人Josh Woodward在一个访谈中表示，谷歌将其定位为“超级工具”而非情感伴侣，核心价值是帮助用户高效完成日常任务，提升生产力，“这更接近初代谷歌搜索的核心价值——效率。”

这种转变不仅契合企业级客户对自动化工作流的真实需求，也使谷歌得以将其庞大的产品生态转化为AI落地的天然试验场和变现通道。在业内看来，这一战略转向极具商业价值。

而谷歌也进行了迅速的商业部署。Gemini 3模型发布首日，谷歌就将其全面整合进其搜索产品生态，这是谷歌首次在模型发布当天就将其引入搜索。同时，Gemini 3也在发布当天同步向Gemini App用户、AI Studio和Vertex AI的开发者开放，并在智能体开发平台Google Antigravity推出，支持开发者构建更强大的AI应用。

“我们正将Gemini注入Maps、YouTube、安卓、搜索、Workspace等产品，这个分发网络和终端数据反馈环是无法逾越的护城河。”DeepMind CEO Demis Hassabis在一场访谈中表示。

据谷歌披露数据，Gemini应用目前月活跃用户已达6.5 亿，而搜索的AI Overviews拥有20亿月活用户。

Needham分析师Laura Martin在Gemini发布前的一份报告中指出，谷歌的搜索、YouTube、安卓、云等业务部门在分发AI产品方面具有战略优势，使其能够“捕获”AI投资的回报。

最新财报数据看，AI已成为谷歌增长的重要引擎。谷歌云业务第三季度营收达152亿美元，同比增长33.5%，营业利润率提升至23.7%，其中AI相关收入已达到“每季度数十亿美元”规模，基于生成式AI模型构建的产品收入，同比增长超过200%，显示出AI驱动商业化的强劲势头。

同时，巨额的资本支出仍在持续。CFO Anat Ashkenazi在财报会议上表示，2025年资本支出预期从此前的850亿美元上调至910-930亿美元，远超市场预期的806.7亿美元，并且预计2026年资本支出将大幅增长。

虽然和众多加码AI的科技巨头一样，谷歌仍面临着投资回报的压力，但大模型也带来了新的想象空间。当AI真正开始规模化理解、规划并执行复杂任务时，一个由智能体驱动的生产力革命，才算是真正拉开序幕。

特别推荐

“千亿投入”夯实生态底盘，拼多多迈向“责任与担当”新十年

证券之星资讯

2025-11-19

上市公司员工福利盘点：暖心福利成企业竞争力新标杆

证券之星资讯

2025-11-19

外资看好2026年A股，聚焦科技与“出海”

证券之星资讯

2025-11-19

首页股票财经基金导航

举报专区联系我们

谷歌发布Gemini 3，AI竞赛转向比拼“执行力”

多重突破

重回第一阵营

相关个股

相关阅读

特别推荐