新模型“屠榜” 对话谷歌团队：AI“新旗手”如何诞生

当前位置：首页 > 新增资讯 > 新模型“屠榜” 对话谷歌团队：AI“新旗手”如何诞...

新模型“屠榜” 对话谷歌团队：AI“新旗手”如何诞生

2025-11-19 12:46:45 来源：第一财经

11月19日，预热多时且在全网引发热议的Gemini 3正式亮相。此次谷歌推出的并非普通的小修小补式升级，而是一张“王牌”——在几乎所有主流基准测试中均实现全面领先，这可能会改写大模型的竞争格局。甚至有业内人士预测：“未来六个月内，很难有公司能超越这一成绩。”

发布后不久，OpenAI CEO奥尔特曼与特斯拉CEO马斯克先后公开表示祝贺。奥尔特曼称其“看起来是个很棒的模型”，评论区调侃“这句来自竞争对手的夸赞很暖心”。马斯克也一如既往地评价“Nice work”。

一向作风严谨的谷歌，此次表现得格外高调。官方博客标题直接写为“开启智慧新纪元”，内容中多次强调“最佳”“最先进”。谷歌员工也纷纷在社交媒体上为自家产品助力，谷歌CEO桑达尔·皮查伊今日已连发8条帖子介绍Gemini 3。

在正式发布前，第一财经参与了谷歌面向媒体的小范围沟通会。尽管对模型进展已有预期，但行业的热烈反响仍超出想象。大家惊叹于谷歌的进步速度，三个月前无法做到的设计现在能一键生成，AI编程也达到了“Next Level”，有人感慨“这行业发展速度太快了”。

谷歌在三年间实现了从追赶到领先的反超。谷歌DeepMind的CTO科雷·卡武克乔格鲁在媒体沟通会上认为，谷歌差异化的全栈式技术方案很关键，从硬件到研究的所有环节紧密相连。第一财经还问及如何看待缩放定律放缓的问题，他回答称，技术进步不一定体现在全新能力出现，更体现在“模型能赋能的新场景”上。

新模型“屠榜”

今日凌晨皮查伊发了条帖子，内容仅有一张图，但这张图极具说服力，Gemini 3 Pro几乎“屠榜 ”，在所有主要竞技场排行榜上位居第一。

具体而言，在“人类最后一次考试”（一项衡量深度理解能力的基准测试，要求模型具备多步骤逻辑推理与专家级演绎能力）中，Gemini 3 Pro在不使用工具的情况下取得了37.5%的成绩，而排名第二的GPT.5.1只有26.5%，领先10个百分点。

在衡量研究生水平推理与知识储备的GPQA Diamond测试中，Gemini 3 Pro的得分达到91.9%，紧随其后的GPT.5.1是88.1%。这意味着，Gemini 3 Pro在解决科学与数学问题时，不仅能力强，而且可靠性极高。

在多模态能力方面，其理解和推理都达到新高度：Gemini 3 Pro以8l%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了多模态推理的纪录。

在推理能力上，Gemini 3 Pro刷新了Grok4.1刚取得的成绩，以1501分登顶LMArena排行榜，而Grok4.1的思考模型是1484分。

榜单只是能力的一部分，谷歌对新模型的定义是，“Gemini 3能将任何想法变为现实”，所以，用户的实际体验更为重要。

有用户测试了一款高难度光影质感的海报，三个月前，谷歌的Nano Banana与GPT有明显差距，但现在已不同，“没想到这段很长的路谷歌只走了三个月”。还有一位博主感慨“Gemini 3 Pro实在太强了”，让模型复刻一个Mac OS的网页，“预期已很高，它仍超出了我的预期”。“亲眼看Gemini 3 Pro一口气写完一个web操作系统，脑子里嗡嗡的”，另一个用户表示。

在沟通会中，媒体也询问了产品团队训练这款新模型过程中的一些“顿悟时刻”，谷歌DeepMindGemini模型产品总监图西·多西表示,第一次用它进行代码生成时，最令人惊叹的是，只需简单提示，就能生成各类游戏，且在精细度上极具优势。比如，生成3D可视化内容，还能在其中直接玩游戏，这种体验很棒。

谷歌DeepMindCEO戴密斯·哈萨比斯也在用模型做游戏，他在帖子中自豪地表示，模型“当然在各大排行榜上都名列前茅”，但除了这些基准测试外，它也凭借独特风格和强大功能，在日常任务中有出色表现。他提及自己最近一直在用Gemini 3玩一些编程，比如用了几个小时就重现了一款游戏，且细节呈现出色。

Gemini智能体还有哪些潜在使用场景？斯特鲁哈尔在会上提到，他个人已在用模型处理两类事情，效果良好。一个是购买票务，另一个是用智能体模式整理邮件收件箱。

“我每天早上醒来会收到50多封邮件，逐一查看、判断如何处理要花很长时间。现在我会用智能体帮忙梳理：它会提炼出邮件里的待办任务，筛选出需要我回复的邮件，还会标注出可忽略的邮件，这真节省了大量时间。”斯特鲁哈尔表示，自己也会用模型买演唱会门票，让智能体根据家庭成员直接筛选出合适的票务组合，而他只需点击一个“购买”。

谷歌团队期望用户能用新模型处理生活中遇到的“多步骤复杂任务”，这是这款模型的强项。

AI行业“新的旗手”来了？

除了能力跃升，谷歌此次还有两个举动较值得关注，一是发布首日就将Gemini 3应用于谷歌搜索，另一个是发布了全新的“类IDE”AI编程产品Antigravity，涉足编程领域。

这意味着新发布的模型已足够成熟，能在商业化场景中应用。官方称，Gemini 3为搜索引擎带来强大推理能力，还解锁了新的生成UI体验，用户可使用专门生成的交互式工具和模拟来获得动态视觉布局。

比如，当用户询问物理学里的三体问题，能直接得到一个可交互的模拟界面，用户能通过改变变量观察结果。

团队认为此次发布的模型也是内部迄今为止最强的“氛围式代码生成”模型，而谷歌基于此推出的Antigravity则进一步完善产品体验，类似AI IDE，智能体可代表用户自主规划和执行复杂的端到端软件任务。

在沟通会中谈及Antigravity时，卡武克乔格鲁认为，大语言模型已彻底改变编程方式，能让工程师和软件开发人员“站在更高层面”工作，在智能体帮助下处理复杂任务，而Antigravity正是在此基础上构建的。

目前市场上也有其他IDE产品，卡武克乔格鲁表示，谷歌的模型仍将在各类IDE中可用，也会通过API向开发者开放，但Antigravity能为团队提供“另一种与开发者互动的方式”，团队可借此了解用户使用场景、真实任务需求和面临的挑战，进而优化模型

谷歌此次举动也让外界猜测其是否在AI编程领域与Anthropic和Cursor等编程模型和工具展开竞争。

卡武克乔格鲁回应称，此次发布中谷歌仍与Cursor保持紧密合作关系。他们的目的不是竞争，对团队来说重要的是“在用户所在场景触达他们”。目前，人工智能开发仍处于早期阶段，其对不同领域、不同行业的影响还在探索中。“我们认为，保持开放实验的态度很重要。”

但无论如何，谷歌确实已领先竞争对手一步，这些举动必然会让同类产品有所忌惮，比如“Anthropic或许已满头大汗了”，此前Anthropic靠在编程领域的领先性能，营收快速增长，估值也一路走高，但如今这个优势似乎已被谷歌追平。

市场认为，对谷歌而言，Gemini 3或许也是重要里程碑。自2022年底ChatGPT发布以来，谷歌一直被认为“起大早赶晚集”，在AI竞赛中处于追赶OpenAI的状态，但新模型可能改写格局，谷歌有机会占据领先地位，尤其是在OpenAI的GPT-5被指“噱头大于实际”的情况下，AI产业正需要一个新的旗手。

甚至有声音称“谷歌正在托起AI牛市叙事”，近日海外的Loop Capital(路普资本)将谷歌母公司的评级从“持有”上调至“买入”，目标股价从每股260美元上调至320美元。谷歌前几日股价一度大涨，市值突破3.5万亿美元，创历史新高，目前回落到3.43万亿美元，但仍是历史高位。

此前巴菲特旗下伯克希尔·哈撒韦披露已重仓买入谷歌，成为该公司第十大股票持仓，引发资本市场关注。Loop Capital的分析指出，“搜索担忧不再有效”，因为Gemini的流量份额同比翻番。这种日益增长的参与度凸显一个关键洞察：谷歌正在有效利用其庞大用户基础和产品生态系统推动AI应用，将生成能力直接融入数百万人的日常数字体验中。

在沟通会上，卡武克乔格鲁公布了Gemini用户数据：月活跃用户已超6.5亿，有超1300万名开发者正在基于Gemini构建模型与人工智能应用，而由Gemini支持的搜索中的AI概览功能，每月用户量超20亿。

谷歌为何能在三年间实现从追赶到领先的反超？卡武克乔格鲁分析认为，核心原因之一是团队始终保持极快的发展节奏，而其中最关键的支撑是谷歌极具差异化的全栈式技术方案。

这套全栈方案从硬件投资开始：首先是数据中心的基础设施建设，接着是芯片，尤其是谷歌高性能TPU(张量处理单元)，这些芯片之间的网络连接方式构成支持模型训练的计算集群，进而支撑谷歌前沿的AI研究。简单来说，从硬件设计，到大规模训练实现，再到突破性研究成果，最后到基础模型能力提升，所有环节紧密相连、协同作用。

就在这半年，Gemini应用的用户增长显著，斯特鲁哈尔认为其中一个关键因素是生图产品Nano Banana带来的病毒式传播效应，尤其是在泰国、印度尼西亚、印度等国家，这是一款非常成功的产品，很多人喜欢用它互动，还会分享给朋友，并且引发了手办潮流。

从去年底开始，就有观点认为大模型迭代速度已放缓，缩放定律也不再有效，但谷歌此次的大模型似乎仍取得显著进步，谷歌如何看待目前的发展趋势？

卡武克乔格鲁对第一财经记者表示，观察一个领域发展，关键要看其对各行业的实际影响，而AI领域的影响正在不断扩大，越来越多职业人士用AI辅助工作。

“AI模型在日常生活中的影响力越来越大，从这个角度看，技术进步速度其实很快。从我们自身模型能力迭代来看，也能看到很多令人兴奋的进展。”卡武克乔格鲁认为，不应将技术进步局限于全新能力诞生，“模型能赋能的新场景”同样是一个指标。从预训练到后训练的整个模型开发流程中，他们都看到全方位积极进展，且这种趋势还会持续一段时间。

谷歌认为，Gemini 3是团队迈向通用人工智能(AGI)的下一步。目前这一步显然比OpenAI和xAI等同类竞争对手更快。

在奥尔特曼恭喜谷歌新模型发布的评论区里，热门评论是，“你的口袋里还有什么”？下一步该轮到对手们出牌了。

（文章来源：第一财经）

原标题：新模型“屠榜” 对话谷歌团队：AI“新旗手”如何诞生

郑重声明：信查查发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

新模型“屠榜” 对话谷歌团队：AI“新旗手”如何诞生

相关企业

热门企业