当前位置: 首页 > 新增资讯 > 新模型“屠榜” 对话谷歌团队:AI“新旗手”如何诞...

新模型“屠榜” 对话谷歌团队:AI“新旗手”如何诞生

2025-11-19 12:46:45 来源:第一财经

新模型“屠榜” 对话谷歌团队:AI“新旗手”如何诞生

11月19日,预热多时且在全网引发热议的Gemini 3正式亮相。此次谷歌推出的并非普通的小修小补式升级,而是一张“王牌”——在几乎所有主流基准测试中均实现全面领先,这可能会改写大模型的竞争格局。甚至有业内人士预测:“未来六个月内,很难有公司能超越这一成绩。”

发布后不久,OpenAI CEO奥尔特曼与特斯拉CEO马斯克先后公开表示祝贺。奥尔特曼称其“看起来是个很棒的模型”,评论区调侃“这句来自竞争对手的夸赞很暖心”。马斯克也一如既往地评价“Nice work”。

一向作风严谨的谷歌,此次表现得格外高调。官方博客标题直接写为“开启智慧新纪元”,内容中多次强调“最佳”“最先进”。谷歌员工也纷纷在社交媒体上为自家产品助力,谷歌CEO桑达尔·皮查伊今日已连发8条帖子介绍Gemini 3。

在正式发布前,第一财经参与了谷歌面向媒体的小范围沟通会。尽管对模型进展已有预期,但行业的热烈反响仍超出想象。大家惊叹于谷歌的进步速度,三个月前无法做到的设计现在能一键生成,AI编程也达到了“Next Level”,有人感慨“这行业发展速度太快了”。

谷歌在三年间实现了从追赶到领先的反超。谷歌DeepMind的CTO科雷·卡武克乔格鲁在媒体沟通会上认为,谷歌差异化的全栈式技术方案很关键,从硬件到研究的所有环节紧密相连。第一财经还问及如何看待缩放定律放缓的问题,他回答称,技术进步不一定体现在全新能力出现,更体现在“模型能赋能的新场景”上。

新模型“屠榜”

今日凌晨皮查伊发了条帖子,内容仅有一张图,但这张图极具说服力,Gemini 3 Pro几乎“屠榜 ”,在所有主要竞技场排行榜上位居第一。

具体而言,在“人类最后一次考试”(一项衡量深度理解能力的基准测试,要求模型具备多步骤逻辑推理与专家级演绎能力)中,Gemini 3 Pro在不使用工具的情况下取得了37.5%的成绩,而排名第二的GPT.5.1只有26.5%,领先10个百分点。

在衡量研究生水平推理与知识储备的GPQA Diamond测试中,Gemini 3 Pro的得分达到91.9%,紧随其后的GPT.5.1是88.1%。这意味着,Gemini 3 Pro在解决科学与数学问题时,不仅能力强,而且可靠性极高。

在多模态能力方面,其理解和推理都达到新高度:Gemini 3 Pro以8l%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了多模态推理的纪录。

在推理能力上,Gemini 3 Pro刷新了Grok4.1刚取得的成绩,以1501分登顶LMArena排行榜,而Grok4.1的思考模型是1484分。

榜单只是能力的一部分,谷歌对新模型的定义是,“Gemini 3能将任何想法变为现实”,所以,用户的实际体验更为重要。

有用户测试了一款高难度光影质感的海报,三个月前,谷歌的Nano Banana与GPT有明显差距,但现在已不同,“没想到这段很长的路谷歌只走了三个月”。还有一位博主感慨“Gemini 3 Pro实在太强了”,让模型复刻一个Mac OS的网页,“预期已很高,它仍超出了我的预期”。“亲眼看Gemini 3 Pro一口气写完一个web操作系统,脑子里嗡嗡的”,另一个用户表示。

在沟通会中,媒体也询问了产品团队训练这款新模型过程中的一些“顿悟时刻”,谷歌DeepMindGemini模型产品总监图西·多西表示,第一次用它进行代码生成时,最令人惊叹的是,只需简单提示,就能生成各类游戏,且在精细度上极具优势。比如,生成3D可视化内容,还能在其中直接玩游戏,这种体验很棒。

谷歌DeepMindCEO戴密斯·哈萨比斯也在用模型做游戏,他在帖子中自豪地表示,模型“当然在各大排行榜上都名列前茅”,但除了这些基准测试外,它也凭借独特风格和强大功能,在日常任务中有出色表现。他提及自己最近一直在用Gemini 3玩一些编程,比如用了几个小时就重现了一款游戏,且细节呈现出色。

Gemini智能体还有哪些潜在使用场景?斯特鲁哈尔在会上提到,他个人已在用模型处理两类事情,效果良好。一个是购买票务,另一个是用智能体模式整理邮件收件箱。

“我每天早上醒来会收到50多封邮件,逐一查看、判断如何处理要花很长时间。现在我会用智能体帮忙梳理:它会提炼出邮件里 的待办任务,筛选出需要我回复的邮件,还会标注出可忽略的邮件,这真节省了大量时间。”斯特鲁哈尔表示,自己也会用模型买演唱会门票,让智能体根据家庭成员直接筛选出合适的票务组合,而他只需点击一个“购买”。

谷歌团队期望用户能用新模型处理生活中遇到的“多步骤复杂任务”,这是这款模型的强项。

AI行业“新的旗手”来了?

除了能力跃升,谷歌此次还有两个举动较值得关注,一是发布首日就将Gemini 3应用于谷歌搜索,另一个是发布了全新的“类IDE”AI编程产品Antigravity,涉足编程领域。

这意味着新发布的模型已足够成熟,能在商业化场景中应用。官方称,Gemini 3为搜索引擎带来强大推理能力,还解锁了新的生成UI体验,用户可使用专门生成的交互式工具和模拟来获得动态视觉布局。

比如,当用户询问物理学里的三体问题,能直接得到一个可交互的模拟界面,用户能通过改变变量观察结果。

团队认为此次发布的模型也是内部迄今为止最强的“氛围式代码生成”模型,而谷歌基于此推出的Antigravity则进一步完善产品体验,类似AI IDE,智能体可代表用户自主规划和执行复杂的端到端软件任务。

在沟通会中谈及Antigravity时,卡武克乔格鲁认为,大语言模型已彻底改变编程方式,能让工程师和软件开发人员“站在更高层面”工作,在智能体帮助下处理复杂任务,而Antigravity正是在此基础上构建的。

目前市场上也有其他IDE产品,卡武克乔格鲁表示,谷歌的模型仍将在各类IDE中可用,也会通过API向开发者开放,但Antigravity能为团队提供“另一种与开发者互动的方式”,团队可借此了解用户使用场景、真实任务需求和面临的挑战,进而优化模型

谷歌此次举动也让外界猜测其是否在AI编程领域与Anthropic和Cursor等编程模型和工具展开竞争。

卡武克乔格鲁回应称,此次发布中谷歌仍与Cursor保持紧密合作关系。他们的目的不是竞争,对团队来说重要的是“在用户所在场景触达他们”。目前,人工智能开发仍处于早期阶段,其对不同领域、不同行业的影响还在探索中。“我们认为,保持开放实验的态度很重要。”

但无论如何,谷歌确实已领先竞争对手一步,这些举动必然会让同类产品有所忌惮,比如“Anthropic或许已满头大汗了”,此前Anthropic靠在编程领域的领先性能,营收快速增长,估值也一路走高,但如今这个优势似乎已被谷歌追平。

市场认为,对谷歌而言,Gemini 3或许也是重要里程碑。自2022年底ChatGPT发布以来,谷歌一直被认为“起大早赶晚集”,在AI竞赛中处于追赶OpenAI的状态,但新模型可能改写格局,谷歌有机会占据领先地位,尤其是在OpenAI的GPT-5被指“噱头大于实际”的情况下,AI产业正需要一个新的旗手。

甚至有声音称“谷歌正在托起AI牛市叙事”,近日海外的Loop Capital(路普资本)将谷歌母公司的评级从“持有”上调至“买入”,目标股价从每股260美元上调至320美元。谷歌前几日股价一度大涨,市值突破3.5万亿美元,创历史新高,目前回落到3.43万亿美元,但仍是历史高位。

此前巴菲特旗下伯克希尔·哈撒韦披露已重仓买入谷歌,成为该公司第十大股票持仓,引发资本市场关注。Loop Capital的分析指出,“搜索担忧不再有效”,因为Gemini的流量份额同比翻番。这种日益增长的参与度凸显一个关键洞察:谷歌正在有效利用其庞大用户基础和产品生态系统推动AI应用,将生成能力直接融入数百万人的日常数字体验中。

在沟通会上,卡武克乔格鲁公布了Gemini用户数据:月活跃用户已超6.5亿,有超1300万名开发者正在基于Gemini构建模型与人工智能应用,而由Gemini支持的搜索中的AI概览功能,每月用户量超20亿。

谷歌为何能在三年间实现从追赶到领先的反超?卡武克乔格鲁分析认为,核心原因之一是团队始终保持极快的发展节奏,而其中最关键的支撑是谷歌极具差异化的全栈式技术方案。

这套全栈方案从硬件投资开始:首先是数据中心的基础设施建设,接着是芯片,尤其是谷歌高性能TPU(张量处理单元),这些芯片之间的网络连接方式构成支持模型训练的计算集群,进而支撑谷歌前沿的AI研究。简单来说,从硬件设计,到大规模训练实现,再到突破性研究成果,最后到基础模型能力提升,所有环节紧密相连、协同作用。

就在这半年,Gemini应用的用户增长显著,斯特鲁哈尔认为其中一个关键因素是生图产品Nano Banana带来的病毒式传播效应,尤其是在泰国、印度尼西亚、印度等国家,这是一款非常成功的产品,很多人喜欢用它互动,还会分享给朋友,并且引发了手办潮流。

从去年底开始,就有观点认为大模型迭代速度已放缓,缩放定律也不再有效,但谷歌此次的大模型似乎仍取得显著进步,谷歌如何看待目前的发展趋势?

卡武克乔格鲁对第一财经记者表示,观察一个领域发展,关键要看其对各行业的实际影响,而AI领域的影响正在不断扩大,越来越多职业人士用AI辅助工作。

“AI模型在日常生活中的影响力越来越大,从这个角度看,技术进步速度其实很快。从我们自身模型能力迭代来看,也能看到很多令人兴奋的进展。”卡武克乔格鲁认为,不应将技术进步局限于全新能力诞生,“模型能赋能的新场景”同样是一个指标。从预训练到后训练的整个模型开发流程中,他们都看到全方位积极进展,且这种趋势还会持续一段时间。

谷歌认为,Gemini 3是团队迈向通用人工智能(AGI)的下一步。目前这一步显然比OpenAI和xAI等同类竞争对手更快。

在奥尔特曼恭喜谷歌新模型发布的评论区里,热门评论是,“你的口袋里还有什么”?下一步该轮到对手们出牌了。



(文章来源:第一财经)


原标题:新模型“屠榜” 对话谷歌团队:AI“新旗手”如何诞生

郑重声明:信查查发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。

相关企业

浙江世纪华通集团股份有限公司 浙报数字文化集团股份有限公司 上海姚记科技股份有限公司 厦门吉比特网络技术股份有限公司 恺英网络股份有限公司 完美世界股份有限公司 杭州电魂网络科技股份有限公司 四川迅游网络科技股份有限公司 无锡宝通科技股份有限公司 深圳冰川网络股份有限公司 巨人网络集团股份有限公司 名臣健康用品股份有限公司 北京神州泰岳软件股份有限公司 文投控股股份有限公司 杭州顺网科技股份有限公司 游族网络股份有限公司 富春科技股份有限公司 深圳中青宝互动网络股份有限公司 北京掌趣科技股份有限公司 湖北盛天网络技术股份有限公司 上海英方软件股份有限公司 北京超图软件股份有限公司 北京中长石基信息技术股份有限公... 北京数字认证股份有限公司 北京中科海讯数字科技股份有限公... 金现代信息产业股份有限公司 上海网达软件股份有限公司 佳缘科技股份有限公司 山东亚华电子股份有限公司 品茗科技股份有限公司 四川观想科技股份有限公司 北京东方通科技股份有限公司 广州市品高软件股份有限公司 北京久其软件股份有限公司 远光软件股份有限公司 江苏通行宝智慧交通科技股份有限... 湖南科创信息技术股份有限公司 北京数字政通科技股份有限公司

热门企业

西安金叶实业发展有限公司 四川省昌宏美盛建筑劳务有限公司 湖南省宁桂建筑有限公司 广东信诚置业投资策划有限责任公... 山东天凯贸易有限公司 广西中桂汇元资产管理有限公司 山东万开电气有限公司 新余市万企普世农业开发有限公司 四川国印建筑劳务有限公司 陕西伊达智护矿山装备制造有限公... 中盛乾源(北京)建设投资有限公... 海南和邦国际石油化工有限公司 日照山海天财金投资有限公司 湖南军毅文化旅游发展有限公司 陕西煜和隆商贸有限公司 湖南壕鑫纺织有限公司 北京不多见科技有限公司 内蒙古鹏展生物材料有限公司 郑州经济技术开发区公共租赁住房... 南县新旭新能源有限公司 懿变电气有限公司 吉林森工森林特色食品有限公司 上海辅德资产管理有限公司 枣庄市仰韶电子科技有限公司 炎天(福建)环保科技有限责任公... 中致(辽宁)网络科技集团有限公... 杭州永善资产管理有限公司 珠海澳港工程建设有限公司 西咸新区秦汉新城田园小镇建设有... 杭州雅润文化艺术有限公司

快速导航

联系方式

  • 联系电话:400-900-6808
  • E-mail:service@zyyx.cn
  • 客服微信:xinchacha2024

数据来源

  • 全国企业信用信息公示系统
  • 中国裁判文书网
  • 中国执行信息公开网
  • 国家知识产权局
  • 商标局
  • 版权局

关于我们

  • 关于我们
  • 联系我们
  • 用户协议
  • 隐私协议
  • 信用通线上协议
  • 加密保线上协议

信查查官方微信

电话

400-900-6808

客服

小程序

APP