文字指令就能“P视频” 实测快手可灵O1：视频版Nano Banana Pro来了？

当前位置：首页 > 新增资讯 > 文字指令就能“P视频” 实测快手可灵O1：视频版N...

文字指令就能“P视频” 实测快手可灵O1：视频版Nano Banana Pro来了？

2025-12-05 00:01:23 来源：每日经济新闻

曾一度被誉为“地表最强AI（人工智能）生图模型”的谷歌Nano Banana Pro，其引发的新一轮技术热潮余热尚存，年末视频生成模型“大混战”又掀起高潮。

先是海外AI视频初创公司Runway发布新一代视频模型Gen-4.5，并在基准测试中超越谷歌的Veo3登顶。12月1日，快手可灵AI抛出“王炸”，上线“全球首个统一多模态视频大模型”可灵O1，进一步强化其作为“生产力工具”的特性。

竞争氛围浓烈。

通常情况下，普通C端（消费者）用户若想生成相对复杂且精细的视频，往往需借助生图模型、视频生成模型以及剪辑软件等进行制作。实际操作时，多模型、多软件的切换耗时又繁琐，视频效果在流转中还可能出现主体一致性差、动作崩掉等状况，需重新“抽卡”（即通过反复尝试、调整提示词或参数来获取理想作品的过程）。

“统一多模态视频大模型”据称主要解决的便是这一问题。

事实上，自去年起，视频生成领域的竞争便已白热化。今年，国外的Sora2、Veo3逐渐确立统治地位，国内有多轮大版本更新且商业化速度领先的可灵持续发力。时至年末，新一轮混战来临，谁是“地表最强视频生成模型”，我们距答案还有多远？《每日经济新闻》记者对可灵O1进行了实测。

支持多模态，输入文字指令就能“P视频”

《每日经济新闻》记者实测发现，可灵O1首次将参考生视频、文生视频、首尾帧生视频、视频内容增删及修改变换等多任务，融合于大一统模型之中。

关键在于，完成上述任务能够“全流程语义控制”，用一句话便可生成或修改视频。图片、视频、主体、文字等均可视为指令，可灵O1能综合理解用户上传的照片、视频或主体（一个角色的不同视角）的意图，并生成视频的各种细节。

具体而言，记者实测发现，在可灵O1模型的多模态指令输入区，可上传1到7张参考图或主体，自由组合人物、角色、道具、服装、场景等元素，使静态元素在视频中动起来。

视频生成后，也能在输入区变换指令，对原视频进行主体与背景的增加、修改、删除，还可修改风格、颜色、材质、视角等。由于支持多模态输入，这个修改过程可用文字、图片、主体的输入语言任意组合。

比如，在输入区输入“删除【视频】中道路两侧的路人，保留马车”，修改后的视频保持了主体的一致性，对被删除的内容进行了较为干净的抹除。

图片来源：可灵O1测试截图

除用文字指令删除、增加内容外，还能用图片指令修改视频的主体等。比如，输入“将【视频】中的雕像修改为【图片】中的姜饼人”，生成的视频保持了原视频的运镜逻辑、背景一致，主体也按要求进行了替换。

图片来源：可灵O1测试截图

此外，可灵O1还能改变视频的视角、景别，如远景变特写、俯拍变仰拍等，并支持用参考视频内容生成新镜头等。

如记者输入图片和视频两段素材，让图片中的静态主体以视频主体的舞蹈方式动起来，结果生成视频对原图片打光、色调以及主体形象的还原度相对较高，但存在一些小瑕疵，如手部细节模糊、人物身体比例不协调等，还需重复“抽卡”。

视频“一致性”有所提高，指令还可叠加使用

体验时记者留意到，可灵O1强化了对输入图像及视频的理解，支持多视角图创建主体。即上传一个角色的多视角照片，其能在不同镜头、不同光照与风格下保持“同一个人”的特征不变。

比如，记者输入近期大热电影《疯狂动物城》主角“朱迪”的多张不同主体视角图片，后期进行视频生成时，无论主角、道具、场景以及运镜如何变化，朱迪的主体形象都能保持相对稳定。

不过，当记者添加了狐狸尼克的图片参考并进行更复杂的视频输出时,主体之外的人物形象出现不合逻辑的动作、形态呈现，甚至有一组舞会成员随着镜头推移，从双人跳舞变成了三人跳舞，需要重复“抽卡”。

图片来源：可灵O1测试截图

此外，记者体验时还发现，不仅针对单个角色或物品，可灵O1还具备多主体融合能力。可自由组合多个不同主体，或将主体与参考图混搭。此能力适用于视频里呈现复杂的群像戏或互动场景中，模型能够独立锁定及保持每一个角色或道具的特征。不过，该功能需要提供高清、主体明确的图片，否则需重复“抽卡”。而在复杂的互动场景下，多个主体的互动指令也需更明确地描述，不然就难以避免重复“抽卡”。

在实际场景落地中,如宣传视频就可直接上传商品图、场景图等，通过多个主体相互组合快速完成视频生成。

图片来源：可灵O1测试截图

记者发现，除单点任务外，可灵O1还支持组合不同技能，允许叠加使用各种指令，一次性生成。比如，可组合参考图片和修改视频风格，两个动作同时进行。

这些功能的升级，相对能拓宽可灵的场景应用，特别是作为“生产力工具”，可应用于影视创作、创意广告、服装穿搭参考视频、视频后期制作等。

不过，不少网友表示，目前可灵视频O1模型的使用价格较贵，视频生成、修改成本高。据了解，视频价格取决于输入情况和生成视频长度——无视频输入时，8灵感值/秒，有视频输入时，12灵感值/秒。以单次购买一个月的可灵黄金会员价格为例，66元/月、每月有660灵感值。如无视频输入，生成一个高品质5秒视频，大约需要40灵感值。

技术狂欢背后：可灵年收入即将破10亿元，C端市场待垦

视频、图像O1模型上新后，12月3日，可灵又官宣推出视频生成2.6模型。记者注意到，该模型提供了“音画同出”能力，升级了文生音画、图生音画两大功能。目前,语音支持生成中文与英文，生成的视频长度最长可达10秒。

12月4日晚，新一代可灵数字人2.0宣布即日起正式全量上线。上传角色图、添加配音内容、描述角色表现，三步即可生成。相对旧版，新版在表现力、手部及口型精准控制上有提升，且支持最长5分钟的视频时长。

除在年末迎来“技术周”，前不久三季度财报披露时，可灵宣布2025年收入将达10亿元的商业化进程，再次引起不小的市场反应。

值得一提的是，目前可灵用户构成仍以B端客户为主。而随着Open AI正式发布的第二代AI视频生成模型Sora 2等将视频生成与社交互动深度融合，C端消费级应用的落地进程明显加快。

快手科技创始人兼首席执行官程一笑在三季报电话会上也指出，“当前我们的主要精力依然是面向专业创作者，但未来也会将可灵的技术能力进一步产品化，与社交互动结合，加速C端应用的商业化。”这也回答了可灵未来增长方向的问题。

工信部信息通信经济专家委员会委员盘和林此前接受《每日经济新闻》记者微信采访时表示，视频生成赛道的最终受益者，可能还是内容创作平台，因为这些平台具备两样东西：其一，是最相关的用户群体，未来视频生成可能更多还是为短视频自媒体服务；其二是最大规模的用户受众，生成式AI带来的内容创作上的升级，会进一步影响创作者和观看者。

“未来，快手平台上的创作者，需要借助可灵这样的AI工具来生成内容，或者至少辅助内容创作，这会大大提高平台内容输出的质量，从而更好地吸引用户，扩大快手在内容平台领域的影响力。”盘和林如此补充。

（文章来源：每日经济新闻）

原标题：文字指令就能“P视频” 实测快手可灵O1：视频版Nano Banana Pro来了？

郑重声明：信查查发布此内容旨在传播更多信息，与本站立场无关，不构成投资建议。据此操作，风险自担。

文字指令就能“P视频” 实测快手可灵O1：视频版Nano Banana Pro来了？

相关企业

热门企业