仅仅四小时!他做出了豆包手机平替产品“肉包”
2025-12-20 04:48:06 来源:中国经营网
仅耗时“4个小时”,李云龙就做出了被其称作“豆包手机平替”的第一版“肉包”。
12月,“豆包AI手机”成为科技圈焦点。月初,字节跳动与中兴通讯联合推出的“豆包手机”——努比亚M153工程样机限量发售。官方演示视频中,豆包手机助手展示了跨应用自动比价、订票、智能管家等功能,重新定义人机交互可能。该机型开售后迅速售罄,二手平台甚至高价转售,成交价一度接近发售价两倍。然而,豆包手机助手很快因触发风控机制,被微信、淘宝、美团及多家银行类App限制登录或禁止AI操作,引发市场广泛讨论。
豆包手机引发行业震动后,产品经理出身、现于顺福资本专注AI投资的李云龙,萌生开发类似产品想法。现场演示中他介绍:“‘肉包’无需连接电脑,不依赖手机厂商授权,却几乎完整复现豆包手机助手核心能力。”
就在接受《中国经营报》记者采访的一个多小时内,尚未推广的“肉包”在开源社区GitHub上的星标数持续攀升,表明大量国内外开发者开始关注并试用该项目。
李云龙的“肉包”实践似乎印证一个观点:AI手机助手技术门槛没想象中高,真正挑战在于模型优化、数据标注、系统权限获取及可持续商业模式。
技术揭秘:四小时如何打造“肉包”
“其实没什么技术难度。”这是李云龙接受记者采访时第一句话。
整个“肉包”项目初版开发仅耗时四小时,99%代码由AI生成。“我自己可能就写了十行左右代码,里面还有错误。”他笑着说。
他调用Claude、ChatGPT等六款AI助手协同工作,分别负责“肉包”的UI设计(软件界面设计)、前端开发、后端逻辑与测试部署。“我只下达指令,具体执行全由AI完成。”
在李云龙看来,“肉包”核心原理不神秘:通过高权限工具截取屏幕画面,利用多模态大模型识别界面元素;随后结合模拟点击、滑动、返回等操作,实现对手机应用自动化控制。
执行层面,“肉包”采用多智能体架构,包含管理者、执行者、反思者和记录者等角色。管理者负责理解用户意图并制定任务计划,执行者分析当前屏幕并执行操作,反思者评估操作是否正确。这种设计让AI具备从错误中学习能力,不断提升执行准确率。
这款轻量化工具核心逻辑与豆包手机高度相似:通过调用开源大模型理解用户自然语言指令,让AI像人类一样“看懂”手机屏幕,操作各类App完成一连串任务,如点外卖、发布小红书文案、在多个电商平台比价等。
事实上,豆包手机问世前,荣耀已展示过类似功能。IDC中国研究经理郭天翔曾指出,荣耀Magic8在今年发布会上演示了AI操控手机能力,去年Magic7发布会也曾展示“一句话点咖啡”场景。
就在豆包手机被主流App封禁后不久,市场以为AI手机助手可能举步维艰时,智谱开源了“会操作手机的AI”AutoGLM。此外,阿里早前也发布了同类开源项目Mobile Agent。两个开源模型均采用纯视觉方案,能实现移动设备自动化操作。
不过需注意,阿里Mobile Agent和智谱AutoGLM(开源版)均需连接电脑作为中转,而“肉包”完全运行于手机本地,大幅降低普通用户使用门槛。
李云龙解释:“以智谱AutoGLM为例(闭源的iOS或者安卓版本),用户需在手机端的远程虚拟手机中登录个人账号,隐私风险极高;阿里Mobile Agent虽已开源,但要求用户具备安卓调试环境。相比之下,‘肉包’将执行环境保留在用户自有设备上,数据不出本地,安全性更高。”
然而,由个人开发者耗时四小时打造的“肉包”,性能仍有明显瓶颈。现场演示中,被要求在B站搜索关键词视频并完成点赞任务时,整个流程耗时2分54秒。
“如果是豆包手机,应该只需十几秒。”李云龙解释,这是因为“肉包”底层依赖阿里通义千问VL通用大模型,每步操作都需上传整屏截图至云端分析,导致响应迟缓。“而豆包与中兴通讯合作,获得系统级权限,使用专门针对手机操作场景微调的小模型,还投入重金对主流App(如美团、淘宝、B站)进行人工标注。”
所谓“标注”,即人工标记界面中各元素语义——如将“+”图标标注为“创建内容”,或将不同样式的“搜索框”统一归类。这种细粒度数据积累,让模型能快速理解上下文,避免反复推理。而“肉包”及多数开源项目因缺乏标注资源,只能依赖通用视觉语言模型,准确率与效率受限。
豆包手机体验流畅,得益于其“封闭性”:仅适配单一机型努比亚M153,聚焦国内几十个高频App,通过深度标注与专属模型,实现更精准、高效控制。
AI手机的困局与出路
“肉包”开发经历揭示现实:AI手机助手技术门槛不算高,真正壁垒在于数据、生态与商业逻辑等。
数据标注是提升AI手机助手效率关键障碍。据李云龙估算,若将“肉包”训练至媲美豆包手机助手水平,至少需300万元投入和三到四个月时间。
“标注是浩大工程,需专业团队对每个应用界面详细标记。”他说,“比如折叠屏与直面屏显示内容有差异,也需分别标注。”目前他仅有几台测试机,但用户反馈显示,折叠屏、异形屏上常出现坐标错乱,甚至引发系统级异常。
大厂封禁是另一道难以逾越的门槛。
豆包手机努比亚M153于12月1日开售,次日便陆续被微信、淘宝、美团及多家银行类App限制登录或禁止AI操作。“肉包”在GitHub上线后不久,也因“AI点外卖”功能被美团封禁。
李云龙指出,大厂封禁并非针对工具本身,而是因其行为模式被识别为非人类操作——如人类滑动屏幕速度呈曲线变化,机器操作则过于平滑均匀。大厂不愿开放接口本质是出于商业利益考量。AI会直接冲击其流量变现模型。
360集团创始人周鸿祎也从商业逻辑角度分析指出,AI助手能直接完成订餐、购物等操作,动摇了大厂依赖 “用户打开App—浏览页面—点击广告”构建的传统流量体系,使其核心KPI面临失效风险。“以往淘宝、美团等平台依靠用户停留时长和广告投放盈利,而豆包手机助手让用户无需浏览首页、观看广告即可直达目标,直接冲击传统流量逻辑。”周鸿祎说。
值得注意的是,尽管大厂对第三方AI助手严防死守,自身却纷纷推出内置AI服务:腾讯有“元宝”,美团有“小美”,字节跳动有“豆包”,阿里则布局了“夸克”和“通义千问”。这些“围墙花园”内的AI助手,本质是将用户行为锁定在自家生态内,防止流量外流。这也解释了为何豆包手机接入微信、淘宝时遭遇抵制——一旦它试图成为跨平台的“超级入口”,便直接威胁现有利益格局。
更深层难题在于手机操作权限与安全的矛盾。
荣耀曾在2024年展示过类似能力,但AI功能表现更克制,未呈现跨App比价下单或类似操作。“手机厂商对用户隐私和品牌声誉高度敏感,不敢贸然开放系统底层权限。”李云龙指出,一旦开放给AI,意味着“黑灰产”和诈骗者同样可能利用这些接口。
他认为,理想路径是:由手机厂商作为整合者,与阿里、美团、抖音等头部App达成授权合作,在系统底层预留安全可控的AI代理接口。“这样既能保障用户体验,又能让各平台保留数据主权,同时确保AI仅作为执行者,而非决策者。”
而这背后,还有关键问题:责任归属。
“对于微信、银行等涉及敏感信息的App而言,AI助手可能成为个人信息泄露甚至财产损失的帮凶。”上海汉盛律师事务所高级合伙人李旻表示,“监管部门为保护用户及他人信息安全、财产安全,应对AI代操作系统、使用App的行为作出必要限制。例如,在涉及个人财产的操作中,应实施最严格的监管策略,严禁授予AI操纵财产的权限;对于微信及其他涉及他人信息的App,也应严格限制AI读取和调用的范围。此外,AI本身应提供相应保障并接受严格监管,不仅需符合相关规定,还应定期、单独取得用户授权,防止权利滥用。”
李云龙认为,AI手机助手终极障碍正是责任界定。目前,豆包手机助手和“肉包”在支付及其他关键环节均强制用户二次确认,将最终决策权留给人类,以规避潜在责任纠纷。
(文章来源:中国经营网)
原标题:仅仅四小时!他做出了豆包手机平替产品“肉包”
郑重声明:信查查发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。



