当只有 AI 人会活成怎样? 与五源孟醒和两位挑战者还原 72 小时 AI 生存
- 2025-07-22 07:41:26
- 504
摘要:“我真的就是 AI 鲁滨逊!”
整理丨刘倩
这期节目关于一场前不久刚发生的真实 AI 实验:由五源资本发起的 “72 小时 AI 生存挑战”。
几个月前,我们得知五源在筹备这个挑战时,觉得新奇又奢侈。很多人的疑问是:有这个时间,为什么不多看点项目?挑战发起人、五源资本合伙人孟醒说,五源是想跳出信息茧房,验证一个问题:背景各异的更广泛人群,到底能用 AI 做到什么?他们唯一没有考虑的,就是怎么筛项目。
“项目我们平常也在看,我们希望做一点大家不干的事。” 孟醒说。
挑战有两个环节:一是生存——在没有智能手机、电脑也不具备浏览器等工具的情况下,靠大模型和 AI Coding 等 AI 工具,选手们能否取得食物等生存物资;二是创造——每组挑战者会设定一个 AI 目标任务,比如应用开发、内容创作,甚至尝试用 AI 赚钱。
最终有 7 人参加挑战,其中 2 位这次做客了《晚点聊》——完全不会编程的青年导演利建磊和从文科生转码的 AI 产品开发者陈郅悦。
利建磊在生存挑战中得到了灵感,创作了短片《7.41》。陈郅悦已用 AI Coding Agent 开发了数个产品,而且已有收入。这次挑战中,她做了一个让大模型给真人主播反馈的 AI 虚拟直播。让没粉丝的素人也可以在友好、安全的氛围里,以直播方式去倾诉。
这次挑战实际测量了 AI 在数字世界的环境阻力:“其实 Agent 作为一个人的替代,它在它的生存世界里面是没有尊严的。本质上就是 Agent 需要跪在验证码之前,来假装它是个人。”
也再次展现了人的社会性——人还是那么需要人。7 位挑战选手想尽各种方法,在这 72 小时中彼此交流和帮助。
以下是晚点与孟醒、利建磊、陈郅悦的对话。
一个实验
晚点:从这个挑战开始讲,为什么会有这样一个策划?
孟醒:最开始有这样的策划是在今年 2 月份。那时候诸如 Cursor、Windsurf 等 AI 编码公司都获得了良好的 traction,收入开始增长、用户量激增。与此同时,有一批媒体由 “一个人可以在几个月之内做出几百万美金的公司” 顺势推断称,未来所有公司的形态都应该是 1-10 人规模,而且能成长为超级独角兽公司。
但从实际使用者的角度来看,无论是行业内资深的产品人员还是开发者(包括我们自己),在试用时都觉得它没有达到预期效果。在当时,像 Rosebud 这类纯前端产品,即便只是满足非常简单的用户自主设计需求,也总感觉差一口气。毕竟在四个多月前,Cursor 的定位还是 “专业程序员在 2-3 天内快速产出 demo 的工具”,而不是用于大规模产品上线部署的工具。
其次,当时我与 Augment Code、Windsurf 等几家 coding 公司的从业者交流后发现,我觉得大家对于这件事未来的发展观点其实各不相同。有的人认为,要把它集成到企业体系中,从而大规模推动企业的 coding 的服务;另一些人则觉得,这类工具可能本质上是供人使用的 “玩具”,从 “小的玩的工具” 逐步升级为 “大的玩的工具”,一步一步向上发展。当时整个行业处于一种非常复杂的状态,没人能回答清楚这几个问题:第一个问题是,当下我们究竟处于什么状况?第二个问题是,未来它们又能帮我们完成哪些任务?这两点其实都很模糊。
作为投资人我们也在思考,这到底是值得投资的代码辅助工具,还是能让懂代码的人、甚至不懂代码的人都能用它做出有影响力的产品的工具,所以在 2 月份之后的讨论中,我们决定先自己尝试。但创始人跟我们讲的内容,和我自己尝试后的感受似乎也有些出入,我们意识到自己可能生活在 bubble(信息茧房)里 —— 因为我们接触的都是行业里最懂行的人,而普通人对这件事的理解很可能并非如此,这一点我觉得值得去了解。因此,我们想设计一个实验,真正搞清楚这些工具对更多人的影响力,以及它们改变人们生活的具体过程。顺着这个思路,很容易就联想到了 1999 年的 72 小时挑战。
晚点:肯定对你影响很深,因为有很多人不知道 1999 年 72 小时挑战这件事。
孟醒:其实我对每个阶段里具有进阶意义的事比较敏感。在那个靠上网卡上网的年代,72 小时生存挑战给我留下了非常深刻的记忆,我记得当时的挑战是:把人关在一个房间里 72 小时,仅靠互联网生存下来。在那个电商不发达、没有成熟下单体系、甚至缺乏支付系统的年代,本身就是个巨大的挑战。
晚点:对,那时候淘宝还没成立。
孟醒:那会儿点外卖、送快递之类的简直是匪夷所思的事情,在那个语境之下,把人放在不能出门的环境中,仅靠互联网生存下来,生存本身就是一个巨大的挑战。而现在互联网基础设施已经完善,电脑背后的主体可能要重新切换了 —— 比如从 “人来做所有事”,转变为 “AI 来做所有事” 或者 “人驱动 AI 做所有事”,这是第二层原因。
既然有了这样的形式,我们能挑战的就不只是生存了。当年大家挑战的是肉体存活,如果 26 年后 AI 仍然只能解决肉体存活问题,那进步就太有限了。或许 AI 能在思想精神层面提供助力,甚至拥有点燃灵魂的能力,我觉得这才是更重要的事。所以我想测试三件事:
第一,仅靠 AI 能否活下来?
第二,靠 AI 能否活得更好?本质上是说能否用 AI 挣到比初始资源更多的资源;
第三,除了生存和活得好,是否有自我实现的目标,并能在这段时间内完成。
这大致对应着马斯洛需求层次理论。这种形态其实很难实现,说实话,生存看似是最简单的目标,但具体怎么生存?我们觉得应该放在极限环境下测试,基于刚才设置,我们又进一步想:如何让参与者充分接受挑战?我觉得应该把资源压到最低,能带的东西减到最少 —— 所以除了 AI 工具,我们什么都不给。
晚点:吃的没给?
孟醒:我们给了一瓶水。其实执行团队原本想什么都不给,但我觉得至少要给大家一点存活的希望,于是设置了一个契机:可以提前选一件东西,可选范围包括零食和书。
晚点:我知道利导选了《我的第一本编程书》。
利建磊:结果我活得最惨,最晚拿到物资(笑)。
孟醒:艺术家的选择确实与众不同。但我觉得挺有意思的,在资源如此紧缺的情况下还有人优先选择精神层面的需求。
晚点:可是《我的第一本编程书》不算精神享受吧,这是为了学编程。你当时是想通过这本书学编程吗?
利建磊:对,这本书说适合小白、非常易懂之类的,我觉得应该可以。结果翻开第二页就看不懂了。
晚点:你实际看了多久?
利建磊:大概半个小时。我阅读习惯还算不错,但看这本书时速度急剧下降,看一页感觉花了 5 分钟。后来想了一下还不如选《飞鸟集》,至少精神上可以 “填饱” 一下。
孟醒:我们的出发点是想让大家在极限情况下接受挑战,所以只提供了 100 块钱。而 1999 年那次活动,提供了 1000 多块钱现金再加上 1500 块钱当时的虚拟代币 —— 这种代币可以在一些网站兑换成钱,整体大概是两三千块钱的量级。
晚点:其实你们在筹备的期间我就知道这个事情,我的第一反应是有这个时间为什么不多看点项目?
孟醒:我觉得这个世界上没有任何一件事是 “必须要做” 的,创业者为什么一定要创业?我觉得都是对世界以某种形式提出问题,再选择某种方式去执行、去回答。对我们来说也是如此,投资行业每天都在做足够功利性、足够变现的事情。但在 AI 的语境下,更重要的不是执行,当 AI 足够发达后,人最关键的作用是提出正确的问题,而不是回答问题,因为提出正确问题后,AI 可以给出所有答案。
反过来讲,我们在研究 AI 的过程中,提出的问题是什么?其实就是 “它对普通人的影响到什么程度”。我们不知道答案,所以希望通过这样的过程去探寻。
晚点:而且你们希望跳出信息茧房。
孟醒:对,如果这件事设计得足够有趣,我觉得它不仅能回答我们的问题,也可能解答很多其他人的疑问。实际上,活动结束后看了很多评论,有些人觉得这事很特别,因为他们完全不了解 AI 能实现什么;另一些人觉得我们做得很无聊,认为对普通人来说,72 小时尝试用 AI 编辑工具打开浏览器就能做所有事,根本没必要花 72 小时,一小时甚至几十分钟就够了。但正因为有这种分歧,我觉得这件事本身就有意义。
晚点:你们这次挑战的七个人里,有的参加过很多次黑客马拉松,有像利导这样完全不会编程的,也有不少做开发的人。我看了过程描述,发现实际难度比想象中更大。
孟醒:我们虽然设置了三层挑战 —— 生存、赚钱、自我实现。但其实自我实现反而是相对容易理解和设置的,因为目标可以动态调整,而且我们每天用 AI 主要就是做这件事,反而不是用它来解决生存和赚钱的问题,所以对于 “到底能不能生存下来”,我们自己也没把握。这次活动 5 月份开始,但从 3 月起,我们就花了大量时间从 IT 层面测试可行性。比如在模拟环境里先做简单测试,看能不能完成下单、形成闭环。一开始我们什么都没准备,后来发现连验证码都收不到,这显然不符合当下社会的基本需求。但我们又不想给智能手机,因为智能手机可能会绕开很多挑战,最后妥协的方案是用一部老人机 —— 只能接收验证码,不能做其他事。
解决了验证码问题后,下一个难点是没有支付宝怎么下单。我们自己也测试了一些方法:一种基础方式是,用 AI 工具设计路线,比如自己写一个浏览器,再用类似 Browser use 的工具搭建一个小 Agent,借助 Browser use 点击网站完成下单,当然这过程很复杂;另一种方式是直接打开编程工具,让 AI 打开浏览器,通过半人工方式下单,但前提是得有能下单的平台。我们通过这类方式制定了保底策略,自己验证可行后,才有信心推进活动,规则机制的设置其实花了很长时间。
我们的核心出发点是:如果拿走现在所有别人编好的工具,让你从零开始,仅用 AI 工具自己编写所有东西,看看你能不能活得和使用别人编写的工具时一样好。别人的工具可能是上万人的公司开发的,而你写的工具可能只是一个人在几小时内完成的,这其实正是在回应我们最开始的那个叙事——一个人能否做几百万的公司。
晚点:最开始向五源的创始合伙人刘芹提出这个想法时,他是什么反应?
孟醒:五源其实是一家非常喜欢探索的公司。两年前五源就搞过一次生存挑战活动,不过那时候我还没加入,只看过相关视频。
晚点:那是纯粹的物理生存挑战吧?荒岛求生之类的。
孟醒:对,所以我们有举办这类生存挑战的传统 ,在极限环境中观察大家的创造力和生存能力。但在当下的语境下,AI 成了最大的变量。现在通过 AI 这座桥梁打通虚拟世界与物理世界,探索这种模式下的生存可能性,或许成了更值得解答的问题。我们对这类问题的提问方式其实并不陌生,只是需要在更合适的语境下提出而已。
所以刘芹对此挺兴奋的,给了很多支持和建议——比如如何让活动在现有语境下更有意思,如何开展合作扩大影响,而不是只局限于我们自己自娱自乐,要赋予它更大的社会意义。不过,我们完全没有把重心放在 “通过活动筛选好项目、发现优秀创始人” 上,这一点我们没花任何精力考虑。我觉得这也合乎逻辑,因为我们面向的是更广阔的人群,而不是小众群体。因为我们平常已经花了足够多的时间看项目,所以希望做点儿别人不做的事。
晚点:利导和郅悦可以讲讲,从你们的角度,最开始看到这个活动的时候为什么想参加?孟醒刚才讲的这一整套他们做这件事的起因,你们之前交流过吗?
陈郅悦:没有,孟醒老师刚才说的这些,我之前完全没 get 到。而且 1999 年的生存挑战,我也一点印象都没有,我是 2000 年的,根本不知道有这个活动(笑)。
对于 “迎接新技术、探索技术边界” 这些,我没有太概念性的认知。我不知道大家面对新技术时会有这么多疑问,我可能是自然而然就接受了 AI 时代。当初看到活动规则,加上和工作人员交流了好几轮,其实还是完全没理解到底要干什么。那天到了民宿,我问其中一个选手有没有提前准备,他说在家试了试,我说我连试都没试 —— 因为根本不知道活动的背景是什么,也不知道在家该用什么条件去试。
晚点:那你参加的原因什么?
陈郅悦:我想知道这到底是在干什么,以及其他人会交出什么样的答卷。其实直到今天,我还在理解这个活动的意义,过程中不断有新信息让我加深认知,直到参加活动后的聚会上,听到孟醒老师说这个活动和 1999 年的互联网生存挑战有异曲同工之妙,我才恍然大悟:“噢,原来是这样。”
(聚会)第二天我和利导、还有禹陈一起吃饭的时候,禹陈说他理解这个活动是为了看看 AI 能干什么,这句话也给了我一些提示。后来看了相关文章,直到今天还在慢慢理解这个过程的意义。对我来说,用 AI 是很自然的事 —— 工作中我会很自然地用 AI 处理各种能帮上忙的事,不管是工作、生活,还是写代码、做产品、写论文,所有的事情我都会尝试用。之前也没有疑问过,AI 对不从事 AI 相关工作的人来说,到底该有什么样的影响和改变。
晚点:你用 AI 创造的项目是一个 “AI 给反馈的直播应用”,有点像可以讲自己心事的树洞。最开始有想好要做什么吗?
陈郅悦:最开始只有一个大致的想法。因为这个活动在我看来有点偏向直播性质 —— 虽然不是视频直播,更像图片直播,把人放在一个专属空间里,然后看反馈,这和我想做虚拟直播的想法有一点点契合。
晚点:你是看到这个活动后,才启发了做虚拟直播的想法吗?
陈郅悦:其实之前一直有这个想法,但没付诸行动,既没写代码,也没做细致的产品规划。当时随手把这个想法填在了报名表里,后来工作人员和我聊天时说对这个想法很感兴趣,我才开始认真思考,这个产品到底要做成什么样?形式是什么?以及在活动中我该呈现什么、产品该呈现什么。
晚点:利导也可以讲讲为什么想参加这个活动,因为你完全没有编码和开发基础,会不会觉得很难?
利建磊:我来了之后才知道,原来我是代表 “小白” 的(笑)。
晚点:除了你之外,其他人多少都有一些经验吗?
利建磊:还有十一,她是大厂的互联网产品经理,我们俩是仅有的两个 “小白”。最开始我确实不知道 1999 年这件事,看到 “72 小时 AI 生存挑战” 这个标题时,甚至都没看游戏规则。我当时只想到两点:一是时间限定,二是物理空间限定 —— 因为我们需要在封闭的屋子里待 72 小时。最开始孟醒他们和我聊天、面试时问我 “想来这干嘛”,我的第一反应是 “来休息一下”。
因为平时工作和学习都很忙,我已经很久没有超过 72 小时的独处时间了。最开始的想法是,借这个机会强制给自己按下 “暂停键”,这是从时间层面考虑的。第二点,作为传统电影从业者,我本科毕业后遇上了影视行业寒冬,发展并不顺利。但很意外的是,去年我用 AI 做的作品入围了金鸡奖,相当于被 AI 重新拉回了这个行业。所以当时另一个想法是,我是来 “向 AI 朝圣” 的。因为我不会编程,也没研究过 Cursor 之类的工具,所以他们当时问我怎么点外卖时,我其实没多想,甚至没往这方面考虑。对我来说,抓住的关键词是 “72 小时”“AI”“生存”,没意识到 “挑战” 这件事情。直到活动录制开始前,五源发了告知书,我才发觉要动真格了。那时候才开始琢磨该怎么做,但其实也没想明白,最后就想:“算了,带着未知过来吧。”
包括我之所以想强制按下暂停键,也是因为虽然我已经用 AI 变现 —— 比如接广告单子、做 AI 影像培训时,但从来没想过在封闭环境下该怎么仅靠 AI 生存。一直以来,我都是在已知命题下探索 AI 的用法,而这次挑战对我来说,是在未知条件下的探索。所以他们当时问我要做什么时,我只知道要做一个片子出来,但内容、主题完全没头绪。
晚点:你是在这 72 小时的过程中,才慢慢形成片子要表现什么的想法吗?
利建磊:按照规则设置所有能为我所用的工具都被剥夺了,这其实就像 “带着镣铐跳舞”。但我当时很确定,不要已知,就要未知。所以第一天晚上,大家进房间后前几个小时都在奋力写代码,我却在睡觉。因为不知道要在 11 点前下单,醒来时已经 10 点半了。他们告诉我 11 点前必须下单物资,不然第二天到不了,我心想 “完了,只剩半小时”,看书都来不及。孟醒老师刚才说的那瓶水,我靠它撑了超过 24 小时,后来实在没办法,向组委会求助了。因为录制前给过我一个盲盒,里面有一次向组委会求助技术支持的机会,仅此一次。
其实我试过用 Cursor 点外卖,但卡在了环境变量、安装环境这些步骤上,那些术语根本看不懂。
晚点:24 小时过去之后,聊天板上可以开始相互交流了吗?
利建磊:有个链接一开始打不开,但我通过 Deepseek 跳转了一下,就打开了。
晚点:Deepseek 有帮你生成代码吗?
利建磊:生成了一些代码,但我也看不懂,反正看到链接就随手点进去了。
晚点:你这果然是未知,属于 “AI 漂流” 了(笑)。
利建磊:我真的就是 “AI 鲁滨逊”!
生存
晚点:你们三位都可以说说,72 小时里最有感触的时刻是什么?
利建磊:我印象最深的是吃到第一口食物的时候。因为之前求助了组委会,他们帮忙配置好了环境变量,顺利点到外卖,我甚至在镜头里说,从来没觉得泡面这么好吃。
第二个印象深刻的瞬间,是后来大家在留言板上各种相互帮助,我们甚至想过打破规则,比如把被子或毛巾卷起来传递食物之类的。但通过留言板和对讲机跟组委会沟通后,知道这违反规则,就没这么做。虽然很多讨论没被实现和验证,但那个过程让我感受到爱的流动。我有了第二个创作主题 —— 关于 “爱”,人类的情感在当时显得格外珍贵,即便大家的帮助和留言板上的想法因违规没能实现,但讨论的过程让我心里很暖。
陈郅悦:对我来说,有三个时刻印象深刻。第一个是最开始自己写网页下单次日达的快递的时候——这是当时最短时间内最容易实现的方式。我来之前没做任何准备,完全不知道能做到哪一步,甚至觉得支付环节很难实现。直到最后写到支付模块,发现可以绑定之前账号的银行卡,只需输入手机验证码就能付款时,我真的有点激动。一来是之前完全没想象到能做到这一步,居然真的成了;二来是知道之后的生活有了保障。
第二个是挑战第二天下午,我们终于成功解锁外卖功能。外卖和快递的食物不一样,那天外卖送来时,先有小伙伴点了奶茶,还发了教程,我跟着教程点了热乎的烤肠,给每个人都点了一根。吃到烤肠的那一刻很激动 —— 那一口带着人间温度的食物,让我感觉自己真的 “活在这个世界上”。因为这几天一直封闭独处,没人说话,我其实有点受不了,总在留言板问 “有人在吗?”“聊聊天吧”,特别想和世界交流。后来大家慢慢在留言板上活跃起来,吃到烤肠时,有种 “重获新生” 的感觉。
第三是结束时从房间出来的瞬间。按流程,最后 10 分钟要对着倒计时板录 vlog,记录时间流逝和当下感受,还要赶紧收拾房间。那 10 分钟特别匆忙,我全程举着相机对着自己,却一直傻笑,不知道该做什么。冲下楼看到一楼站了很多人,突然有种 “重返世界” 的感觉,特别想和人交流、融入人群。
晚点:实际上,你们觉得这 72 小时过了多久?体感上是多长时间?
利建磊:在解决饥饿和生存问题之前,时间过得特别慢,简直度秒如年,感觉时间都停滞了,自己仿佛活在另一个次元。
晚点:孟醒在这个过程中特别触动的瞬间是什么?
孟醒:第一个是策划的时候,我们挺担心没人报名的。
晚点:结果有 300 多人报名。
孟醒:对,而且年龄从十几岁到 60 多岁都有。我们后来专门联系了几位 60 多岁的报名者,其中有一位阿姨是一位律师,我问她为什么对这个活动感兴趣,是不是平时有很强的 AI 能力或编程能力,她们说 “其实都不懂,但就是对你们年轻人做的事好奇,甚至做好了饿 72 小时的准备,就想看看你们怎么生活”。我觉得这个特别有意思。
还有参与的两位大一学生陈睿轩和区瀚楠,他们是分别报名的 —— 因为报名的时候没说可以组队,所以他们觉得不能一起报,就各自报了名。后来团队面试时发现他俩背景很像,问是不是认识,他们说是。我们就想干脆让他们组成一组,毕竟他们一起创业,说不定能做出些有趣的事。所以在报名的过程中,有几个点很触动我:一是报名人数比想象中多;二是人群更多元;三是和大家聊天时,每个人都能说出和自己参赛目的相关的、特别有意思的话题和实现方式。
晚点:你刚才讲了第一点,那第二个特别触动的瞬间是什么?
孟醒:因为没有直接参与挑战,我更多是看他们在留言板上的内容。一开始我有两个担心的点:一是怕很多人完不成挑战就退出了;二是怕活动变成过于功利的事 —— 因为活动开始之前和大家聊过目标,担心大家会在有限时间里只顾着冲刺目标,不跟其他人交流,所以也不确定我们设置的留言板会不会真的有人用。其实之所以把大家关在各自房间里不让出去,核心是想让每个人和 AI 建立更紧密的连接。
不过后来我反思了这件事。和大家交流的时候,我问过每个人 “除了工具之外,需要我们额外提供什么?有什么能帮上忙的?”,结果发现大家最常提到的需求就是 “希望有机会和其他参赛者交流沟通”。所以第二个触动我的点是:虽然这本质上是个人对 AI 的挑战,但人与人之间的连接竟然如此重要。
晚点:现在你对最开始的问题有什么想法?——普通人真的能用 AI 做出好东西吗?
孟醒:首先我觉得 AI 发展得很快。从我们开始讨论活动(2 月)、实际举办活动(5 月)到今天,AI 的能力一直在进化。2 月我们讨论时还聚焦于 AI coding;3 月就出现了 Manus,随后又涌现出一批 AI Agent,普通人能接触到的 AI 能力已经不同了;到 5 月,之前设置的很多脚手架限制可能放宽了,AI 的通用能力也在增强。所以这件事本身是动态变化的。
如果仅看我们这次活动的反馈,我觉得还不够。但有一些有意思的发现,比如活动中,大家尝试后发现有些电商网站能用,有些不能。所以要说 “能不能完成生存任务”?可能是可以的,大家也验证了这一点。但问题在于,互联网目前的设计并没有为 “仅靠 AI 生存” 这件事铺路 —— 本质上,大家是靠各种聪明才智,用非正统的方式实现的,而不是通过一个自然面向所有人的入口或接口完成的。
晚点:睿轩和瀚楠提到,现在整个互联网系统对固定终端(手机)的依赖太强了 —— 做什么都需要验证、解码,他们觉得这可能会影响 AI 的普及。我认为,这其实影响的是 AI 作为主体(比如 Agent)在数字世界中畅通运行的程度。
孟醒:其实说到这里,回想一下互联网为手机模式搭建的生态 —— 包括手机支付、手机验证码、手机 App 的连接等,其实也就发展了 12-13 年而已。
晚点:对,我上大学时用淘宝还都是网页版,后来才慢慢转向手机版。
孟醒:所以可以想象,如今的互联网生态依然完全围绕手机、PC 端遗留形态以及手机端主流模式构建,背后最核心的逻辑是 “人是主体”,而不是 Agent 或 AI。
晚点:我觉得这背后还有技术层面的原因,现在很多新的 AI 工具先出现在 Web 端和云端,而不是移动端。因为移动端目前在端侧能承载的模型大小、延迟等方面可能存在限制,所以你们给参赛者的工具多是 Web 端工具,但生存问题又涉及线下服务,而线下服务大多连接在移动端,这中间就存在 gap。
孟醒:所有设计本质上都是为人服务的。我有一个很深的感受(如果涉及投资主题的话):我们对 Agent 的预期很高,认为它能以高并发的方式替代人完成大量工作。但其实它在自己的 “生存世界” 里毫无尊严,Agent 并没有获得和人类同等的空间去完成那些人类能做的事,反而像带着 “脚铐”—— 每次遇到验证码、每次被系统封杀,本质上都是 Agent 需要 “跪倒” 在验证码面前,假装自己是人类才能继续运行。
晚点:这个 “脚铐” 具体指什么?
孟醒:比如说今天 Agent 替代人完成登录(login)、支付等操作,本质上都是违规的。Agent 必须借用人的浏览器和运行空间,通过模拟人类交互的方式(比如 computer use)点击界面、完成登录。但它本质上并不是人,它可能是某种被授权的虚拟人,甚至可能处于半授权或未完成授权的状态。一个 Agent 需要注册很多账户,数量甚至比人拥有的账户还多,还可能需要有自己的钱包…… 这些是新的话题——Agent 或许具备这些能力,但基础设施并未为它做好准备。而作为基建提供方的服务者,其实并不希望出现这种情况,因为他们的基建全是为人设计的,万一出现攻击型 Agent 假冒人类,监管就会变得非常困难。
创造
晚点:刚才讲的是生存部分,解决生存问题后,接下来就是你们和 AI 如何互动,完成想做的作品或产品,也就是自我实现的部分,不妨讲讲这个过程?刚才其实已经提到了一些,比如利导你是在感受环境、体验活动的过程中,产生了做片子的想法。
利建磊:除了刚刚讲到的两个契机,第三个让故事成型的契机是我躺在床上时想到的。我们住的民宿离上海浦东机场很近,经常能听到飞机在头顶呼啸而过,那一刻突然想到十几年前马航 MH370 失联的国际新闻,就想把这个元素加进来。故事框架慢慢在我脑子里形成:这是 “人” 与 AI 相处的日常 ——AI 会觉得,你十几年前关于失联妻子的语音备忘录该删了,飞机坠入大海前两秒的声波也该删了,它认为这些白噪音没有意义。而这正是 AI 无法提取的人类情感,关于失联亲人的那部分情感,大概就有了故事的框架。之后我把这个想法丢给 DeepSeek,让它帮忙完善故事。
晚点:《7.41》代表什么?
利建磊:七点四十一分。故事里男主角的闹钟每天都会在 7:41 准时响起,除了数字背后的含义,AI 设计的很多故事细节也超乎我的想象,比如它提到 “咖啡渍的形状其实是马六甲海峡的轮廓”。文字层面 AI 帮了我很大忙,但当我想把文字转化为视觉画面时,发现 AI 能提供的帮助很有限。比如要把液体形态做成马六甲海峡的形状,其实需要后期 PS、图片编辑或 AE 技术,但这些工具在 “72 小时挑战” 的活动中都被禁用了,所以我觉得导演的权力在很大程度上让渡给了 AI。我来之前想验证导演是否能在 AI 时代成为超级个体,结果发现不行 。脱离互联网支持后,无法完全以超级个体的身份存在,还是需要互联网的加持。
晚点:你觉得现在 AI 语音能达到人类声音的情感或质感要求吗?
利建磊:这次活动中我也用了 AI 配音工具,最开始用文字转语音,发现 AI 对中文的谐音、多音字完全无法理解。而且文字里的逗号、句号、感叹号、问号,它也分不清句子是疑问、肯定还是感叹,情感表达很生硬。最后我改成自己录语音再让 AI “语音转语音”,效果才稍微贴近一些,但情感浓度还是打了折扣。
晚点:你们这次拿到的和影像、视听创作相关的工具是什么?
利建磊:AI 影像工具方面,他们给了即梦、可灵这些 Agent。这次活动里我体验很好的一点是,算法自由带来了创作自由。以前工作中,我们会评估每个镜头该用大师级还是普通模型,因为不同模型耗费的算力和费用不一样 —— 运镜复杂的镜头可能要用贵的,简单的就用消耗小的。比如可灵的大师级模型,5 秒钟就要 10 块钱。但活动里不用考虑费用,能全用大师级,这是算法自由带来的便利。
另一方面我也在验证另一个问题——为什么 AI 在影像创作领域还没普及到更多人?答案是成本太高。对我们传统的影像工作者来说,同样一个单位的镜头,AI 已经能极大程度降低成本了,省去了从特效制作、场景搭建到演员寻找等一系列环节的开销。但对普通人而言,AI 影像创作的耗费还是很大的,而且即便你花 10 块钱生成 5 秒的镜头,它也可能是废片,而普通人很难接受这种由不确定性带来的沉默成本损失。
晚点:影视行业里,会把实拍和 AI 结合起来吗?
利建磊:会,我那部入围金鸡奖的作品,就是先实拍再用 AI 逐帧处理完成的。这样一来,对画面、人物和空间结构的控制能达到高度的一致性。
晚点:我觉得对导演来说,很重要的一点是画面里出现的每个元素都必须经过设计,不能有毫无意义或偶然出现的东西,但现在 AI 生成内容很难做到这一点。
利建磊:现在用 AI 生成内容其实就像 “抽卡”,充满不确定性。我现在会把一些想法直接丢给 AI,让它生成海量图片。之后我会专门花两小时不构思故事,纯粹从画面出发,挑选 AI 生成的好看图片,再通过拼图的方式,看看这些图片能拼凑出什么样的故事。这完全颠覆了我的传统工作流 —— 以前是先有故事再出画面,现在是先让 AI 生成画面,再根据画面构思故事。
晚点:《7.41》短片在活动结束后会继续完善吗?
利建磊:会的,我已经把它扩展成中长篇了,剧本正在磨合,可能今年年底会发布。
晚点:郅悦也可以讲讲你的项目。我看介绍里写你是文科生转码,之前是怎么学习 AI 的?之前的开发经验到什么程度了?这次做项目把之前的想法落地,中间大概是个什么样的过程?
陈郅悦:我实习的第一份工作其实都在做产品经理(包括 AI 产品和传统互联网产品),算是经验比较少的产品经理。而我对接的研发团队,成员大多有 10-15 年工作经验,他们经常在工作中挑战我。我常遇到的质疑是 “你不懂代码就别瞎指挥”“你提的需求实现不了” 之类的。我问为什么实现不了,他们就说 “你别管了,你不懂”。这对我的冲击很大,也影响了工作,但我当时觉得代码这东西没那么难。
晚点:你说当时是哪一年?
陈郅悦:2024 年 6 月份左右。
晚点:就是这一轮 AI 工具已经出来的时候,对吧?
陈郅悦:对。但我刚开始学的时候没用 Cursor,那时候 Cursor 还不好用。最开始是在 YouTube 上看印度程序员老师用印度英语讲写代码,边放视频边跟着学,但学了两天后,觉得这个方法太笨了,靠这个方式这辈子都学不会代码。后来接触到一些 Copilot 的工具,就尝试着用。这其实和孟醒老师刚才说的很像,就是要尝试提问,把自己的目标拆解清楚:到底要做什么?想做到什么程度?其实很多人转码第一件事是做 Todo list、日历或时钟这类产品。
我当时想做一个既容易上手,又能让我了解独立开发全流程的产品 —— 包括 UI、前后端、部署、上线等所有环节都要弄明白。还要考虑这个产品能带给我什么、我希望通过它获得什么。最后,我从下定决心学代码到产品上线大概花了 3 个月时间,做了一个基于 VLM(视觉语言模型)的产品。举几个例子,你在旅途中会看到很多建筑,有些建筑你不知道是什么,或者不了解它的背景故事,这时候就需要在旅途中补充相关信息。这个产品的功能是拍照识别你眼前的事物,然后为你做详细的人文讲解。
晚点:你用的什么模型?
陈郅悦:当时用的是千问的 VLM。
晚点:你的这个产品已经上线了吗?
陈郅悦:对,已经在海外上线了。
晚点:美区 App Store 可以搜到吗?
陈郅悦:海外和国内区都能搜到。它的英文名叫 AdventureSmart,在欧洲卖得还不错。它采用会员制销售,有很多法国和德国的背包客用这个产品做类似的事。大概两个月后,我看到美国上线了一款几乎一样的产品叫 Chance AI,也是关于旅行的 VLM 讲解类产品,但它的范围可能更广,不只是聚焦旅途。
当时我想做的不只是一个写程序、写代码后就能上线的简单产品,而是一个真正的 AI 产品 —— 它要接入 AI 功能、接入 VLM,还要上线到 App Store,整个过程其实挺复杂的,包括过审、做海外运营等等。这个产品算是满足了我对独立开发完整流程的实践需求。
晚点:所以你的学习思路是,用一个具体的项目、一件想做的事,驱动自己把整个流程学一遍?
陈郅悦:对。做之前我觉得这个产品一定有需求,但做完后发现,当时对需求的理解并不清晰。产品后来经过了一段时间的迭代,才慢慢明确用户站在景点面前时真正想要的介绍是什么。最开始我以为,只要告诉用户 “这是什么” 以及简单介绍就够了,但实际并非如此 —— 比如当用户站在巴黎卢浮宫面前时,可能已经知道大概背景,这时候需要更深入的信息才能让他们愿意为产品付费。
大家都知道圣索菲亚大教堂融合了基督教和伊斯兰教的双重背景,但怎么让用户意识到 “这里真的有过基督教存在”?答案是大门上的一个基督教教符。如果能把这个符号和用户的照片对应上,提示它在照片的哪个位置、在用户视线中的哪个部分,以及这个符号的含义,用户才会觉得有价值。这是我们经过二轮迭代后才发现的,要提供更切实、更贴合用户所见的介绍。
晚点:你开发这个产品用的是传统开发方式,还是当时已经用了 AI 编程?
陈郅悦:当然用了 AI 编程。虽然我开发过好几个产品,但脱离 AI coding 的话,我完全完成不了任何计算机课程的作业,我甚至连计算机二级都没通过(笑)。
晚点:这个建筑类 App 在欧洲有付费用户,这类 App 的付费量级大概是多少?
陈郅悦:要看产品做得好不好、运营得好不好。我这个 App 每个月收入在 1000 欧元以上。
晚点:这是你一个人做的吗?
陈郅悦:有 “白嫖” 一些朋友的劳动力(笑)。因为我实在没精力做海外运营,但它有稳定的会员库,苹果会给一些流量、曝光和推流,每月会有新用户进来;另外,之前在 Ready 上发的帖子、社交媒体上的推荐,也会带来新用户。
晚点:既然你已经开发过几个产品,那在这次 72 小时生存挑战中做 AI 虚拟直播时,过程大概是怎样的?中间有没有没预料到的难点?又是怎么解决的?
陈郅悦:最开始面试时,我跟孟醒老师提到这个产品,说已经想好了技术路线,觉得没什么难度 —— 就算做不到零延迟,通过几层转换也能实现,技术路线大概是 ASR 到 LM,很简单。而且直播场景不强调及时性,主播说完话后,评论区隔个两三秒才有内容是正常的,所以当时觉得在节目里至少能做到可用的程度。
晚点:你觉得最后做到了百分之多少?
陈郅悦:30%。实际做的时候,一是没有互联网可用;二是我对音视频传输方案完全不了解,毕竟之前没接触过。而且传输本身就很麻烦,尤其是这个产品的几层传输涉及的文件格式完全不同,云厂商提供的服务包装格式也和我需要的不一致。
晚点:你要用文字版本让大模型给反馈,为什么不用多模态模型?有些模型能接受不同模态输入并返回文字反馈,是效果不好吗?
陈郅悦:一是延迟高,处理复杂信息时模型思考过程太长;二是成本高;三是必要性不大。
晚点:所以你现在做的版本里,AI 给主播的反馈是通过解析主播话语的文字内容生成的?
陈郅悦:对,主要是文字,文字加部分图片。主播的音频处理分好几层:第一层是纯文本信息;第二层要加上文本之外的情感或情绪标签,比如主播是否伤心、有没有停顿或迟疑;最后整合所有标签,通过意图识别判断该生成什么样的回复。
当时想的很好,但实际做的时候却遇到很多问题:除了没互联网、不熟悉音视频传输,还有我的工作习惯也不适应 —— 我不是那种能在封闭环境里连干 72 小时不休息的人。通常写代码遇到问题,我会查开发者文档或去程序员社区提问,但这些在挑战中都做不到。当时音视频传输一直连不上,卡了七八个小时排查 bug。程序员常说 “改不了、抵不完的 bug,睡一觉第二天早上起来就能搞定了”,但 72 小时环境里根本没时间等,工作节奏特别急促、紧张。
最后展示的 Demo 还有局限,因为没有 iPhone 这样的物理设备,电脑只有音频入口,没有摄像头权限(无法获取视频),所以整体是黑屏状态,能听到声音却录不到画面。
晚点:你们的内容里既有模型生成的,也有很多提前选好的,我觉得如果这是个上线产品,理论上其实也应该混合使用,对吧?毕竟从成本等各方面考虑,未必都需要模型实时生成。
陈郅悦:我之前也是这么想的,打算让 AI 生成的评论和 hardcode 评论结合起来用。但这两天把第一版 Demo 基本写完后,发现其实不需要 hardcode 了。一是成本比预想的低很多;二是用户进入直播环境后,这些提前写好的 hardcode 评论反而是噪音 —— 主播需要和评论实时互动,但 hardcode 评论没法互动,它不会根据当下内容给出及时反馈,也就无法支撑下一轮互动。
晚点:你说成本比想象中低很多,比如直播一分钟大概多少钱?
陈郅悦:2 分钱人民币。
陈郅悦:那会弹出多少反馈?
陈郅悦:正常直播间只有 4 条评论框,新评论出现时会把上一条顶上去。但我们这个场景要强调及时反馈,所以把评论区权重提高了,增加到 6 条评论,之后如果用户有需要,可能会加到 7-8 条。另外,我还增加了点赞数和进入直播间人数的展示,这两个部分会影响观众对产品的印象,也是我主要提供的核心功能。这 6 条评论区内容可以完全用 AI 覆盖,会一直不停地弹出,没有迟疑,不需要等待,你直接在滚动的评论里挑想回复的就行。所以整体来看,成本和用户实际体验都比我之前想象的要好。
晚点:我昨天琢磨你的产品时在想,如果是我用的话,可能还会有个需求:希望能调节评论的友好度。比如有时候我想练一下怎么在网上 “怼人”,就需要一个有挑战性的环境(笑)。
陈郅悦:这个功能在后续产品规划里会有,比如 “emo 模式” 和 “非 emo 模式”。如果今天情绪不好,打开 emo 模式,收到的反馈几乎全是正向积极的;如果是正常心情,想更真实地模拟直播间环境,就会收到非积极甚至无厘头的评论。通过不同模式的切换,能让大家更贴近真实的直播间体验。
晚点:你们会什么时候上线?
陈郅悦:我现在打算先在苹果 TestFlight 版本上找用户内测,这两天就会在小红书上招募用户、拉内测群。正式上线要看苹果审核进度,因为审核有难度,还要做算法备案,可能需要 1-2 个月。
晚点:你们第一期办完之后,接下来还会有什么规划?
孟醒:原则上我不希望做重复的事,想做些不一样的。如果继续往下做,可能不一定再是 “挑战” 这种形式,但肯定会顺应时代趋势。今年可能没时间再做这么大规模的活动了,但下次再做的话,一定会结合当时的时代挑战带来的新启发来推进。
晚点:你觉得明年的挑战可能会是什么?到明年这个时候,你们可能会对什么事情有疑问,想去验证?
孟醒:很难说。今年的挑战是我 2 月份构思、2 月份确定的。但要是往前再推 6 个月,我们可能根本不会想到做这样的挑战。