邮箱 :news@@cgcvc.com

不给呼兰“留活路”的DeepSeek,如何重塑技术信仰?|牛白丁

文章来源:   发布日期:2025-02-21

不久前,火星电波创始人、CEO橘子用 DeepSeek写了一段模仿呼兰风格的脱口秀,呼兰本人看过后直呼:“哎呀,不给我们人类留活路啊!”这次 DeepSeek带来的惊喜创作体验,让橘子意识到未来的内容可能不再由创作者来决定形式,而是由消费者来决定。
除了能写段子外,DeepSeek在文学创作、吵架骂人,甚至算命等方面展现出的能力,使其口碑在普通用户之间持续发酵,成为春节期间最为“破圈”的事件。
而在此期间,华创派企业硅基流动也承接住了DeepSeek的第一波流量。近期,硅基流动的大模型云服务平台 SiliconCloud首发上线基于华为云昇腾云的满血版 DeepSeek-R1 & V3,率先走通在国产芯片部署 DeepSeek 模型的路径,大幅提升了基于国产芯片的大模型推理速度及实际算力利用率,显著降低模型推理时间与成本,获得持平全球高端 GPU 部署模型的效果。
DeepSeek引发的这一系列连锁反应,让不少AI从业者相信2025年将会是“AGI(通用人工智能)元年”。自称“降临派”的橘子,在公众号连续发布了多篇对于DeepSeek的观察分析,近日他做客「牛白丁」,和华创资本投资人候晓雯一起探讨了DeepSeek在创投圈、用户中,甚至是海外的火爆现象和原因。在“技术依然是最大变量”的时代,身处其中的创业者要如何应对?又能抓住哪些机遇?
DeepSeek开年的这一“国运级”事件,让我们更加相信,开源推理模型的活跃,未来势必会推动 AI Agent 的落地,并催生更多 AI-Native 应用诞生的机会,也欢迎持续关注「牛白丁」AGI系列节目。      
您将在本期节目听到以下内容:

  • 01:20   AI从业者对于 DeepSeek 的使用体验


  • 05:54  DeepSeek 五点就下班,薪资高到字节都挖不到人


  • 13:49  DeepSeek破圈:本质还是技术解锁了更多场景


  • 23:10  呼兰看到DeepSeek写的段子:不给人类留活路了!


  • 28:12  AI带来的改变:内容不再由创作者来决定形式,而是由消费者来决定


  • 34:10  不少AI圈的人信心满满:2025年就是“AGI元年”


  • 40:58  硅基流动第一波承接住了DeepSeek的流量


   嘉宾介绍:
橘子,火星电波创始人、CEO,「橘子汽水铺」主理人
本期主播:

候晓雯,华创资本投资人


候晓雯:大家好,这里是华创资本的播客节目「牛白丁」,我是 Vivienne 晓雯。好久不见的 AGI 系列来填坑了,这一期我们请到了好朋友橘子,聊聊最近爆火的被称之为“东方神秘力量”的DeepSeek。


橘子:大家好,我是橘子,火星电波的创始人、CEO,我们公司主要做 AI 应用的消费和创作辅助。我自己有一个自媒体叫「橘子汽水铺」,我也是主理人。我从2022年开始就做 AI 的产品经理,对AI行业比较熟悉。
候晓雯:橘子春节完全没有休息,公众号几乎是日更的频率,社群也非常活跃。很多 AI 从业者也几乎都没有放假,沉浸在DeepSeek 引起的狂欢之中。你当时使用 DeepSeek 的使用体验怎么样呢?
橘子:我在春节前就开始用了,当时完全不卡。它是第一个做了思维链加搜索的功能,特别好用,我在自媒体上疯狂安利大家使用。最早是看到和菜头写了七天的DeepSeek,大家开始关注它的写作,发现DeepSeek不仅能吵架还能写诗。
候晓雯:确实 DeepSeek 在中文写作能力方面非常出众,我在小红书看到大家也夸这一点。
橘子:因为它的模型之前是o1,写作能力并没有那么好,但逻辑能力很强,写严肃文章的时候效果不错,而且它价格很贵,所以大部分人还没有感受到,也不会去尝试。而DeepSeek 让所有人第一次看到写东西可以这么好。
候晓雯:相信这也是DeepSeek春节期间破圈的一个原因。过去两年,我们在使用 ChatGPT 时,需要特别注意如何prompt,比如你要去声明你的身份、目的,需要把过程明确出来,比如你希望 AI 帮你做什么、怎么做。但是在DeepSeek 使用过程中,prompt 可以很简单,这是让我非常惊喜的一个使用体验。
橘子:以前我们要构建一个场景,让 AI 进入,然后它去思考才能输出高质量内容。但现在DeepSeek是自己打开了一个世界,它开始要照顾用户的情绪,要理解是什么意思,理解用户说的朋友是不是指他自己。
候晓雯:把思维链的过程呈现出来,太自然了,自然到我以为本身一个产品就是这样子的,直到最近跟朋友讨论,才知道说 ChatGPT 之前不是这样的。我觉得这是一个非常好的产品设计。这对你在思考AI 产品设计上面有什么启发吗?
子:最大的启发就是DeepSeek的思考过程和写出来的内容都太优美了,年前我就发了一条内容,说 AI 写作已经超过我了。虽然我当时是基于 Google 的 Gemini 2.0 Flash Thinking ,它的思考能力、写作能力已经很强很强,但DeepSeek的中文能力更强,很可怕。
候晓雯:我看了一下你的公众号,一月二十四号发的第一篇关于DeepSeek R1 的文章《自学成才之路,DeepSeek R1 论文解读》其实是用Gemini写的。因为我是文科生,所以我看非 DeepSeek 的 AI 写出来的文章老觉得非常像理工科的论文。但 DeepSeek就像文科生一样,写出来的内容字字都非常讲究,所以这也是让大家印象最深刻的。你是什么时候开始关注 DeepSeek 呢?
橘子:最早关注它是2024年1月。后来 DeepSeek那篇论文《 DeepSeek-Coder-V2:Breaking the Barrier of Closed-Source Models in Code Intelligence》发了,大家看到DeepSeek开源,效果还更好,都惊呆了,说怎么可以这么厉害?好像那时候正好是李厂长(百度CEO李彦宏)在说闭源会超过开源。
那时候我就发现 DeepSeek很不一样。去年四月我从 MiniMax 离开后,五六月去了一趟DeepSeek,和他们的人聊了一下战略,他们坚定做数学和逻辑,目标就是AGI,也不怎么做产品,就专心把模型训好,我就觉得这个团队好纯粹。而且他们还不加班,5 点就下班了,公司当时只有 50 多个人。
候晓雯:这还挺神奇的,怎么做到的?是因为他们战略很清楚?知道自己该做什么、不做什么,使得资源非常集中,以及没有内卷,也没有无效的投入?
橘子:他们战略很清楚,而且招人时都是找那种发过paper的,比如一作是谁,二作是谁,他们挨个找。招年轻的、做过研究且有成果的。
候晓雯:我看他们招人的标准是应届生或者是毕业1 ~ 2 年、基础好、有潜力,但不需要证明你成功过。
子:我就好奇他们为什么 MoE 能做得好?他说 MoE 那篇论文的三个作者,一个在DeepSeek、一个在阶跃星辰、一个好像在美国,他们真的能把人招过来。而且去年上半年听说字节想去抢 DeepSeek 的人,但抢不到,因为大家都觉得 DeepSeek 给的钱很多,比字节还多,DeepSeek还更理想主义一些。不像字节,就是赛马。
候晓雯:你能明显感受到DeepSeek 人的精神面貌会更纯粹一些吗?
橘子:我没有跟研究员聊,但公司整个交流下来是这样的感受。我说你们现在完全没有用户,就没有数据飞轮,不担心吗?他们说不担心,也不是不做产品,是等 ready 或者看到有机会的时候再做。不会为了竞争,靠投放去获取百万用户。
候晓雯:那你怎么看待 DeepSeek 在春节带来的认知变化呢?开源、闭源肯定是一个巨大的认知变化。大家不再去讨论或者不再需要去证明开源模型是否具有能力的短板,或者比闭源模型更弱,反而看到了生态的价值和流量。
橘子:最重要的一个认知就是技术仍然是一个最大的变量。ChatGPT 已经领跑两年,现在5000 万日活很高了,但 DeepSeek 用了不到一个月就 4000 多万日活了,很快就可以超过 ChatGPT。这个世界就是这样,技术好还是最关键的。
另外就是R1和R1-Zero这个范式我觉得非常重要,R1-Zero相当于大模型的 AlphaGo时刻,它是一个纯的没有做 SFT 的强化学习模型,如果它本身的能力就可以很强,那未来给我们带来的想象空间会非常大。第一次让我们觉得大模型从人类教它变成了它可以超过我们,通过自己的思考来超越我们人类,这个意义非常大。
候晓雯:ChatGPT 出来两年了,在这两年过程中,大家在想象 AI-Native 产品应该长什么样子,发现其实对话这种方式还是一个核心的产品形态。这种产品形态是不是需要更新,需要迭代?比如做硬件的尝试,或者做多模态语音输入的尝试。
我发现,DeepSeek 出来之后,对 prompt 的改变非常大。比如在 AI 来之前,我们使用高级数据库的方式是通过提问,比如谷歌、百度;而在过去两年,prompt 可能从一句话变成了一段话,从一段话甚至变成了一篇文章的长度。
但是在 DeepSeek 之后,这种 AI 的交互又能变成一句话、一段话,当然原因可能是因为DeepSeek 只是一个语言模型,它还没有做更多模态的,比如没有图片、没有音频。但“六小虎”(AI六小虎通常指智谱、阶跃星辰、MiniMax、Kimi、零一万物和百川智能)已经在做多模态模型的探索,这是我的一个想法。
你的文章发出来之后,包括你在各个平台冲浪,有看到一些什么有趣的讨论或者观点吗?
橘子:讨论非常深入,非常多面。刚刚你说 prompt 一开始变得越来越长, DeepSeek之后好像也不用那么长,简单一点就可以。从原理上来说,你给它更多的上下文和思考时间,它就会提高能力。之前,通过我们写 prompt ,给它写很多上下文,它思考的过程本质上就会成为它的上下文,所以就提升了能力,这也是原来范式的一种延伸。说到大家的讨论,有一个争议点,就是R1 到底是复现了一个OpenAI o1,还是一个全新的模型?
我觉得没有定论,我个人相信R1-Zero其实是一个范式改变,因为大家用 R1的时候也能感受到明显是没有做很多安全对齐的,它会很奔放,能说出一些超出普通模型安全边界的话,对于 OpenAI 来说是不可能接受这种情况的。
候晓雯:是否是因为商业模型?因为开源和闭源相比,本身对于模型安全要求不同,他们在这方面工作做得不同。我记得之前和创业者交流,有创业者是从闭源模型切到开源模型,他们提到了很大的一个顾虑,就是希望有更多模型安全公司出来,因为发现开源模型确实是更不受约束的。
橘子:是这样的,只要提供商业服务,就要加一层安全过滤。
候晓雯:所以对齐的工作是不是做得不一样?
橘子:模型层面,比如 OpenAI 、Claude 和国内的模型相比,安全程度可能确实是不一样的,好像 Claude 是最严格的。DeepSeek 这块放得最松,这和开源、闭源倒是没有那么大关系。
候晓雯:我印象特别深刻,在 2022 年 11 月底出来 ChatGPT 的时候,大家就讨论过,ChatGPT 是否是一个范式?那时候一部分人会说它不过就是个对话框,另一部分人说它在使用方面是一个范式的变化,它使得普通人可以通过 prompt 这种方式接触到智能。在技术层面,GPT 3.5 的分支做了一些工程优化,所以认为是一种技术范式。
DeepSeek 现在也有这样的讨论,它在技术层面,比如架构还是 Transformer 的延续;工程上,比如 RL 可能引起了大多数人的重视,发现真的有用,还有蒸馏等偏技术方面的讨论。
其实我更关心的,还是 DeepSeek 现象级破圈这个事,因为它使得 AI 进一步走进了大众。虽然之前豆包用流量和硬件推得很厉害,但还是没有出圈,而现在甚至老家的亲戚春节时也在讨论DeepSeek,你怎么看呢?
橘子:本质上就是因为技术更厉害了,解锁了更多的场景,或者让更多的场景从六十分提升到了八九十分,甚至是满分,这样自然就会扩大到更多人群而且口口相传一直很有效,因为用钱买口碑很难,买的只是一个曝光而已。
候晓雯:豆包、Kimi 一系列的 AI 产品,是从零构建出来的,理论上应该给大家的惊喜程度不小。但 DeepSeek 在春节呈现出来的破圈效益显著高了很多个量级。
橘子:我们之前做海螺AI,观察到一个现象:大部分人对于AI第一个提问的回答非常care,如果你第一个问题回答得很好,他会觉得这是一个智能。而DeepSeek可能每一个问题都能回答得很好,它的思考很惊艳,就让人觉得智商超过了我们。
候晓雯:首先它非常真实,它的思考过程就像另一个人脑子里的东西被你读出来一样。其次非常聪明。你怎么看待它在海外引起的破圈,甚至是恐慌?
橘子:一开始DeepSeek还没有那么夸张,在排行榜是二十多名。当时海外的好多KOL用了之后说这个模型很不一样,包括Midjourney 的 CEO David Holz,他跟DeepSeek聊的是中国古代的哲学和文化,他说它这方面特别强,而且他们用英文聊的,说明这个模型很厉害。那时候大家还没有太关注成本,只是觉得效果好。V3 其实一个月前就发了,当时那个论文没有人讨论,后来发现 R1 是基于 DeepSeek-V3-Base 训练的,一对比发现可能跟美国的成本差了有两个数量级,然后逐渐发酵,英伟达还因为这个事情股价跌了。
候晓雯:如果我们称之为一次事件,英伟达股价下跌是这个事件的巅峰,可能会引发对英伟达估值叙事逻辑进行重新审视。
橘子:我觉得没有改变,但是影响了至少可能 5%~10% 的认知信仰。
候晓雯:最近我在跟一些中美的同行交流,他们也提到一个可能令人担忧的点,就是在DeepSeek之前,美国对中国 AI 的重视程度是不够的。但是现在被DeepSeek 震撼到了,他们非常担心中国弯道超车。
橘子:因为股价其实是一个放大器,把DeepSeek从技术圈直接放到了金融圈,甚至政界。
候晓雯:这可能会影响到中国的创业者在海外做市场探索,只是现在还没有明确的事件。
分享到: