粉丝3.4万获赞47.0万

deepsea 王者归来,依旧炸裂,依旧顶流,这下压力来到华为了,在练习时长一年半后, deepsea 直接端上了新模型,在性能上基本上是开源领先,能和顶尖闭源模型一战的地位了。而且如果你想氪金,不管是便宜量大 deepsea v 四 flash 还是价格直接涨了八倍的 v 四 pro, 开发者用的 a p i 也是直接都准备好了。不过即便是涨价了,它炸了我都夸它响,因为和同等性能的友商相比,这价格依旧是太香了。当然, deepsea 还给大家画了个饼,说这次模型的涨价只是暂时的,等过段时间华为的卡到货了,模型的价格还会给大家直接打下来。 总的来说,这两个模型基本上把 deepsea 过去一年多里攒了几个大招,一口气全都给端了出来。性能上就不说了, v 四 pro 能和 cloud、 oppo 四点六、 gbt 五点四、 jimmy 三点一 pro 这些闭元顶尖模型打个五五开。 在写代码的生产力测试的环境中, v 四 pro 能力也处于大于 sonya 四点五,但小于 oppo 四点六的阶段。同时更重要的是,这次 deepsea 发出来两个模型都能支持一百万 toky 的 上下文长度, 这也就意味着他们干活的能力都很强。我们也和差评君一起简单试了一下,给红楼梦里随便贴了一段三体的科幻小说内容,然后丢给 deepsea v 四让他找。结果用不着几秒, deepsea 就 找到了异常。 同时和其他模型不太一样的是, deepsea 的 百万超强文还非常省钱,我真的哭死。 deepsea 依旧还是那个 ai 圈的价格屠夫,击中了大家 ai 刚需的痛点。 大家都知道,现在大模型用的都是 transformer 架构,对话越长, k v cash 就 越大,亏利成本也越高,模型也就越花钱。但这次 deepsea v 四直接变成了超级省钱冠军,也就是说,同样带着一百万 token 上下文干活, v 四 pro 每生成一个 token, 背后的计算量差不多只要原来的四分之一, 模型用来记住前文的 k v cash 也只剩原来的十分之一。而这次 deepsea 之所以能把成本给打下来,靠的是一套全新的注意力机制 hybrid attention, 它把过去的 c s a 和 h c a 的 两种技术结合了起来,前者相当于给一本书写目录,后者相当于给这个目录的章节写摘要。 有了目录和摘要的辅助记忆之后,模型在干活的时候真正需要计算的压力就降了不少。同时它们还用上了去年搓出来的 m h c 来保证长文本的稳定性, 添上了 u 优化器,让模型的参数更加稳定。还在底层的显卡和适配优化上也下了一堆功夫。在英伟达和华为的卡上都测试了自己做的 five gram e p, 能让模型的推理速度提升一点五倍到一点七三倍, 而且还用上了之前北大开元的 thai language, 给模型节省了极大的算力开销。不过可惜的是,目前 deepsea 虽然很强很便宜,但这次的 v 四还是不支持多模态,也就是还不能看懂图片。这块很可能是他们下一代的目标 外,除了在小智催华为的卡之外,咱们还发现了 deepsea v 四的其他一些小彩蛋,比如在提到 agent 能力的时候,除了给 cloud code、 openclaw 这些名声在外的产品做了优化,还提到了腾讯的 code body 这个兔的小资历,这或许和前段时间腾讯阿里正在洽谈投资 deepsea 的 消息有一定关联。 还有在测试对比友商的时候, timi k 二点六和智普的 g m 五点一的一些能力, deepsea 的 人没测上,因为友商的 a p i 繁忙了, 为了 deepsea 还给造卡的硬件厂商们提了个建议,那就是别下堆贷款,要算好算力与通信的比例,这样才更省电省钱。并且 deepsea 官方也很坦诚,直言目前和世界最先进的闭源旗舰模型能力上还有三到六个月的差距。 最后,可以说 deepsea 的 这些日子是受了不少的讨论和非议的。人才流失,国产芯片适配失败,各种传言,真看的让人挺揪心的, 有人说他们是江郎才尽,昙花一现。而 deepsea 新版本下周更新的消息也快和假会计下周回国一样,成了科技圈的笑话了。 甚至还有网友做了 ai 梗图,说梁文峰是因为要玩元神才耽误了 deepsea 微四。但玩归玩,笑归笑,别拿你的老师开玩笑, deepsea 用实力证明他 依旧是那个开源的元神。和华为等国产芯片厂商的合作,也让人看到了咱们 ai 领域打破垄断决心和实力。不忧于欲,不恐于匪,率道而行,端然正己。这是 d p c。 官方今天提到十六字真言,而他们也确实做到了。