00:00 / 04:27
连播
清屏
智能
倍速
点赞153
00:00 / 00:58
连播
清屏
智能
倍速
点赞92
00:00 / 03:09
连播
清屏
智能
倍速
点赞169
00:00 / 02:41
连播
清屏
智能
倍速
点赞3
00:00 / 07:41
连播
清屏
智能
倍速
点赞13
00:00 / 00:43
连播
清屏
智能
倍速
点赞31
00:00 / 01:53
连播
清屏
智能
倍速
点赞246
00:00 / 11:10
连播
清屏
智能
倍速
点赞1
00:00 / 01:44
连播
清屏
智能
倍速
点赞9
00:00 / 02:01
连播
清屏
智能
倍速
点赞18
00:00 / 01:28
连播
清屏
智能
倍速
点赞2
00:00 / 01:34
连播
清屏
智能
倍速
点赞14
00:00 / 02:27
连播
清屏
智能
倍速
点赞4
00:00 / 01:56
连播
清屏
智能
倍速
点赞0
00:00 / 00:15
连播
清屏
智能
倍速
点赞4
阶跃星辰Step2实测直接翻车。。。 早上看到阶跃星辰的Step-2 MoE大模型登榜LiveBench榜单第五位,上到Reddit去大家对他的评价,听到的都是对中国追赶速度的点赞,以及对距离的客观评论。我很开心,即使中间看到一句“这不是很像上一年的chatgpt3.5”这种稍微王之蔑视的评论,也会觉得,没关系,中肯的评价,他们还没真正好好用起来吧?于是我开始测试它。但一测试我就发现有点不对劲了。首先是中文能力测试,让它作诗的时候,诗歌的格局与要求的便不一致,而诗词里面还出现了大面积的搬运。感觉万亿参数不是好事反倒是给他当了绊子。其次是推理能力测试。有种让我觉得理所当然,但完全没有考虑实际情况和细节的“机械感”。说实话我觉得这是其他常用的大模型不会出现的问题。然后是总结能力,我让他将“薛定谔的猫理论”改为幼童能懂的故事,冗长复杂的逻辑,始终缺乏了真正的总结和梳理感觉。最后是王炸,数学能力。今天有一个特别的测试出炉,如何用8个8运算出1000。其实这个测试难倒了很多大模型,但是离谱的是,在他算到最后一步,拆解出6408+8这一步的时候,他竟能够睁眼说瞎话说6408+8=1000,硬要要结果上靠??我只能推测,它的IF指数真的太高分了,以至于指令要怎么样,它可能生搬硬造都要往上贴。这真的是我们想要的大模型吗?阶跃星辰,我很失望#人工智能 #aigc #阶跃星辰 #step2
00:00 / 07:03
连播
清屏
智能
倍速
点赞11
00:00 / 01:32
连播
清屏
智能
倍速
点赞114