如果你正在根据跑分结果选 ai 模型,你可能选错了赛道。 jammer 刚拿下 a r c a g i。 二的百分之八十四点六,碾压所有对手,但六百多条工程师评论告诉我们一个完全不同的故事。 大家好,这里是 l l m x factors, 一个专注于拆解大语言模型时代底层逻辑的频道。 先看数字 gemini, samsung 在 a r c a g i。 二上拿了百分之八十四点六, 而 opus 四点六是百分之六十八点八,人类平均只有百分之六十。百分之八十五就算已解决,但代价是每道题十三点六二美元,是 opus 的 近四倍。我们先来看看这份成绩单到底有多强。 arc a g i 二是目前公认最难的 ai 推理基础之一,专门测试模型面对全新问题的适应能力。从这张图可以看到, gemini 遥遥领先, opus 和 gpt 差了将近十六到二十个百分点,甚至远超人类平均水平,领先优势非常明显。 不只是跑分,他画的 svg 史量图被评为 ai 史上最好的一张,他甚至能靠纯文字描述打通巴拉卓这个卡牌游戏的第八关。百分之六十的胜率,大部分人类玩家第一次都做不到,这是真的强。但是故事到这里才开始革裂, 六百四十二条评论里,真实用户的吐槽铺天盖地。对话到一半,突然忘记上下文英文,聊着聊着突然蹦出中文,上传个文件动不动就失败,开几个标签页,内存直接吃掉八个 g。 一 位开发者说,跑分结果一定是造假的,因为完全不符合我的真实体验, 所以你会看到一个非常有意思的对比,跑分世界里, gemini 碾压一切,但到了真实工程场景,工具调用、指令遵循代码深沉、 agent 的 工作流,用户几乎一边倒地选择 cloud 和 gpt。 这不是小差距,这是两个世界。 这说明了什么?我的判断是, ai 竞赛已经分裂成两条赛道,一条赛道叫实验室智能追求推理深度数学证明精准得分, google 在 这条路上遥遥领先。 另一条赛道叫工程可用性追求、工具调用、指令遵循 agent 稳定, antropic 和 open ai 在 这条路上更强。 对决策者来说,这意味着什么?不要看谁跑分高就选谁。如果你的场景是研究分析数学推理, gemini 可能是更好的选择。如果你要做编码 a 阵的工作流自动化, cloud 和 gpt 目前更可靠。最聪明的做法是两条赛道都布局,而不是赌一家通吃。 总结一下, gemini sandipink 拿了实验室最高分,这是事实,但工程师们用脚投票选了别家,这也是事实。 跑分之王和可用之王正在分道扬镳。对决策者来说,选模型之前,先想清楚你在哪条赛道上。这里是 l l m x factor, 我 们下期见。
粉丝1.4万获赞3.4万

最近 jimmy 奶呢发布了超级多 ai 的 更新,以至于我这段时间好像都有点用。不过呢,我真的很想跟你分享一下,就它这次更新之后啊,它到底能够为我们做些什么,以及我日常到底是怎么用它的? let's go! 首先第一个呢,就是他这次多模态的能力啊,有一个非常明显的变化。比如前段时间呢,我发给他一个打 b 球的视频,我很喜欢看,然后呢,我就问 ai 他 们的球打得好不好,挥拍怎么样? 然后他就能够从这个视频当中去判断哪一球听起来比较沉闷,哪一球听起来比较清脆,是扑的声音,还是说是金属的嘣炸裂的声音。然后呢,这些特征在结合挥拍的轨迹啊,他就能够判断他这个球打的怎么样,能量怎么样了。 但这么讲好像有点难理解啊,不过过尔的 ai 它是这样的,一般都是先转成文字再去理解嘛。而现在的绝美南山呢,它是直接看像素听声波,就像我们看视频一样,它就更能够捕捉画面当中的这些细节,所以我觉得这就真的很酷。哎,那如果是这样的话呢, 假设我把我自己的视频发给他,然后这一段 prom 呢,是我真的调了很多次之后,觉得最适合拿来分析自媒体视频和发挥他多模态能力的一段 prom。 然后 稍等一会啊,你看他就说了,大概意思呢,就是每一句话的结尾有点仓促,让人感觉像是在感性度的样子,有种紧迫感。 然后视频里面的有一些小动作,看起来好像比较生硬,不够自然,以及在生化同步上,视觉总是慢于听觉,让人感觉到好像有点滞后的样子。最后呢,他也给出了一些改进的建议。 第二呢,是 jimmy 和 nobel lm 的 结合,这应该是这几天 jimmy 最大的更新之一了吧,我很喜欢这个公单,因为过往的 nobel lm 呢,它就是一个网盘一样,里面存了很多大大小小的数据和文件,你可以在这个位置生成摘药啊,拨克或者其他的形式,都可以跟 jimmy 是 两个完全独立的路径来的。 但这一次 jimmy 在 这个位置集成了 nobel lm 之后呢,你实际上是把整个知识库就交给他了, 所以我就是这么用的,我就要求他根据这个知识库里面的内容去做的。为设置深度研究 过程中呢,除了对我现有的一些资料啊,比如说市场调研呢,客户数据,各种的报告视频做一个初步的梳理之外呢,再加上深度研究,他本身就会对外扩展嘛,所以他最终的这篇报告呢,就是直接想让你资料里面的那些结论的,而且要更加的详细。而在这之前呢,这些过程都是要一个一个上传到 gmail 里面的。 不过还有一个我觉得非常实用的方法,就是同样的也是添加它 notebook lm 的 知识库啊,我们可以用 jimmy 奶的这个 canvas 功能去做一个网站或者是 app, ok, 你 看啊,这是一个基于你过往的调研才做出来的一个 app, 你 可以想象,假设你的调研里面包含了大量的用户调研啦,市场的分析等等的话,那根据这个结果做出来的 app 是 不是就更加的有依据,靠谱的多呢? 所以从原本的知识管理到现在最终的产出,就是我觉得这次 gemma 更新最惊喜的一个部分了。第三呢,是这一次 gemma 在 编程和 ui 上有一个非常大的提升,真的很大。 如果你看过市面上很多的测评呢,就会发现只是一个简单的 prom, 它就能够把这个功能实现出来,而且 ui 的 质量呢,也很高,而这些都一托于这个指标 webinar, 这个指标越高呢,就越能证明它不仅能够写出逻辑正确的代码,还更能够理解我们的审美。 比如简单的让他开发一个网站,参考特斯拉的风格,选择 canvas, 跪回之后呢,你看这是他给到的一个网站,怎么讲呢,我觉得 u i 上还是可以的,然后大图嘛,给人造成的视觉冲击感还是很足的。 但如果你看过我之前分享的一期 hiphop 的 视频的话,你就会发现,其实如果你有任何 idea 的 话,不妨可以先到 hiphop 上面去搜索看看,看他们的评分,然后借助 hiphop 上面他们的代码来帮你制作一个工具出来。而刚好现在君美莱莎呢,是支持在这个位置上传你的 hiphop 文档的, 比如我想上传这个 pdf 翻译工具的代码,因为评价很高嘛。那复制它的链接之后呢,粘贴过来确认,等它加载之后啊,再输入类似这么一段提示,这里我一般都会让它去参考某个网站的一个风格,所以如果你们看到一些不错的 u i 的 话呢,也一定要记得收藏下来才可以。 然后呢,选择 canvas, 稍等一会之后啊, ok, 你 看到啊,我个人感觉到它这个呈现的效果好像还挺好的,然后假设我上传一个文件 ok, 它也能够读取,然后下载以及浏览,不过还是有些小瑕疵的,比如说这里啊,阅览时的这个数据好像不够完整,也没有全部翻译出来,好像也不能够翻页,所以你还得不停的在跟他去沟通一下。 所以如果你想要一个逻辑更严密的,或者是可以反复调试它功能的一个地方的话,那我就比较推荐它谷歌的 as 丢丢了, 比如同样的一个 bug 项目呢,复制给到它,包括提示语啊,然后在模式的这个位置呢,进去之后有一个 system instruction, 你 可以在这里设置你的系统提示语,我已经设置好了,其他就可以不用管了。然后稍等一会, 那你能够看到,虽然在 ui 上呢,两个平台都是差不多的,但在 as studio 里面呢,假设现在我上传一个 pdf, 它就更能够把这个功能实现出来,而且呢,在这个位置你还可以把代码下载下来,或者保存到 github, 甚至部署上线都可以。 虽然谷歌这一次呢,也做了一个叫做 antipoverty 的 一个编程的一个工具,但是讲起来真的是要 all day 了,要花一天的时间来讲,所以呢,有机会我给大家做一期视频,来给大家分享一下 下一个 google search, google 在 最近的一次更新当中呢,其实它 google search 的 ai model 当中啊,也支持了 jimmy 三的模型,我先给你解释一下这两者的区别在哪里, 就 jimmy 的 官网呢,更多是一个生产创造的作用,如果你只是为了简单的搜索的话,你就会发现 jimmy 其实会给你生成很多不必要的话语或者是数据来的。但如果只是寻找答案,找新闻的话,那你其实就直接 google 搜索就可以了。 不过有趣的是啊, google 社区也支持多模块,比如我想让它创建一个关于英伟达想要实现掌控整个基数站的这么一张愿景图给到我,那它确实也能够生成一个能够操作的像这样一个小功能,方便我去理解,或者是让它生成一张图片,它也能够清晰的去创建出来。 最后一个呢,是 gemini 的 deep scene 模式,我觉得这应该是这次版本更新的幕后工程了吧。虽然我不是特别相信这些 benchmark 各家的对比指标啊,但在我分析了它这份 ai 精准的测试之后呢, 我发现这份报告在行业内的认可度还是比较高的,即便是存在,你看分歧啊,但这个分歧更多是大众用户与开发者之间的这些差异啦。所以为了测试它们的效果啊,我就特意对比了 openai 还有 gemini 它们的一个深度搜索的功能。 最后发现呢,按照这段 prom 输出的结果,确实 german 它在深度思考后给出的这个结果好像更全面和详细一些。 ok, 以上这几个功能呢,都是我日常使用到的,希望能够帮到你,虽然它还有很多炸裂了颠覆了的一些用法,比如说 dynamic view 啊,还有一个 german 在 浏览器上的一些功能,等它完全开放之后呢,我再给大家做一个测评。 ok, 那 么今天的视频到这里, respect, 拜拜!

hello, 大家好呀,超级简单的 gemini 使用教程来啦,前几天呢发的那个视频,首先没有想到有那么多人看,很感谢大家的支持,而且有很多宝子问我说 就是具体的 gemini 的 使用方法是什么样的呢?因此呢,今天就想给大家分享一些我觉得很好用,就是我用过并且亲测有效的一些路径,希望能对大家有所帮助吧。 首先呢是一个浏览器的插件,我们点开浏览器,打开它的侧边栏,找到扩展,点击获取扩展,然后搜索 desider, 我 们就可以打开这个插件,然后从这个插件点击获取,然后将它添加到扩展。 最后呢等它打开之后,然后查看,然后我们发现可以把它固定到工具栏里,这样我们就可以在这个收藏的小标旁边找到这个蓝色图标,点开 就是我们需要的这个 gemini 的 使用的一个路径啦,然后我们可以在这底下选择切换模型,然后也可以通过创建账户,这个时候使用自己的电子邮箱就可以啦,这样就可以直接使用啦。 第二个呢,就是一个 gemini 的 国内的镜像站,我们可以直接搜索这个网址,然后将它打开, 我们就可以看到这里,就可以选择 gemini 三点一 pro 专区,然后任意选择一个通道,点击进去,这个就是我们可以直接使用的界面啦。以上的分享就到这里啦,希望可以对大家有所帮助,拜拜。

我的 gmail 会自动续费了,每个月十九块九毛九,但是有点贵哦。十九块九毛九,但是要收走二十一点三一, 这是在给苹果交税吗? tax, 一 点三二, 一点三二的税费是交给谁啊?不会是交给苹果的吧?然后他这个续费很简单呢,就是我让我的美趣的 apple id 里面只要保持有钱就好了。你看我现在 credit 我 的余额有十三块,这个余额怎么来呢? 就是我没有美国的信用卡,因为中国的信用卡不能用嘛,我这个美区账号的余额是从这个礼品卡来的。 那礼品卡哪里来呢?礼品卡就是我用中国的 apple id, 中国 apple id 可以 用银联或者中国的信用卡或者支付宝去支付的嘛。就是用我中国区的 apple id 给我美区的 apple id 赠送礼品卡, 然后把礼品卡的钱充到账户里面去就可以了。然后只要保持账户有钱,那他每个月就会自动给我续费,我的订阅就是 jamie, 就 可以自动续费了。

这里给大家介绍一个在国内就可以使使用到金门来,还有这个菜的 g p d 的 这个站点非常的方便啊,然后一个站点里面就可以使用到这两个顶级的 ai 模型, 呃,下面我演示给大家看一下,如果需要呃,知道是在哪里用的话,可以看一下我主页的置顶视频啊,置顶视频里面有更详细的讲解, 这里我就不多说了。废话不多说,直接演示给大家看,然后我们打开暂停之后,然后我们直直接这样子,呃,点入进来, 点入进来等待,首次进来的话会比较慢一点啊,等待大概三十秒左右嘛,然后整个这个 ai 这个 ui ui 画面嘛,然后等待它反应过来之后,我们再开始使用。 好,现在已经显示出来了,显示出来之后,然后可以看到这右边,这里可以看得到模型,破模型,思考模型啊,这快速模型啊, 这都有的,整个画面都是跟官网一模一样的,包括功能也是一模一样的。很多人不知道那个以为那个 lala 不, lala 跟那个居民人是分开的,其实不是的, lala 不, lala 这个画图模型就是制作图片,这这个工具它是其中的一个模型啊,我们只嗯如果你需要的话,需要使用的话,只需要点击工,点击这个工具,然后选中这个图片制作,然后在这里输入提示词, 比如说,呃,你想呃画个什么图啊,或者是制作什么封面啊等等等都是可以的啊。然后我在这里呃,为为了节省时间,我直接打开记录,打开这个记录给大家看啊, 这个记录的话也是直接直接有的,然后点击记录的话,它会跳转对应的通道, 正在调取这个记录。这里我是叫他画了一个呃,摩托车行驶在戈壁上面的图片啊,就是这个图片, 图片都是非常的清晰的,如果你需要下载这个图片的话,就是在这个呃右上角这里点击下载。 呃,或者是这个图片缩缩略图,在这个这个右上角这里点击下载都可以了。然后的话其他的功能的话都是跟官网一模一样的, 其他的我过多我就不讲解了,大家可以自行测试啊,比如说像这个使用这个, 嗯,写代码,然后这个发布功能嘛,直接代码生成出来,然后在右边这里就可以生成出效果。还有这个视频制作,然后深度思考都是有的, 包括这个,像这个 g p t 也是一样的,直接跳到 g p d 这屏,直接选择通道进来就可以了, 这就是 g p t 啊, g p t 的 话 g p t 吧,在这里就有,呃,是五点四了,现在已经更新到五点四了。嗯, cpu 啊, pro 啊这些模型都是有的, g p t 也是非常的好用的, 像这个这个就是深度研究,感兴趣的可以自己自己测试一下, 非常的方便啊,也不用去改变呃,网络环境之类的,直接就可以上手就可以使用。

咋的啦医生?这个咋的啦?这谁的身体?这句号的身体吗?不是这张被你搞的。我想看一下。点进去看。啥意思?遇到难回答的问题又不说话了。你总是这样,遇到难回答的问题 就不说话。有点苦了孩子。有点苦了。