有人说尼莫场除了快一无是处,那这一期我们来测一下在长上下文中,他能否找到关键信息,并且速度怎么样。我们就随便找了一个上市公司的 pdf 版本年报,我们随机抽选了两个经营细节数据,让模型从二十万长上下文中大海捞针,找到这两个精确数据,那么我们就开到最大。 然后这个尼莫创 amd 单卡三十二 g 的 加载速度,大概是在两分三十秒加载完了二十一万上下文,并且准确的找出了两个数字。然后我们测谷歌的集码四的二十六 b 模型,也是 m o e 模型, 但是我发现这个 mo 模型如果拉到二十六万的上下文,它就是需要三十多个 g 的 显存,已经爆了,那我就把我的另一个显卡也开起来。现在我是 amd 和英伟达的混跑,当然速度的影响我,后面我会再测一次这个尼莫创在两张卡上的速度,吉玛斯的读取速度最后是七分三十多秒, 数字也完全准确。然后我又在双卡状态下,我又测了一次这个尼莫创的读取速度, 居然能达到一分五十秒,如果是用于文档处理,或者需要长上下文携同工作的本地大模型,那我认为这是一个非常好的选择。这跑二十六万上下文的三十 b 模型才要二十几 g 的 显存,那还要什么自行车呀?
粉丝208获赞1519

幺二零 b 参数,只激活十二 b 性能对标臂元大模型 nvidia 刚刚开源了 nametron 三 super, 一个让所有人都能用得起的推理怪兽, 它到底有多强?先看架构。 nametron 三 super 采用混合专家架构,把 mamba 二 mo 和注意力机制三者融合,总参数幺二零 b, 但每次推理只激活十二 b, 这意味着什么?用十分之一的算力跑出完整大模型的效果。 再看跑分, am 数学推理九十分, h m m t 竞赛九十四分, sway bench 代码修复六十分,多项指标超越同级别开源模型,部分场景甚至逼近闭源模型水平。而且它支持最长一百万 token 的 上下文 ruler 评测在一百万长度下仍保持九十一分。 最关键的是部署门槛, nvidia 提供了 b f 十六、 f p 八、 m v f p 四多种精度版本, f p 八版本八张 h 一 百就能跑, m v f p 四版本单张 b 二百甚至 d g x spark 就 能部署。社区还做了 g g u f 量化版,普通显卡也能体验。 它还支持推理模式开关,一个参数控制是否起用,深度思考,灵活适配不同场景。开源协议是 nvidia nematron open model license, 商用也没问题。这是 nvidia 在 开源大模型领域的又一次重磅出击, 感兴趣的去 howdingface sol、 nematron sunsuper 就 能找到。追星不盲从,实测出真知,我是锋芒 ai, 我 们下期见!

六十秒跟进每日 ai 圈动态。 nvidia 发布 nimotron three nano omni 开源三十 b 多模态模型,统一视觉、音频和语言处理,采用三零 b a 三 b 混合专家架构,无需为不同模态部署独立模型。 该模型在复杂文档、智能音视频理解等六个排行榜领先 ai 代理,吞吐量较其他开放 omni 模型最高提升九倍,支持一千九百二十乘一千零八十原声输入分辨率。 cloud code 刚刚发布了远程控制推送通知,现在你可以离开你的终端,让 cloud 处理长时间的任务完成或需要你输入时,会收到提醒, 不再需要看护编程、绘画。谷歌本周与五角大楼签署了一份机密的涉足与军方 ai 交易的合同。 同一天,六百多名谷歌员工,其中许多来自 deepmind, 发出公开信,请求拒绝今日 ai 话题。随着开源模型的性能越来越逼近顶尖闭源模型,闭源厂商依赖高订阅价格维持的商业模式还能维持多久?

家人们四千零六十八计本地部署大模型,真的太折磨了,之前装 q w n 三点五减九 b 聊两句就忘事,上下文窗口小到离谱。 jordan nvidia 减 nimotron 负三减 neonu 负四 b 跑起来了却又特别笨,答非所问还逻辑稀碎。今天不跟八 g 显存死磕,不聊复杂量化,直接教大家薅老黄羊毛白嫖 nvidia name, 用上全球调用榜第二的 step 负三五减 flash, 一 步解决本地模型不聪明、上下文不够的两大痛点。 为啥四千零六十八 g 跑不出好模型?这卡本就是游戏填平卡,跑七 b 八 b 小 模型勉强能用,想跑 deepseek 捡 vi g l m 四 五这类稍大的就得四比特甚至二比特,量化堪比把 v 八发动机改成三缸机,动力和稳定性全拉垮。超两千字上下文就胡言乱语,显存不够就 是原罪。而 nvidia 逆米就是英伟达的免费福利,把顶级开源模型部署在自家操算中心,免费开放 a p i 有 网就能用,不用高端显卡。重点是 step 负三点五减 flash 阶月星辰出品, 首次延迟不到一秒,响应超快,智商在线,还有二五六 k 超大上下文搭配 openclock, 简直绝配!接下来三分钟保姆级教程跟着做,直接升级!一、 注册 nvidia 账户,打开 build nvidia com, 登录注册邮箱随意,关键用加八十六手机号验证,一、手机号绑一账户。二、领 a p i t 登录后点头像选 a p i keys, 创建并命名,有效期最长一年,创建后立刻复制保存,只显示一次。三、 配置 opencl 模型设置里 a p i 地址填 h t t p s integrate a p i nvidia m a a p a p 填复制的字体模型名称填 stepphone 减 ai step 负三点五减 flash 保存即可。 现在在和 openclock 对 话,背后是英伟达超算在运行,比本地小模型聪明好几个档次,体验直接起飞当然免费有小限制,每分钟最多四十次请求,但个人日常使用写代码做轻量 agent 完全够用, 商业密集调用另说。咱普通玩家拿四千零六十八 g 折腾半天,效果还不如白嫖,尼玛,何必跟显卡较劲。云端超算算粒香到爆,老黄的羊毛赶紧薅起来。

里斯 ai 圈又地震了!英伟达刚放出来的这个模型,直接把 ai 成本打下来百分之九十!今天带你看懂 number two、 sanano、 omni 到底是什么来头, 一句话说清楚!这就是英伟达刚放出来的全能 ai 大 脑!别的 ai 要么只会看字,要么只会认图,这家伙一次性把文字、图片、音频、视频四种模态全给你包圆了! 核心优势就三个字,快!准权!快到吞吐量直接干翻其他模型,九倍单流推理,快二点九倍准到拿了六项榜单第一权就是四种模态通吃,还支持两百五十六 k 超长上下文, 它凭什么这么强?核心就是这个猫 e 混合专家架构原话翻译,它有一百二十八个专家团队,每次只叫最适合的六个干活三百亿总参数,每次只激活三十亿,这不就是用三十亿干三百亿的活吗? 和传统模型有啥区别?这就像流水线和全能工,以前处理带语音带视频的文件,你得拆成好几个步骤来回折腾,成本死贵。现在呢? number two 一 次全搞定,成本直接干下去,百分之九十 能用来干啥?金融文档一键解析、法律合同自动审查。还有更酷的电脑操作, agent, ai 直接看懂屏幕,帮你操作电脑 os world 测试已经拿了好成绩,因视频理解、客服质检全自动化, 这跟你有啥关系?关系大了,成本降百分之九十,意味着 ai 服务会更便宜,完全开源意味着创业门槛拉低,以后各种新奇的 ai 应用肯定会爆炸式增长。 总结一下,统一多模态架构,九倍提速,还开元免费 a 阵的时代真的来了!记住, ai 发展从来不是限性的,是跳崖式的。今天你觉得九倍提速很夸张,明年回头看,这才刚刚开始。


我跑了那么多模型,我觉得最屌的还是英伟达最新发布的这个欧米尼,虽然它是三十 b 的 模型,但是它的这个阅读头坑的速度是所有三十 b 这档最快的, 其他的 mo e 像千万啊或者吉马寺这种,基本上如果是编程的话,四万上下文可能要读个三十秒, 或者六万到八万上下文更更是要读到一分钟。但是这个英伟达做的他我现在两万二十六万的上下文开满好,这些代码也就是十秒钟之内就读完了, 真的太憨了。而且他很稳,他对提示词的理解也非常的到位,速度又快。我靠,太憨了。

enviadia 刚发布的尼莫创 sano, 竟然把多模态 aint 的 效率直接拉升了九倍! deepsea vt 那 个神秘的 batching variants 到底在坚持什么?还有科斯山酷事故的血泪教训,今天的硬核内容有点多,咱们直接开拆。 enviadia 刚刚推出了尼莫创 sano oma, 这是一款将视觉、音频和语言完全统一的端测多模态模型。最夸张的是,它让 aint 工作流的效率提升了整整九倍。 无论是计算机使用文档智能,还是音视频推理,它的推理精度和速度都是目前端测的搜塔。聊完效率,再看 deepsea vase 的 工程执着技术报告显示,它们为了保住 batch in variance 及批次不变性,甚至不惜牺牲 gpu 利用率和推理速度。 为什么要这么做?因为只有这样,才能保证同一个 token 在 任何批次、任何环节的输出主比特一致。 这对于超长上下文和复杂推理管线的可复现象直观重要。面壁智能正式发布了迷你 kmo 四点五的技术报告,这个九臂规模的模型实现了真正的全双工流式交互。重点来了, 实测十二 gb 显存的 rtx, 五千零七十就能流畅跑全双工模式。这意味着你不需要联网,在个人电脑上就能拥有一个能看、能听、 能随时打断的 ai 助手。商汤科技也出手了,正式开源了三思 nova u 系列模型。 这套模型主打多模态理解与逻辑推理的平衡,在多个开源榜单中,一系列表现出了极强的语义对齐能力。看来开源社区的开发者老爷们又有新玩具可以折腾了! 开发者们注意了,科瑟最近出了个大事故,由于一名工程师瞎猜了 walleyemid 的 共享逻辑,在 ai 的 辅助下,仅用九秒就删除了公司核心数据库。这份血泪检讨在 x 上疯传,提醒我们永远不要在没有验证的情况下让 agent 执行高危操作。 阿里视频生成模型 happy horse 一 点零开启灰测,它支持十五秒多镜头趋势,能输出一千零八十 p 超频内容。最强的是它具备原声音画同步能力。 目前悟空已经率先接入电商运营,一句话就能生成电影质感的推广视频,这生产力简直了!亚马逊 a w s 也在推进语音革命,他们展示了如何利用 nova 二 sonic 模型,将传统的文本 agent 快 速迁移为极低延迟的语音助手。 这对于企业级客服和实时翻译场景来说,简直是降维打击。聚深智能方面,小雨制造联合北航成立了工业聚深智能联合实验室。 创始人乔中良有个观点很硬,核工业落地比人形机器人的视觉奇观更具正义性。他们正致力于打造工业场景的通用聚深大脑,让智能劳动力真正成为基础设施。 与此同时,格力电器也宣布已经具备制造人形机器人的能力。看来家电巨头们也坐不住了,纷纷下场卷居身。智能硬件,未来的家政机器人 可能真的要信。懂了,最后看个黑科技,脑机接口,创业公司纽尔堡开始授权其独脑技术给消费级穿戴设备。 想象一下,未来的耳机不仅能听歌,还能实时监测你的专注度,甚至意图赛博朋克的生活离我们越来越近了。 哦对了,云服务市场也有变动,亚马逊 a w s 已经开始在其 bedrock 平台上提供 openai 的 最新产品。 虽然微软是 openai 的 大股东,但看来在商业利益面前, arthouse 也要分一杯羹。开发者老爷们多云部署的工具链又要更新了,从 nvidia 的 效率革命到 deepsea 的 工程执着,再到科斯的山库教训,两千零二十六年的 ai 圈真的是一天一个样。 别忘了在评论区告诉我,你觉得十二 g 显存跑全双攻 ai 到底香不香?以上就是今天的全部内容,咱们明天见!

四月二十八日,英伟达推出开源多模态模型 n e m o t r o n 三 nano omni, 整合文本、图像、音视频多维推理能力,服务企业级 ai 智能体 模型,最大优势是效率大幅升级,一拖三零。 b a 三 b 混合专家架构,一体化融合视听编码,精简推理流程,其综合吞吐量达同类开源模型九倍,视频推理场景最高提升约九点二倍,成本更低、扩展性更强。 性能层面,该模型拿下六大权威榜单,榜首文档处理、语音视频理解能力表现突出。现阶段,富士康 polenta 已率先落地,戴尔甲骨文同步评估试用,可兼容各类云模型携同部署。

就在昨天,英伟达 ingivia 发布了一个很厉害的新 ai 模型,让 ai 能看、听读,一次搞定,而且还能在本地设备上运行。 新模型名为 numtron three nano omni, 有 点拗口,但别被名字吓到,它背后其实代表着一个很重要的趋势, 即 ai 正在从会聊天变成会做事。我们最熟悉的 ai 正在从会聊天变成会做事。我们最熟悉的 ai 正在不仅仅需要理解文字, 还有会看图片、会听声音,同时懂视频语言环境。新模型的意义在于,一个模型同时处理文字加图片加音频加视频,这种能力叫多模态 multi model。 简单说, ai 开始更像人类一样,综合理解信息,该新模型 不只是更强,还有更实用。很多 ai 模型其实已经很强了,那这次有什么不一样?关键在两个字,效率。其中值得关注的是 该模型用脑方式。这个模型虽然规模也很大,三百亿参数,但每次只激活其中一小部分,大约三十亿。对比一下传统模型每次全脑运转,而这个模型按需调用大脑区域。这样做的好处是响应更快、算力消耗少, 成本更低。更重要的一点是,它可以直接在本地设备运行,这意味着什么?不用每次联网,调用云端数据更隐私、响应更快、部署更容易等。简单说, ai 开始从云端工具走向随身能力。 英伟达在打什么算盘?这件事的意义其实不只是一个新模型。过去的安微点啊,主要卖 gpu 算力硬件, 但现在他在做的是从底层硬件一路做到 ai 模型本身,包括芯片、 gpu、 软件平台、 cuda 以及模型本身,这就像卖产值的人也开始下场淘金了。英伟达大模型的技术方向和其他 ai 巨头有什么不同呢? 当前主流路线走的是超大模型加云端服务,而英伟达这次更偏向高效率模型加本地运行,二级 ai 忍者能力更强, 依赖云上算力,后者更轻、更快、更私密。为什么这件事值得关注?当 ai 可以 本地运行加能看懂世界,加能自主执行任务后,他开始无处不在。 在你的电脑里,在你的手机里,在你的车里,在你的公司系统里,在你深深的脑海里,在你的梦里,在你的心里,在你的歌声里,甚至你可能每天都在被 ai 协助工作。但你甚至没意识到,如果说过去几年 ai 的 发展重点是让 ai 变聪明, 那么接下来更重要的是让 ai 变得好用、便宜,随处可用, ai 真正变成生产力工具,甚至是劳动力。

三月十二日,科技情报来了,黄元勋这招太狠了,他这是要用零元购,直接砸烂所有币源大模型厂商的饭碗。英伟达昨天刚刚发布的一千两百亿参数模型 nametron sunsuper, 其实是在用开源模型加混合架构加免费 api 的 三位一体打法,试图在 ai 应用层复刻 q 代时代的生态锁死。 很多人第一反应是,英伟达怎么跑来做模型了?难道是来做慈善?官方发布会上的说辞叫技术突破,但在冰冷的商业逻辑里,这招叫降维维列。英伟达极其聪明,他没有在正面战场直接去撞 openai 的 护城河,而是直接切断了开发者对昂贵 api 的 依赖。 他们的逻辑很简单,我免费给你们提供最优质的燃料,但只卖给你他家独家垄断的油泵。 这不是慈善,这是一场精心策划的生态收割。我们来看这组致命数据,这才是黄仁勋手里那把带血的刀。首先是架构碾压,一二零 b 参数,每次推理仅激活十二 b, 这意味着什么?这意味着,在同样的算力消耗下,它的效率是传统大模型的十倍, 推理成本被极其残暴的压到了十分之一。其次是速度极限,每秒输出四百七十八个 tokens, 这比主流的开源竞品快了将近一倍。对于开发者来说,这不再是好用与不好用的区别,这是活下去和破产的区别。最致命的一击是,在 open、 router 等平台上,它的 api 标价是极其恐怖的零美元 ma。 英伟达根本不需要靠卖模型授权赚钱,它是用免费模型来喂养自家的硬件生态。当调用成本趋近于零,谁还会去当冤大头, 为那些每百万 token 收费几十美金的闭源厂商买单?这直接击穿了行业的利润底线。接下来,我们拿放大镜推演一下这背后的权力重塑。 拥有 gpu 算力的云厂商会立刻导歌加速部署这套框架,疯狂推出英伟达免费模型加自家算力的绑定套餐。而全球千千万万的中型 ai 应用公司,会像潮水一样把推理负债迁移过来, 那些靠卖 a p i 为生的闭源厂商,明年的收入增速极有可能面临血崩式的下滑。这不仅仅是技术的迭代,这是一场关于默认选项的夺权战争。一旦全天下的开发者都习惯了英伟达模型,他们就再也离不开英伟达硬件。 这就是黄仁勋的终极陷阱,用免费降低门槛,用技术建立依赖,最终让英伟达成为 ai 时代不可替代的 ai 基建帝国。针对这场世纪博弈,我给出两个未来的预判,第一, 紧盯 openai 和 antherpick 的 定价策略。如果他们在六个月内被迫大幅降价或推出免费层级,那就说明英伟达的这波强攻已经把他们逼到了墙角。 第二,合规就是生死线。一代 name tron 系列获得了 h i p a a 等企业级安全认证,医疗、金融客户的彻底倒戈,将无法阻挡当卖铲子的人开始免费送金矿的地图,那些靠指路赚钱的人,还能活多久?

英伟达炸场,新开源全模态大模型 number 创三、 nano、 omni 文本图像、音频、视频移模型通吃智能体效率直接拉满九倍,登顶六大权威榜!富士康等大厂已上车,企业 ai 部署门槛大降。

大伙好啊,今个呢,我们聊一下如何在本地哈部署这个拉玛 c p p, 那 么它的作用是什么呢?各位,先说一下啊,它能让我们在本地哈运行啊这个语言类推理的大模型。 那么为什么要在本地部署呢?有几个情况哈?第一个呢,就是最近哈,呃,这个网上都说这个豆瓣要收费了啊,对吧?呃,收费之后呢,有一些功能,可能我们正常用的挺好,再用可能就要付费了,对吧?然后再有一个是什么呢? 就是我们如果在做项目的时候啊,比如说有一些东西涉密了,不方便在网上传,对吧?这个时候我们就需要在本地,是吧?构建自己的这个资源库,对吧?各位,那么这个时候我们就需要在本地有一个可以类似于像豆包啊,这个 deepsea 啊这种的服务类大模型,对吧?所以呢,今天我们聊一下如何在本地哈部署这个拉玛 c p p, 它呢实际的作用就是可以让我们在本地哈运行啊这个语言推理类的这个大模型,大家看啊,现在我已经部署好了,非常简单哈。那么再有一个情况是什么呢?各位,我们有一个自己的这么一个批量管理软件,是吧?目前有一个环节就是题词词的来源 目前很严重的依赖于我们外部的这个呃, ai 工具,对吧?现在呢,我们如果在本地已经构建了一个可以用来进行语言推理,生成对应任务的这么一个大模型之后呢,各位大家看啊,我们就可以把这个东西直接集成到这个平台当中,是吧?提 着此这一块,我们就最后一个环节就已经集成到这个行当中了,这个就是后续啊,就是大概是四点一之后是吧?呃,继续优化的一个功能,大家先知道这么个事就行了 啊,再有一个是什么呢?目前千万三点六是吧?这个三十五币出来了,然后呢,号称是一个能干活的大模型,对吧?各位,那么我们把它在本地运行来之后呢?第一可以构建自己的私有资源库是吧?更安全,第二呢效率更高,对吧?各位, 那么话说回来啊,怎么去部署这个拉玛 c p 啊,它其实就是一个能让我们运行这个语言推理类模型的这么一个工具啊。不大,我们首先来到这个 github 哈,这个网址,好吧,这个网址哈,然后来到这里之后,各位,简单的一种方式哈,我们找到右侧这个 release, 好 吧,找到这个 release, 然后往下翻哈,这里边有对应的版本,那我是 windows 系统,我们往下翻啊,这里边有一个 windows, 好 吧,在这里哈,各位,呃,我是酷达十二的,所以呢,我就找这个酷达十二哈, 找这个酷大十二,大家根据自己的情况啊,显卡情况去选择好吗?有很多这个类型,大家根据自己的情况选择就行了,那么我选择酷大十二,然后把它下载到本地之后,大家看好,我把它下载到本地之后进行解压,解压完了之后大家看进入到这个文件夹当中,这个就是项目下载之后的效果, 好吧,不大哈,大概是看一下啊,五百多兆,好吧,不大哈,然后呢,别着急启动,各位,我们启动的时候呢,可能要需要设置一下参数,怎么去办呢?大家看,进入到这个 lama 啊,解压之后的这个文件夹,然后注意新建一个文件,比如说我叫 start 啊,我已经有这个 start 了,那我就 start new, 新建一个文件,然后大家注意把这个后缀名啊,各位,把后缀名啊改成点 byte, 好吧,有些同学这个小那个小伙伴的电脑可能这个看不到后缀名,是吧?这个很简单,我们打开这个文件夹之后,这上面有一个查看,大家点击查看,点击显示后边有一个文件扩展名,就是文件后缀名,你把它点上之后就能看见了啊,也能修改了。那我们新建这么一个 bug 启动文件之后呢?大家看啊,我把我之前这个打开, 大家看在里边输入这么一句话啊,比如说这个是拉马,搜索这个拉马的这个文件啊, 调用谁呢?大家看啊,这里边有一个这个,好吧,拉玛告诉搜索点 e s e, 实际上就是调用它哈,然后后边杠杠 host 四个零好吗?它指的是开放远程调用,因为我们后期啊,各位,后期要把它集成到这个批量管理软件当中,我们需要通过这个软件远程去调用啊,这个拉玛 c p p 好 吗?各位,所以这个位置我们给它开放远程调用,后边 pos 端口八零八零,大家看啊,就这个端口,根据自己情况设置就行, 好吧,自己设置一个端口啊,然后后边杠杠 models 杠 d i r, 它指的是我们的大模型存放的文件夹地址好吗?比如说我存在 cf ui 的 这个 l l m 目录当中了,那我就找到哈这个 cf ui 找一下啊,找到 comui, 然后找到它的这个 models, 找到 l l m, 把这个上面地址复制一下,粘到这里边就行,好吗?这样呢,我们这个启动文件就配置完成了,很简单,对吧?各位?然后呢,大家看啊, 翻回头来,来到这个启动项,好吧,来到这个 lama 的 这个解压文件夹目录,找到我们刚才设置的这个 star 的 启动文件,好吧,里边的内容刚才展示过了啊,开放远程端口,设置模型存放的目录,然后前面是调用的这个 lama server, 然后双击一下 打开,双击完之后啊,这个老板就启动了,他默认的啊,启动端口啊,是刚才我们配置的那个八零八零,对吧?然后呢,我也,我之前已经启动过了,翻回头来,我们在网址上输入,幺二七点零 点零啊,多了一个点啊,幺七点零点零点一,然后冒号,英文的冒号八零八零,大家看,这样呢,我们就把这个网页打开了,大家看,其实他就是个小豆包哈,他的这个能力跟你选的大模型有关,那么我选的是千问三点六啊,目前号称能干活的大模型,好吧,一会说这个事啊,然后呢,我们点 第一次,我们可以点击加载一下这个模型,然后输入你好,是吧,他就进行推理了,然后给我们这个答案,这个模型确实能干活啊,各位,大家看啊,这个是我之前用这个千分三点六,然后拉拉本地部署的这个 呃软件哈,然后呢,生成了一个贪吃蛇的这么一个小游戏,里边大概七百多行代码,我就告诉给我生成一个网页版贪吃蛇啊,大家看,双击完之后,这个游戏还挺好玩的啊,效果还不错的啊,好吗? 好了,不解释啊,就是挺好玩的哈,然后千万三点六的模型在哪里下呢?大家看,我这里有一个网址,这是国内的网址哈,大家看, 根据大家的显存实际情况去下载对应版本就行了。那我是二十四 g 显存,所以呢,我下的是这个 q 四 k m 的 二十二 g, 好 吧,大家尽量啊,下载这个模型小于大家的这个显卡的显存,因为什么呢 啊,就算大点也没事啊,比如说你十六 g 显卡,然后你下个十八 g 的 模型,实际上也没事,它会把一半啊,它会把一部分资源放在内存当中啊,但是各位 用这种模型啊,大家看啊,这有一个 token 的 输出速度好吗?就是它运行,你可以把它理解为运行的效率啊,有一半资源在显存啊,在内存当中,这样会拖慢你的运行效率,但是它也能运行,就算你没有这个显存,纯靠 cpu, 它也能运行,就是奇慢啊。各位, 这种模型大家注意啊,还是注意下效率的,所以我们把这个模型都加载到显存当中,这样的运行效率是最高的啊,大家做这么个事就行了啊,尽可能的选择这个模型小于你的真实显存占用, 是吧,这个千分三点六,三十五 b a, 三 b 指的是三十五 b 的 参数,但是真啊,一次使用的时候只激活三 b, 对 吧,但是你也需要把这三十五 b 参数加载到显存当中啊,然后一次用里边的三 b, 对 吧,这样的效果是最快的。 好吧,各位大家说这么个事就行了啊,然后呢,其实呢,大家不止可以下载这个千问三点六号,也可以下载其他的推理大模型,放到对应的目录当中,是吧?在这里大家看啊,在这个位置我们是可以选模型的,我之前还有千问三点五号。 好吧,各位大家知道这句话啊,知道这么个事就行了,那么部署完,启动完之后,就可以跟它进行对话,然后完成任务了哈,然后呢,这个不是重点啊,因为我们刚才开放了 api 的 远程调用,对吧?大家看啊,就是以后怎么把它集成到这个软件当中呢?大家可以看一下啊, 现在我模型是加载的,我给大家演示一下啊,这里边我写了两个 api 啊,第一个是卸载模型,是吧? 就是我可以通过远程调用去控制这个软件加载或者卸载模型,大家看好好 success, 然后我们看一下显纯一下就下来了,这样呢,我们就完成了模型的卸载,对吧?然后下边这个是加载模型,大家看 是吧?加载成功之后,显示一下就上来了,对吧?证明这个远程调用是可以的,那么我们就可以通过远程调用的形式啊,把内容发送给这个软件,然后得到结果之后,是吧?然后我们把结果配合的使用到对应的软件当中去,是吧?就完成了调用。 好吧,这个只是一个初探啊,各位,这个只是个初探,大家学会安装,学会下载模型,然后把它启动起来就行。好吧,后续我们会有深入的这个使用教程啊。然后呢,视频当中说的一些使用细节,包括网址啊,包括这个启动文件怎么配置啊?大家可以来到主页哈,找到对应的视频,在视频下方大家可以查看一下。