阿里的千问一口气发布了一系列 callen 三五小模型,有零点八 b, 二 b, 四 b, 九 b 啊二十七 b, 今天就让大家一分钟在 windows 上用上这个本地小模型。 首先去 l m 服务 studio 官网下载这个模型,加载软件,点击下载你就去装,下载完成后安装那个 l m studio, 然后等安装好启动后,来到软件主界面,点击左侧有个小放大镜的图标,就可以搜索这个模型了, 输入很快就看到结果,那今天我们就用库莱三五到四 b 作为例子,点击下载,然后下载好之后就可以点击左侧第一个按钮,然后点击上面加号,然后加载刚下好的模型。然后呢,这里我们可以设置模型的参数, 我们来测试一下这个模型的基本常识, 对比下其他的模型的基本常识,但这个回答效果还是很不错的。
粉丝37获赞352

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

阿里刚开园的 q 泡桌面智能体,我替你们实打实踩坑实测了,一句话总结,咱们普通小白想上手,真的再等等,别着急,跟风折腾。 最开始我想本地部署,跟着豆包给的步骤一步一步来,全程全是代码操作,要配置各种环境,跑好几个网站下载对应的安装包。对我这种不懂小代码的小普通小白来说,真的巨复杂, 前前后后折腾了快两个小时,最后还是因为环境不兼容,直直接卡死,只能彻底放弃。然后我就去试了阿里云官网标注的五分钟一键部署,结果踩的坑一个接一个。首先就是大家最关心的费用问题, 别看模型本身是开源免费的,但实际用起来有不少消费调用大模型需要开通阿里百链服务,首月套餐七块九,包含一万八千次请求。这个倒是不贵, 但想在云上部署,必须租赁阿里云服务器,我选了最基础的入门配置,最低要先充值一百块,按量付费,折算下来一小时差不多七毛钱。 这里必须给大家提个醒,也是我自己踩过的坑,这个服务器不是你关机,不用就不扣费了。我折腾完关机放了一晚上,第二天一看啥操作也没做,又扣了好几块。 后来才搞明白,他默认状态下关机还是正常计费,只有手动开启节省停机模式,才能免掉算力部分的费用。而且就算开了这个模式,系统盘的存储费用还是会持续扣除 大家,大家如果只是临时测试用,用完一定要直接删除释放实力,不然钱不知不觉就被扣没了。 呃,钱的事还是其次,最折腾人的是他对咱们普通小白真的不够友好,操作手册的很多关键步骤对新手来说说明不够详细,就比如开通密钥,手册里只提到了开通编程密钥, 我照着操作折腾了半天一直报错,后来问了千问才搞明白,调用大模型需要开通的是大模型专用密钥, 就这一个没说明白的细节,白白浪费了我快一个小时。好不容易部署完成,我把它关联到钉钉上,想着手机上也能随时用,结果刚用第二句就出问题了,我先给他发了个文章链接,让他提炼核心要点,倒是很顺利就完成了。 紧接着我用语音发了一句,把这个内容和要点生成一个 ppt, 发出去直接就报错了。后来我问了技术支持才搞明白, 这根本不是我操作错了,是这个刚开源的初识版本本身就还没开发语音识别功能,原声只支持文本输入,不支持语音消息处理,属于版本本身的功能缺失,咱们普通人根本改不了,只能等官方后续更新版本。 整个折腾下来,我最大的感受就是这个工具真的只适合技术爱好者,懂代码的专业人士拿来测试学习。 对咱们这种只想拿它来干活、写文案、做内容的普通创作者来说,真的不建议。现在着急上手,到处都是没说明白的细节,不知道下一步 就会不知道下一步哪就会报错,时间全花在调试上了。有这功夫,用豆包、 deepsafe 那 些都写完好几篇文章了 其实,呃,跟我之前测的 mini max agent 一 样,这些新出的智能体对懂代码、懂逻辑的专业人士来说确实自由度高,很好用,但对咱们普通人来说,真的是步步都有门槛,体验感很不好。 最后给想试的朋友提三个新手一定会遇到的问题,大家记好避坑。第一,普通小白别轻易碰,本地部署操作门槛非常高。第二,开通密钥一定要开大模型专用的,别只开编程密钥。 第三,当前版本不支持语音识别,别在这上面白瞎白费功夫。给咱们普通人一句实在的建议,想玩这些新的 ai 智能体真的不用着急,再等等,等他们出了正式版本,功能完善了,哪天 咱们在应用商店里直接能下载到了再去用也不迟,现在跟风折腾,最后大概就是浪费时间浪费精力,还没办成事。 嗯,接下来我也会回归内容本身,把我用 ai 写头条、做自媒体的真实心得和实用技巧毫无保留的分享给大家。想跟着一起用 ai 做自媒体,少走弯路,不瞎折腾浪费时间的点个关注,咱们一步一步慢慢走。

给你们介绍一下这个谷歌满级大佬新出的一个项目哈,就在上周,就在三天之前,他出了一个能让你的手机本地部署大模型的一个项目,这个项目我觉得非常厉害哈,像我们之前部署一个大模型到本地的话, 要么就是五零九零啊,显卡啊,或者是你要更高,要算力极群,你才能完整的部署一个大模型。但是谷歌这个项目呢,它已经把它的那个 大模型蒸馏哈,通过蒸馏的形式压缩,然后成一个可能只有一币两币的小模型,然后就能在我们的仅仅只有六 gb 八 gb 软的这个手机上啊本地运行, 而且它可以做很多功能哈,它不仅是聊天,然后它还可以你用图片提问,它能识别图片,然后它还能 把你的录音啊,转文字,然后还能给你改改代码,具体的话呢,可能看你的手机性能哈,你看图片识别,然后声音识别,然后这个提示词,然后包括 ai 聊天,功能还是非常丰富的, 所以说这个项目非常值得大家去下载哈,如果你们有能力的能用到谷歌商店的,可以去谷歌商店里面搜索一下这个项目, 然后对于你没有谷歌 play 访问全新用户,他也给你解决方案,可以直接在 github 上下载这个最新版本的 app, 你 直接安装这个 app 他 就可以用了。 链接啊,这个项目还是非常厉害的,仅仅三天的时间就已经十五 k 了啊,大家一定要去赶上这个时代去用一用。

然后我们刚刚在本地部署了那个千文三九 b 的 那个 q 四模型,因为它是一个全模态的一个模型,它可以进行视觉,嗯,它可以进行那个对图图像的识别,那么利用它这个特征呢?我们就可以 呃利用它来操作我们的浏览器。呃,我们借鉴的是那个凹凸 g l m 他 们的那个,呃,手机操作浏览器的那个整个一套系统,然后我们给他移植在了 windows 上面,在这个 windows 上面呢,我们就可以看到它那个是如何操作我们系统的啊? 首先我们第一步也是运行我们的这个主脚本,我们的任务我们之前有设置过,比方说我们现在桌面上是没有浏览器的啊,没有浏览器。然后我现在就是让他搜索这个帕布麦的,去找那个肝癌相关的文献,然后选择近五年的文献。 呃呃,这个下载可能是有点困难啊,让他找找那个点击进去的吧,下载的话,因为有些文献他没法下载啊啊,他链接不太那啥, 我们是给他一个任务呢,就直接去拍卖的里面搜肝癌相关的文献啊,找就是找近五年的文献,上下翻找,然后找到那个肝相关的文献,然后让他点击进去,就这一整套流程,然后我们测试一下, 你看他直接打开了我们的这个浏览器,然后他先那啥了一下, 看他会不会输啪啪麦的啊,我们把他那啊,他输了啪啪麦的,我们先不干扰他啊,马上我们把这个流程给他看一下,他点击了进去,然后在这里选了开始。首先他这应该是一年的啊,直接就是五年的,他直接上下翻找, 他找的话估计有点找的难找到,找不到的话我们看他会不会选择第二页啊?嗯, 他想点这个,但是好像这个模型呢,没把它啊点到了啊,他直接搜 ctrl 加 leave, 这这个是更好的一个选择 啊,他直接点了第一个,第一个呢我们可以看到啊,这个是四 d 的 一个,那个在这个干细胞癌,实际上他已经成功了啊,这个 hcc 他 就是干细胞癌,他已经选选择成功了,这个就是他那个操作的一个系统 啊,这个任务呢,它是一个流逝的一个任务,我们可以看一下它的后端的一个占用啊,刚刚我们用的 cpu 它一直在调用,那整个内存占的是二十四 gb, 整个那个显存的占用呢,大概是十二 g。 然后我们可以看一下它的这个操作的一个流程啊, 他刚刚就是先是我们交给他的任务是搜索这个文献,然后点进去找到干相关的文献,他还挺聪明的,他把这两个结合在一起,这样相当于一起搜的,这样会更更那啥一点。 首先呢看我们的模型处理了多少,一般都是全截屏,然后思考,思考完之后呢给出动作,这个就是模拟那个奥拓 g l m 他 们那个项目里面也是他操作手机也是这个流程。然后我们把这个虽然这个视觉没有经过微调,没有经过微调操作这个 电脑界面,但是呢我们可以结合那个浏览器中的那个搜索术啊,就是他有那个元素自带的一个搜索术,然后结合到模型的视觉,然后我们就可以达到这样的一个效果。嗯,我们再给他一些,再给他一些那啥。呃,一些任务吧, 比方说搜索斗罗大巫,拉尔爵士堂门的漫画,点击进去。呃, 他一般的就会开一个新的网页啊,直接就开一个新的。呃。客户端, 我们看他怎么搜。一般这个点击搜索的话应该还是比较简单的啊。啊,这怎么搞了?这个查找你看他不知道为什么会把这个调出来啊。我们先给他查掉,我们看他会不会搜索啊,他自己点进去了。 嗯,好,他已经点击进来了,我们再测试一下,让他点击进淘宝看一看。这个。我这个任务,我们。 嗯,搜索,点进,进淘宝网站,搜索最新的 djs mark 的 价格 对比,至少三个页面啊,我们看他会不会对比啊,给出最最低的价格和商家的名袋和商家的名字啊, 看他能不能搜索。这个任务我也是第一次尝试啊,如果不行的话我们后期也可以优化一下,对于这个进行优优化一下,看他会不会啊。 嗯,首先进淘宝网,对的,然后他会点,他只会点第一个。哎,淘宝点进来了啊,看他怎么说。这是淘宝吗? djs mark, 哎,怎么又返回了?对选,他选择了第二个的 djs mark, 对, 进来了,哎。 啊,这是淘宝的那个弹窗,这是很烦的啊,我点个允许吧。不点允许的话允许啊。淘宝的弹窗,不然的话他没法操作。要登录啊,登录的话我扫个码吧。 他一直在帮,想帮我们搜啊,但是淘宝好像要登录啊,搜到了,哎呀,算了,我还是给他登录一下吧,等他再出现这个二维码的时候我来给他登录一下,没办法啊,不登录他没法操作好了。 嗯,他点了这个,好让他自己操作,允许 看他搜的是什么啊,我看他任务有没有结束呢? 哈,搜的是主线啊,我们要的是模型他主机,他给我们搜的那个红生生物科技的科技线啊,这他也是能做一些东西的啊,我们重新让他来 主机没讲好, 不知道这里面有没有我的淘宝页面,让他再试一次吧。哎,这些购物网站呢,他对这个限制可能还比较大。 嗯,他搜了 d g x spark 主机。是的, 这个页面是多少钱来着啊?我没看着啊, d g x spark 主机?对,这里我好像这个商品我好像登录了,登录了,我们看它选了几个啊? 这个是多少钱来着?三万两千多,这个呢是多少钱?到最后我们看他返回啥啊?啊,还是可以的他他在跟我们进行对比啊,应该是结束了。嗯,我们看他返回的 收到了啊,已完成对比, 虽然没有动作输出啊,但是他已经完成了,但是我们这个可以看到高效 mini 一 一一,我看是哪一个啊?这个是三万两千多,这个应该是这个。 嗯, mini 一 体机,桌面高效 mini 一 体机,他说的是这个,确实比这个便宜啊,这个是三万八千多的, 其他的我看是不是他最低呢?三万两千多,这里有一个三万零九百的,不知道他那个是怎么选的,可能是在第一页最低的嘛。 嗯,这就是他的那个功能啊,我们初步实现的功能还还可以还可以。

openclaw 到底能不能使用本地模型来完成各种任务?今天我就把实际测试的结果和大家分享下。本地模型我使用的是最新发布的千问三点五量化版本,目前已经发布的有二十七 b、 三十五 b 以及 e i 二 b 三个量化版, 各位可以根据自己的显卡状况选择合适的版本。我这里选择的是三十五 b 的 量化版本,模型大小为二十四 g, 实测在我的双显卡环境下速度可以达到一百二十 t 每秒,性能上已经可以完全满足使用需求。 本地的模型工具使用的是羊驼欧拉玛,需要注意的是,欧拉玛软件必须是十七以上版本才能够支持千问三点五这样的新模型,目前官网最新版本是十七点零点四。而最令人惊喜的是,新版的欧拉玛已经集成了 open claw, 你 只需要在命令行输入 open claw 这一行代码,就可以直接部署你的龙虾机器人。 此外还需要注意的是,新版本的欧拉玛把上下文长度设置为了二百五十六 k, 这可确保连续多次和模型的对话不会被中断,但这会占用更多的显存资源,所以一定要选择适合自己硬件性能的量化模型。在将千问三十五币设置为 openclaw 的 主模型之后,我进行了多个功能的测试,包括 skill 技能的安装和配置、 股票代码的抓取和市场行情分析,以及 ai 新闻的搜集和定时任务的配置。结果超出了我的预期,本地模型基本顺利地完成了所有任务,没有死循环或是失去响应的状况发生。但需要注意的是,量化版本的模型由于能力限制, 如果是较为耗时且有多个分支任务的对话,你需要再次输入提示词,要求模型检查当前的任务执行状况,以避免任务没有被百分之百完成。在耗时一天的深度体验后,我认为使用本地千问模型配合 open claw 来执行基本的信息搜集和数据分析等无需复杂逻辑的任务是一个非常好的选择, 但前提是要确保你的硬件有足够的性能来支持本地模型的运行。同时建议另外再配置一个线上大模型来配合完成其他复杂项目。 通过这样的组合,应该可以有效避免 token 过度消耗造成的大额费用支出。以上就是我使用本地模型配合龙虾机器人的使用心得,如果你也有类似经验,欢迎在评论区分享你的使用反馈。