q w e n。 三点五小模型实现手机端本地运行四 b 参数离线 o c r 兼顾效率与隐私安全近期, q w e n。 三点五大模型凭借轻量化设计引发行业关注, 其仅四 b 参数的小模型版本可在普通手机上流畅运行,还具备图像识别与离线 o c r 能力,在办公与隐私安全场景展现出显著优势。 q w e n。 三点五四 b 突破了大模型对高性能硬件的依赖,无需云端服务器,不用高端电脑,在普通移动设备上即可稳定部署与推理。 轻量化架构让模型体积更小、加载更快,同时保持了较强的理解与处理能力,大幅降低了 ai 使用门槛。 该模型最突出的亮点是支持本地图像识别与 ocr 文字提取,用户拍摄文档、表格、名片、截图等,无需上传数据至云端,就能在手机本地完成高精度文字识别、自动提取、可编辑、可复制文本 识别准确率与实用性足以满足日常办公需求。对于注重隐私与数据安全的办公场景, qwe n。 三点五的全离线运行模式极具价值, 涉密文件、敏感合同、个人信息、内部资料等无需联网即可处理,从源头避免数据泄露、云端上传风险,真正实现数据不出设备。 相较于传统 o c r 工具依赖网络,存在隐私隐患、响应延迟等问题。 q w e n。 三点五在本地完成全流程计算,响应更及时,使用更稳定,弱网与无网环境下仍可正常工作。 办公场景中,它可快速完成文档电子化、信息录入、内容校对、笔记整理等任务,大幅提升效率。 q w e n 三点五四 b 在 手机端的落地,标志着端侧 ai 进入实用化阶段。小参数、强性能、高隐私、 低硬件要求的特点使其不仅适用于个人办公,也为教育、金融、政务等对数据安全要求严苛的领域提供轻量化 ai 方案。 随着端侧大模型持续优化,未来更多 ai 功能将从云端走向本地设备。 q w e n。 三点五凭借轻量化、多模态、离线可用的综合能力,为普通用户与企业提供了高效、安全、低成本的 ai 工具,成为移动端智能办公与隐私保护的重要选择。
粉丝611获赞8034

阿里千问三点五小模型今天发布,手机端 ai 进入新时代,在 local ai app 的 app 内已经可以在本机手机内安装和体验。视频里是二 b 模型,在 iphone 十七 pro 上完全本地运行, 它提供了四个尺寸,零点八 b, 二 b, 四 b, 九 b, 全部 ipad 二点零开元。最厉害的一个点是它原生多模态文字图片视频,一个模型搞定两百六十二 k, 上下文两百零,一种语言, 只要九 b 击败五 n a n o 和上一代困三到三十 b。 最疯狂的是零点八 b 模型,能理解和处理视频。

你没看错,现在你的手机也能本地飞速跑一个 ai 大 模型了,回答速度堪比云端!就在昨晚,阿里开源了四个千万三点五小尺寸模型,直接把 ai 的 门槛给踩碎了,连马斯克都坐不住了,空降评论区惊呼令人惊叹的智能密度!此次阿里发布的千万三点五九币,在七项评测中均拔得头筹,大幅领先了 pt 五 nano 和 google 的 jamming、 二点五 flashlight 等模型。重要的是,不需要几万块的服务器,在你的普通电脑上就能跑。有网友实测,九 b 模型跑起来内存占用比 tom 浏览器还小,八 g 内存就能带飞。甚至有大神在 m 四芯片上跑出了每秒四十九点五个 token 的 速度。 也就是说,一个三百五十亿参数的模型,在本地实时对话几乎零延迟。有开发者算了一笔账,一台 mac mini 加上千万三点五成本,甚至不到初级员工一个月的工资, 它能二十四小时帮你干活。而且它完全属于你,不需要联网,不需要买会员,不用担心隐私泄露,因为所有数据都在你自己硬盘里。正如网友所言,没人能夺走它。以前全世界都在争夺谁控制 ai, 但从今天起,答案变成了你!

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

大家好,你们有没有看新闻,最近阿里出了一个新的 ai 模型,特别在哪里?它有十个尺寸,最小的是零点八 b, 直到可以放在手机里的镜片。 以前 ai 要上网,要等它 loading, 因为它住在文端里嘛。这一次少量的小批的模型直接可以搬到你的手机里, offline 都是线下,也可以用快很多,还有比较私人一点,因为你不需要再上传去文端嘛。你想一下,将来你去买手机会做到什么呢? 旅游,看到餐牌的字不懂,一扫描他都可以直接帮你翻译,不用开数据,万有 p 图,你想把后面的人弄出来,一间一个按一个键都已经 ok, 不 用再安装 app, 不 需要再上传去文端了。 还有都是你跟 ai 说个什么,它源泉似的,因为它都是住在你手机里,所以我经常都对人说,现在买手机不要图它,手机有多少的内存呐,相机有拍的多好。你现在要看的是这部手机离线的 ai 能力有多强。 你觉得 ai offline 有 什么用?留言告诉我,关注我,用 ai 提升自己。


hello, 小 伙伴们大家好,那么昨天千问团队呢,那个可以说是个地震吧,这个事好多小伙伴也已经看到了,那么 有可能啊,我们现在千问三点五呢,就是我们的版本绝唱了哈,那么 comui 呢?现在也有第三方的插件能够使用这个模型了,我们就看一下怎么去用这个模型啊。首先我们需要装一下这个节点,就是这个 comui 拉玛 c p p 啊这个, 那么这个项目呢,在昨天的话已经更新了,支持了这个千万三点五,那么这个节点安装完以后呢,我们需要下载对应的模型哈, 对应的模型大概我们看看这边哈,他现在提供的是 g g f 的 版本的啊,因为是二十七 b 这个版本的,我这边试了两个模型啊,一个是他这个 q 六这个版本 u d q 六的版本啊,八个多 g 的 那个。那么 使用的时候呢,把这两个模型下载到我们 comui 的 models, 然后呢有一个 l l m 的 文件夹啊,放到这里, 然后这里也要注意啊,我们需要下载这个 mm project 这个文件啊,对应的文件这边有两个,我这边可以推荐下载一个 b f 幺六的,如果你想从大一些的话,可以用这个 b f 幺六的啊,稍微小一点可以用个 f 幺六的啊,他们两个属于是这个适配的一个文件。 那么这个项目的节点呢?其实核心节点我们看看啊,他就这个三个啊,就这三个这三个啊,这个是我们核心的预算节点,这个是模型加载节点,我们这个是他这个参数设置节点啊, 我们看看这里边的模型加载的话,我们就是第一个选择我们这两个模型当中的一个啊, g g f 的 可以用这个 q 六的也可以用 q 二的,那么 q 啊, q 八那个呢?我这边也跑不了啊,显轮占的更大啊,三十二 g 是 跑不了我这边, 那么这两个模型的显存占用呢?这个 q 六的大概要吃到这个二十七 g 啊,二十六七 g 左右的显存,那么这个 q 二的最小号的这个呢,它只需要十二 g 不 到的显存就可以使用哈, 然后在这边 improject 这个选项呢,选择对应的这个量化的一个参数哈,可以选择 bf 幺六和 f 幺六的,然后在这个下边这个 chat handle 这边啊,选择我们的前文三点五啊,你可以选择带 syncing, 也可以选择不带 syncing 啊, 接下来就是我们这边的下边这个参数设置节点啊,设置我们最大的 token 数这些, 然后就是这个核心节点,核心节点的话,我们在这边呢有几个选项要注意啊,首先是我们的任务类型啊,任务类型的话我们可以选择他这边,看到没有,有几个第一个是空的啊,就是你全部看你自己写的内容啊,他去帮你生成。还有一个就是 normal description 啊,就是说作为文本生成的这个, 还有就是说这个,呃,提示词生成啊,包括这么几个选项啊,还有这个电影选项的,还有这个创意类的哈,还有创意类的,我们可以选择这些啊,我这边就用了这个 cinematic, 就是 电影类这个创意类的,让他去写这个提示词啊, 然后在第一个栏里边呢,就及时告诉他用中文描述啊,下边这个 system promote 啊,我就没有写。这里还有一个点要注意啊,就是这个 模式选择,模式选择的话,我们看这边它有一个 one by one, 它那个意思就是怎么讲呢? one by one 的 话就相当于图片是一个,每次只读取一张, 那么还有第二个选项就是 image 啊, image 是 什么呢?它就会读取整个这个里边加载的所有图片,即即便你加载是一个视频,它也只是读取图片哈,还有一个就是 video, video 的 话就是会把你输入图片当成一个整段的视频去呃,去反推哈, 那么就是这里的这样一个选择,下面还有个最大的一个针数啊,还有一个最大的尺寸,还有这个种子的选择啊,就在这里选择。我们这里呢有一个强制卸载,我建议大家把大家把这个打开啊,就是说如果你把它整个接入整个的一个工作流当中呢, 你把这个打开以后,它会自动的把我们这个模型去卸载掉哈,在运转完以后它会自动卸载掉,那么我试了这个三个模式哈, 啊,第一个模式就是我们这个 one by one 啊,只对单真图片进行一个提取,那图片反推呢?我们也试了一下啊,用了这个生化危机九的这个海报,我们反推了一下,整个的复现的效果还是很不错的,包括他的文字,包括整个这些细节的一个 场景啊,然后呢还有一个就是怎么讲呢?是让他自己去写,我没有接触图片啊,直接没有接触图片,直接让他去写,呃,写一个武侠电影打斗场景的第二次,还有一个,那就是视频的一个加载啊,视频的一个反退。 那我觉得这个反推的效果都不错啊,很精准很精准啊,而且运算速度也挺快,因为 g 六 i 的 话,他只用了三十多秒啊,都是三十多秒到五十多秒之间,包括这个视频的反推也只用了三十多秒啊, 当然这个也是目前我们可能在开元社区能用到的一个绝版啊,大家是且用且珍惜吧,那就是可以去试试这个版本啊。 ok, 那 就给大家分享到这里。

卧槽,千万手机来了。有个兄弟用千万三点五杠二七 b 模型结合英伟达 d g x spark 小 敲算实现了本地操控安卓手机一个豆包手机倒下了,千千万万个千万手机起来了,厉不厉害?留下你的评论。