粉丝824获赞5995


一千亿参数的大模型,不用 gpu, 普通 cpu 就 能跑,而且速度还不慢。这不是 ppt, 是 微软刚开源的 bitnet。 现在玩大模型的痛点是什么? gpu 太贵,云服务太慢,本地部署太难,很多人的电脑连七 b 模型都跑不动。但如果我告诉你,有一种技术可以让一百 b 模型在普通笔记本上流畅运行呢? 这就是 bitnet, 微软研究院的黑科技。它的核心原理很简单,把模型权重从三十二位压缩到一点五八位。传统模型每个参数要三十二个 bit, bitnet 只要一点五八个 bit, 存储量直接砍掉百分之九十五。 实测数据说话,在 r m c p u 上, bitnet 比正常模型快一点三七到五倍,在 x 八六 c p u 上更猛快二点三七到六点一七倍,能耗也大降,最高省电百分之八十二。 最关键的是,一百 b 模型跑起来速度能达到人类阅读的速度,每秒五到七个 token。 tikub 已经二十八 k star, 微软官方维护已经支持 falcon 三、老马三等主流模型。二 b 参数的官方模型已经放出来了,直接下载就能跑。 想在笔记本上跑大模型,试试 bitnet 链接放评论区了,追星不盲从,实测出真知,我是锋芒 a a i 下期见!

有一种技术,可以让一百 b 模型在普通笔记本上流畅运行,这是微软开源的 bitnet 带来的真实突破。当下完大模型的核心痛点, gpu 成本高、云浮雾慢、本地部署难, 不少电脑连五 b 模型都跑不动。而 bitnet 凭借微软研究院的技术,将模型权重从三十二位压缩至一点五八位,存储量直降百分之九十五。实测数据亮眼, arm cpu 上速度比常规模型快一点三七到五倍, x 八六 cpu 快 二点三七到六点一七倍,能耗最高省百分之八十二,推理速度达每秒五到七个 token。 该项目 gitap 已获二十七点七 k 加星标。微软官方维护,适配 falcon、 三拉玛三等主流模型,二 b 参数官方模型可直接下载运行。想体验笔记本跑大模型,地址放评论区了。

微软研究院正式公布, bitnet 系列技术与 bitnet cpp 推理框架的最新突破,彻底打破运行大模型必须高端 gpu 的 铁律,普通笔记本、台式机的 cpu 就 能流畅跑千亿参数大模型,无需独立显卡、无需海量显存, ai 普及的最后一道硬件枷锁被彻底砸碎。 这不是简单的模型压缩,而是从计算架构、训练逻辑到推理引擎的全链路重构。微软让 ai 从云端走向每一台普通设备,端测 ai 的 平民化时代正式到来。 过去五年,大模型从实验室走向大众,却始终绕不开一个核心痛点,硬件门槛高到离谱。传统大语言模型基于普点计算架构,参数以十六位、三十二位普点数存储推理核心是海量普点矩阵乘法, 而 gpu 凭借海量并行计算核心成为浮点运算的最优解,也因此垄断了 ai 算力市场。 想要运行七十亿参数模型,至少需要二十四 gb 显存的高端显卡,千亿参数模型更是需要 gpu 集聚支撑,单台设备根本无法企及。高昂的成本让 ai 变成了富人游戏。一张高端 ai 显卡售价数万元,中小企业部署一套大模型服务,光硬件投入就高达数十万 个人,用户即便想本地运行轻量 ai, 也得被显卡价格劝退。更无奈的是,算力功需失衡,显卡缺货涨价, 让无数想要拥抱 ai 的 中小团队、传统行业被挡在门外。与此同时,绝大多数用户手中的设备都只有普通 cpu、 笔记本的低压酷睿、台式机的入门、瑞龙功控机的老旧处理器,这些无处不在的算力,却因为不擅长浮点运算被排除在 ai 运行体系之外。一边是 gpu 资源稀缺价格高起,一边是海量 cpu 算力闲置浪费, ai 行业陷入了畸形的算力困局。所有人都在等待一个答案, 让 ai 摆脱对 gpu 的 依赖,用最普通的硬件实现最流畅的运行。微软给出了终极答案。 微软此次突破的核心不是对现有模型的修修补补,而是彻底推翻传统计算逻辑,用三净置架构重构 ai 模型,让计算方式完美适配 cpu 的 能力边界。传统 ai 模型用二净置浮点存储参数,每个参数占用十六位甚至三十二位空间, 不仅占用海量内存,计算时还需要复杂的浮点乘法,这正是 gpu 的 强项, cpu 的 短板。而微软 bitnet 技术创新性采用平衡三进制,将模型权重简化为负、一、零加一三种状态,从数学上实现了极致精简, 相比传统十六位浮点数,存储效率提升近十倍,模型体积压缩至原来的十分之一至二十分之一。这一改变直接解决了两大核心难题。第一,内存需求断崖式下跌,二十亿参数的 bitnet 模型仅需零 gb 内存即可运行, 千亿参数模型内存占用也仅十 g p 左右,普通电脑的内存就能轻松承载,彻底告别对高显存 g p u 的 依赖。第二,计算逻辑彻底适配 cpu。 ai 推理最核心的矩阵乘法运算被转化为 cpu 最擅长的整数加减法,无需浮点运算单元, cpu 的 整数计算能力就能完美发挥, 相当于把复杂的高等数学题变成了简单的加减运算,再普通的 cpu 都能轻松应对。更关键的是,微软采用原生 e b 子训练,而非事后压缩。 传统模型压缩是先训练大模型,再强行精简,必然导致性能损失。而 bitnet 从训练之初就基于三进制架构设计,通过全精度预训练、加量化感知、微调加 e b 推理优化三阶段流程, 在精简体积、降低算力需求的同时,性能与同规模全精度模型几乎无差异。实测数据印证了这场革命的威力。在 x 八六架构 cpu 上, bitnet 推理速度提升二到六倍, arm 架构 cpu 上加速比达一到五倍,能耗降低百分之五十五到百分之八十二, 单个 cpu 就 能实现每秒五到七个 token 的 推理,速度完全匹配人类阅读节奏、日常问答、文案创作、代码生成等场景,流畅度丝毫不输 gpu 运行的大模型。 技术突破之外,微软更用开源的姿态让这场革命快速落地。同步推出的 bitnet 点 c p p 推理框架,是专为大模型打造的极简推理引擎,支持 x 八六 arm 全系列 cpu 无缝兼容 llama 点 c p p 生态与 hugenface 模型库,部署门槛低到极致, 无需复杂配置,无需专业知识,普通用户只需三行命令,就能在自己的老旧笔记本、台式机上本地运行千亿参数大模型, 没有显卡、没有高显存、没有云端算力,纯 c p u 驱动 ai 就 在本地运行,数据不离开设备,隐私安全拉满。对于开发者而言, bitnet c p p 提供极致优化的内核 支持,算子融合、混合精度计算,无需重新训练模型,就能将现有大模型适配三进制架构,快速开发端侧 ai 应用。 对于企业而言,无需采购昂贵的 gpu 服务器,利用现有办公设备就能部署本地化 ai 服务,硬件成本降低百分之九十以上, ai 转型零负担。目前, bitnet 二 b、 四 t 模型已在哈根 face 开源, 全球开发者都能免费下载测试、二次开发。从苹果 m 二笔记本,到入门级英特尔酷睿台式机,再到嵌入式功控设备,所有带 cpu 的 设备都能变身 ai 终端。这场无需 gpu 的 ai 革命,带来的不是技术迭代,而是行业格局的彻底重构。 从浮点计算到三进制精简,从 gpu 专属到 cpu 通用,微软的突破,标志着 ai 行业从拼硬件走向拼效率,从云端集中化走向端侧平民化,这不是终点,而是全新的起点。 微软表示,未来将持续优化 bitnet 技术,扩展支持 npu 移动端芯片,进一步提升推理速度与模型性能,让更小的设备、更低的功耗,运行更强大的 ai 模型。 曾经我们以为运行大模型必须高端显卡,曾经我们以为 ai 是 遥不可及的黑科技。如今微软用技术证明, ai 的 终极方向不是堆砌算力,而是普惠众生,不是依赖专用硬件,而是适配所有设备。这场由微软开启的算力革命,正在砸碎 ai 的 硬件枷锁, 一个人人可用、无处不在的普惠 ai 时代正式拉开大幕。对于每一个开发者、每一家企业、每一个普通用户而言,无需等待,无需观望,准备好你的普通电脑,迎接 ai 平民化的全新未来。

近日,微软声称他们已经开发出了迄今为止规模最大的原声一比人工智能模型,并列比一点五八二 b 四 t。 值得注意的是,此次模型的研发人员全是中国人。团队人员之一的马树铭目前就读于北京大学电子工程与计算机科学学院,从事自然语言处理和机器学习方面的研究。论文二座王宏宇 是中国科学院的博士生,现如今在微软亚洲研究院 jna 团队担任研究实习生。微福如作为微软杰出科学家,其团队常年从事基础模型、 自然语言处理、语音处理和多模太人工智能等领域的研究。作为首个具有二十亿参数的变面,该模型在众多基准测试中超过了 mate 的 lome 三点二一 b、 谷歌的 gem 三一 b 和阿里巴巴的酷音二点五一点五 b 等同参数大模型, 运行速度是库银二点五一点五 b 的两倍,内存大小是其六分之一。不少网友对这款模型表达了期待与赞许。目前该模型百分之一百开源,可供在 mit 许可协议下公开使用,感兴趣的小伙伴可以去尝试。

ai 速报局今日速报终结 gpu 霸权,微软比特莱特开源 cpu 能跑百亿参数大模型推理速度狂飙六倍,核心靠一点五八比特三元权重加四位激活量化 x 八六 cpu 加速六点一七倍, a r m 加速五倍,能耗降百分之八十二 二十亿,参数模型仅占零点四 g b, 还能流畅跑朗玛三七零 b, 手机传感器、笔记本等边缘设备直接安装,微软大模型持续发力。