Gemma 4与TurboQuant技术 Gemma 4模型推出多种规格适配手机到工作站 TurboQuant技术大幅降低大语言模型内存占用视频包含技术解析代码演示和实际应用体验

gemma4云服务器配置

1

抢首评

3

分享

举报

发布时间：2026-04-13 10:39

查看AI文稿

AI文稿

过去三年里，许多人相信人工智能越大就越聪明，他们认为参数越多，性能越好， gpu 越强，智能越高。本周，谷歌的开源模型 gemma 四彻底颠覆了这一普遍看法。 gemma 是由 google 发布的一系列开放权重模型。开放等待意味着模型的等待数据可免费获取，任何人都可以在自己的笔记本电脑服务器或云端下载并运行它。虽然 chat gpt 和 gemini advance 只能通过云端使用，但 gemma 最大的优势在于它可以安装并在您的本地环境中直接运行。那么，这一切是怎么突然发生的？因为谷歌新宣布的 turbo quant 是一项能显著降低大规模语言模型内存消耗的技术，据说它将内存效率降低至六分之一，这有潜力显著降低人工智能的运营成本。而且，我认为许多人希望本地大语言模型终于能变得更清亮。过去无法运行的超大模型，现在甚至能在家庭显卡上轻松运行。当大型语言模型生成文本时，它会使用一种称为键值缓存的工作记忆来存储过去已计算过的 token 的信息。没有这个，每次生成新 token 时都不得不从头重新计算。问题在于，随着上下文的增长， kv 缓存的大小呈限性增加。在处理长对话或长文档时，消耗 gpu 显存的是这个 kv 缓存，而非模型权重。总之， turboqant 并非能显著降低本地大型语言模型整体权重的魔法咒语，其本质在于对执行过程中扩展的内存进行强力压缩，主要体现在 kv 缓存中。所以让我快速演示一下实时聊天机器人，向大家展示它是如何工作的。我将上传一张包含资产和负债的图片。你可以以任何格式上传图像直接显示。如果你观察智能体如何生成输出，会发现他将文件保存到字盘上的临时位置。文件以随机名称保存，但保留了正确的扩展名，以便正确识别格式。如果输入是 pdf，每页都会使用 poplite 中的 pdf 转 portable pixma 工具转换为 png 图像。这一步是必要的，因为视觉模型只接受图像页面，以配置的每英寸点数渲染通常为三百。更高的 dpi 能提高精度，但也会增加处理时间和文件大小。如果您选择了页码范围，只有那些页面会被处理。图像会被临时存储，随后清理。接下来，所有图像都会检查尺寸。如果图像尺寸超过最大维度默认值为一五三六像素，它将使用高质量 lensos 滤镜按比例调整大小。这既保持了处理速度，又保留了足够的细节，以确保文字识别准确无误。如果文档类型设置为自动，智能体会快速对图像进行分类，例如普通表格，手写或扫描件。这有助于他选择最佳的 ocr 提示词。如果你手动选择类型，此步骤将被跳过，随后图像被编码，并于选定的提示词一同发送至本地的 olma api。该请求使用了流逝传输，因此文本会随着生成的推进逐段返回。智能体将这些片段收集为最终结果，同时跟踪原数据，如令牌数量和耗时。最后根据所选的输出类型对结果进行格式化，纯文本合并所有内容。 markdown 增加结构， jsn 保留所有原数据。这段代码将在我的 paypal 平台上发布，因为我为此投入了大量时间和精力。如果你喜欢我创作的内容，并希望看到更多类似项目，在配置栏上支持我，将帮助我持续制作高质量内容。您的支持我将不胜感激。 g m 四有四种尺寸， e 二 b， e 四 b 二十六 b a 四 b 和三十一 b。小型模型专为智能手机和边缘设备设计，大型模型则面向本地 pc 和工作站。此外，它支持长达二五六零零零 token 的长上下文长度，并能处理超过一百四十种语言，较小版本为一百二十八 kb，较大版本为两百五十六 kb，使其非常适合分享整个代码库或长篇设计文档。其功能也高度面向实用。它原声支持函数调用，即用于调用外部工具和 api 的机制，并且默认也支持系统角色。所有模型都能处理文本和图片。小型模型原声支持语音，换句话说，它是从底层设计的，不仅用于聊天，更是作为连接搜索、执行格式化和决策的智能体的基础。不仅聪明，而且易于融入工作流，我相信这就是 jama 四的精髓所在。虽然模型本身的智能很重要，但真正能在实战中起作用的有三点，阅读长文的能力、调用工具的能力以及本地运行的能力。我想在这里采明的是，它不能让模型本身变得更清亮这一事实绝不意味着其价值很低。相反，在本地 l l m 的实际运行中， k v 缓存才是后期变得更为关键的因素，因此减轻其负债带来的益处相当显著。根据谷歌研究， turboqant 只在以极低的卫星实现压缩。对于 kv 缓存量化，它在每通道三点五比特时达到绝对的质量中性，即使在二点五比特时也仅有微小的质量下降。粗略地说，这个数字意味着用于上下文保留的内存可以被显著减少。尽管如此，质量下降的可能性仍被控制在最低限度。如果 turboqant 被实施并在本地大模型中普及，我们可以期待以下变化，使长文本处理变得更加容易，这有可能让处理掌上下文变得更轻松。适用于长文本摘要、代码库分析、文档输入和 r a g 等任务。由于 kv 缓存随续列长度增加，对其进行压缩将使长文本操作更加可行，即使使用相同的 gpu 维持性能也变得更加容易。这将缓解短文本表现良好，但长文本突然变得困难的情况。这一改进对于拥有约十六 gb 显存的显卡尤为重要，因为即使模型本身能够加载，它们在处理长文本时仍常常遇到困难，这与 kv 缓存压缩研究的总体趋势一致。该研究指出，内存减少能带来吞吐量和批处理规模的提升。在需要处理长对话、多任务、 r a g 和代码辅助的应用中，针对多次执行和基于智能体的操作而言， kv 缓存往往比模型本身更具阻碍性，因此，优化这一方面极具价值。一定要一直看到视频的结尾。如果你还没关注我，我强烈建议你关注一下，这样就能随时掌握最新的人工智能资讯。最后，别忘了订阅开启通知铃铛，点赞这条视频并查看往期内容，因为其中有很多对你大有裨益的内容。那么让我们继续回到视频中。所以我写了一个函数，它能读取用户输入的字母串，比如一和五或者一、三、七和十。然后把它转成一个干净的页码列表。它按逗号分割字母串，因此一、三、七和十变成更小的片段。每个块都会检查是否有连字母。如果存在连字母，就将其视为范围，并填充起始数字与结束数字之间的所有数字。如果没有连字母，它就只取那个单个数字。他在构建列表时使用集合，因此像一、三和二这样的重复项会被自动移除。最后，他将所有内容转换为排序后的列表，因此页面始终按顺序返回。然后，我写了一个函数，把 pdf 转成 png 图片，这样 jama 四就能读取它们了。他首先检查是否安装了 pdf 转 ppm 工具，如果不是，他会打印安装提示并退出。然后他设置一个输出路径，让图片命名为配置减一，配置减二等。他指，如果用户选择了特定页面，他会对每个页面运行一次 pdf 转 ppm，否则他会针对整个 pdf 运行一次 dashr 标志设置图像质量转换后，他会抓取文件中的所有图片排序，并在未找到时退出。辅助程序提取页码，读取文件名，去除扩展名，抓取数字，并将其转换为整数，以便应用知道每张图像来自哪一页。接下来，我创建一个函数来决定如何处理任意文件。他启动计时器，检查文件类型，然后走两条路径中的一条。对于图像，他在单个图像上运行 ocr，并将结果封装在包含文件信息、时间戳、模型名称和页面列表的字典中。对于 pdf，它会创建一个临时文件夹，用 pdf to images 将页面转换为 png。对每张图像执行 ocr，收集结果并构建相同的字典。临时文件夹会被自动删除。如果文件既不是图像也不是 pdf，它会打印错误信息并退出。无论哪种情况，该函数始终返回相同的字典格式。因此，智能题以相同的方式处理图像和 pdf。接下来，我让这三个函数都将结果字典转换为可读字母串，只是采用不同的风格。 format a， c， j， s， o n 是最简单的，它将完整的字典以美观缩进的 j s o n 形式导出，保留所有字段，如时间戳和令牌技术。 format a markdown 结构更清晰。它将输入归一化为列表，添加包含文件名、模型、页码和时间的表头，然后便利每一页加入规则页面标题，隐藏的 html 注置以及文本。 format text 是最精简的一个，它标准化输入，若存在多个文档，则仅添加文件名分格符。随后几乎不做额外格式化的直接输出原始文本。在底部，格式化器将 json， markdown 或文本映射到相应的函数，以便智能体能在一步内选出正确的格式化器。 jama 四最重要的并不是那个，还有一款顶级旗舰机型。我认为真正的问题在于过去完全依赖云端的人工智能开发，正转向云端与本地计算的混合模式，重型推理和最终决策在云端完成，而日常支持和内部数据处理则在本地进行。另一方面， turboqant 是一项有望大幅提升人工智能性能与效率的技术，预计未来将吸引更多关注。它尚未面向普通用户提供，但这是一项将影响人工智能未来的重要技术，值得密切关注。

声译看世界

粉丝1.7万获赞11.1万

相关视频

06:28
16GB版mackbook部署实测Gemma4 E4B多模态，接入龙虾（附傻瓜式部署）
本视频主要测试了Gemma4 E4B LiteRT (3.6G大小)这个模型的文本、音频和视频理解能力。mac用户强烈推荐使用omlx傻瓜式部署本地模型！#ai #gemma4 #ai新星计划 #本地部署
查看AI文稿
AI文稿
手机都能跑大模型了？谷歌最近发布了 jam 四，一次放出四个模型，从手机到服务器全覆盖。我甚至在谷歌 lrt 上发现了只有二点五 g 和三点六 g 的量化版本，这也算是让大模型走进千家万户了。我在自己十六 g m 四芯片的 macbook 上部署了 jam 四 e 四 b 的两个量化版本，还顺手接了一下小龙虾。在看测试之前，我们先快速看一下这次 jam 四到底有多离谱。先看这张图，横轴是模型参数大小，纵轴是模型打分。 jam 四三十亿币的分数和将近四千亿参数的千万三点五基本持平，但它只有三百一十亿的参数分数一样，参数量少了十倍，让步数成本极大的降低。这还没完， jam 四还支持原声读模态，这意味着模型是真的在看图，在听声音，而不是通过编码器翻译之后再送给他模型。关键这个模型还是真开源的，它的许可证书是阿帕奇二点零，这意味着你可以修改它，可以商用，甚至可以改完币源再卖钱。那接下来咱们就来看看量化版本的 jamma e 四 b 到底怎么样。这个 jamma 四 e 四 b lite r t 版本的模型需要用到谷歌 lite r t l m 的开源推理框架，它是谷歌专门用于在边缘设备，比如手机、笔记本上部署大模型的推理框架，它支持音频和视觉推理，不过它没有图形界面，所以我这里就临时手搓了一个页面用于测试。这看着可能有点丑，呃，稍微忍一忍就好了。我们这先来给他一个经典问题，我想去洗车店洗车，我家距离洗车店三十米，我该开车去还是走路去？ ok，我们直接发送给他。很明显他这里关注错了重点，没有注意到前面的前提，一本正经的比较了开车和走路的优点缺点，我们看一下他的模型速度怎么样。这次提问，他的首个 token 的返回时间是一秒钟，相对来说还是比较快的。然后我们再来看他的输出速度，大概是十七个 token 每秒钟，这个速度来说就不是很快了，那整体的耗时呢？也是回到了四十五秒钟。接下来我们开启一下推理模式，再问一遍这个问题。呃，很遗憾他还是没能答对。我们从他的思考过程中就可以看到，他一开始把目标就定错了，他没有真正识别出来问题的目的，所以他就在错误的路上越推越远。我们再来测试一下图片识别的功能，这是我之前做的一个封面，让他分析一下这张图片，我们来看一下结果。他可以识别出这个图片的风格和构图，以及他设计的一些角色和文本以及图标，说这里沙尘暴的背景以及角色的穿着和打扮，甚至他的神态都读到了。呃，只不过唯一的缺点是他没有把背后的这个龙虾形象和这个龙虾的文字联系在一起，他认为他是螃蟹。然后还有就是他把这个识别成了一个营销海报，而不是一个视频封面，而这也可能是我做的有问题，我们再做一下视频测试，我这是从上期视频中截取的十五秒的一个片段，里面就是讲了大模型调用工具的过程，我们让他分析一下这个视频，他这个模型的视频识别主要是把视频拆成图片序列和音频轨道来去理解视频，我们看到他已经返回了，结果这里他的总耗时确实有点长，这一个十五秒的视频，他的总耗时大概是两百零七秒，他个首个头肯的输出时间大概是第三十四秒的时候才返回，那因为开启了推理过程，他的推理过程是没有被计算在输出速度里的，他已经到这个三头肯每秒的速度。我们看一下他的结果，他的这个视频分析结果还是很可以的，他精准的读到了我这段视频的意思，他的整个流程是完全正确的，甚至他还进行了关键技术点的分析。我这条视频并没有明确说他是一个代理性的行为，但是大魔性还是识别到了他这个潜在的含义。通过他的知识回答的这个，下面我们再测一下他的音频功能，这个模型支持的音频上线是三十秒，这里我截取了一段二十八秒的音频，让他提取音频内容，并且翻译成英文，我们来看一下，结果他很好的识别了原文，并且翻译成了英文。唯一有个小瑕疵，这里的基本正确，我的原文应该是一本正经，然后它的总耗时时间相对来说也是有点久，大概耗费了一百三十二秒。这个模型的上下文窗口会比较小，它的上下文窗口是三十二 k。做一些简单的问答应该还是可以的。如果大家想简单部署本地模型，苹果 m 系列芯片的电脑可以用 o m l x 来傻瓜式部署模型，这个推理引擎专门为 mac 做了优化，用起来也很简单，在下面安装，这里点击发布，然后到下面下载你系统对应的安装包就可以了。下载好后打开安装器，然后这么一拖就完事了。第一次打开会有这样一个界面，主要配置两个，一个是 port 端口号，如果要通过 opencloud 或者其他 agent 调用本地模型，都需要访问这个端口号。下面的 apikey 就是调用时的密钥，保存之后就会来到这个面板，我们点击上面的模型选项卡，选择下载器，然后搜索杰玛四，那这里就可以很方便的下载模型，下载的时候可以选择 m l x community 前缀的模型去下载，根据你电脑的配置选择就可以了。在设置这里我们可以直接加载模型，我们就可以在聊天选项卡里使用模型了，比如随便问他点什么，这样你就完成了模型的本地部署。那如果我们想让 openclaw 使用 o m l x 部署的本地模型，可以在 openclaw 的模型配置中加上这么一段。这里的端口号和 apikey 就是你之前在 o m l x 里设置的，给 openclaw 发条信息试试。那我们在这里就可以看到我们的一个请求已经进来了，像我这样一个你好，只是两个字，它就要加载四万多的 toc，因为 open class 会在上下文中塞很多信息，比如核心 md 文件、 skill 你的记忆以及其他的一些东西，这些都会占用 toc。在我目前这个电脑上想通过本地部署使用小龙虾还是有点费劲的，一个是它的预装填速度比较慢，还有就是它的 token 稍微异常，这里就要报错了，如果大家有更好的设备，可以本地部署玩一玩，最后别忘了一键三连。
29鹤之Neo
11:59
外网博主用 Ollama 在macbook上测试了gemma4的四个型号，说实话......有些结果我完全没预料到。没有云。没有 API 密钥。只是你的 Mac 在做重活。Mac 配置：M3 Max，36GB 统一内存。#ollama #openai #ollama #gemma4
18薯条不沾茄酱
09:08
树莓派5上运行Gemma 4：令人惊讶的可用本地人工智能设置
本视频展示了在树莓派5单板计算机上运行Google的Gemma 4语言模型的过程。该设置仅使用8GB内存，无需云服务或强大GPU。视频内容包括安装LM Studio CLI、设置SSD存储、加载Gemma 4 E2B模型、启用本地网络访问，以及将模型连接到Zed编辑器。最后进行了Python编码性能测试和创意任务测试，评估了该本地AI设置的实际可用性。
#树莓派5 #Gemma模型 #本地部署 #语言模型 #AI编程
5linux5454
01:26
谷歌新开源模型Gemma4到底怎么样 #gemma4 #谷歌 #gemini #开源 #AI网友小卡
查看AI文稿
AI文稿
谷歌这次可是真的放大招了，谷歌刚发布了一个开源 ai 模型，数学成绩直接暴涨了四倍，而且最炸的是他能在你手机上跑！先说数字 jam 四，在全美数学邀请赛的测试里，上一代得了二十点八分，这一代直接干到八十九点二分，编程能力的 e l o 分数从一百一十飙到两千一百五十，相当于从业余选手变成了专业竞赛程序员。他一共出了四款，最小的那个只有二点三 b，参数比很多手机 ipad 小，支持离线语音输入，数据完全不上传。最大的三十一 b 版本在全球开源模型排行榜上排到了第三，而且整个系列都是 ipad 二点零协议，免费可商用，可修改，没有任何限制。但这个模型也有两个问题你要知道，第一，发布九十分钟后就被越狱了，安全过滤非常弱，生产环境要谨慎。第二，推理速度比阿里的困三点五慢了将近五倍，实时对话体验差距很明显。另外，谷歌还被社区发现，把一个能加速推理的功能偷偷从开源版本里删掉了，只留给自家产品用。想试的话非常简单，装好欧拉玛，一行命令就能跑。没有好显卡的话，直接去 google ai studio，免费 api，直接用，不用下载任何东西。开源和付费 ai 的差距正在快速消失。詹姆四在好几个测试上已经超过了 gpt 四 o 和 cloud。关注我，下期继续看开源 ai 还能捡到哪里。
16AI网友小卡
09:12
本地AI迎来转折点手机也能运行Gemm 谷歌最新Gemma 4模型现可在MacBook甚至手机上离线运行性能接近一年前的前沿模型视频实测其在编程任务中的表现探讨本地AI为何突然变得不容忽视
查看AI文稿
AI文稿
就在几个月前，本地人工智能模型还是个笑话。大型实验室将掌控我们的数据，决定我们能获得多少算力。 gpu 将成为新的货币，而我们所有人都会被推向永久的底层阶级。那感觉不对。你可以看到这些实验室实际上拥有多大的权力，他们可以在一夜之间切断你的云访问权限。他们可以决定对大众封锁其最佳模型，只将其发布给少数人。这类模型的能力可能造成危害，因此我们不会广泛发布这个模型。所以人工智能实验室越来越强大，却掌控了我们太多的数据，确实感觉不太好，因为当时根本没有真正可用的本地模型。但在二零二六年初，随着困三点五的发布，某种转变开始了。这是首个能在本地电脑上较为可行的运行并实现类桑奈智能水平的本地模型。大约八十 gb 的内存就能让你在本地运行一个不错的模型。问题在于硬件，不过说实话，价格并不贵。花五千到十 k 你就能买一台配置不错的 max studio 并运行这个模型。但仍有许多人觉得这说不通，而那些买了这些强力机器的人却不被当回事。比如 alex finn 花了二十 k 买了台 max studio，说这就是未来。人们却嘲笑他，说他疯了，说他错了。而且说真的，我也没搞懂他的理由。当然，你可以花两万美元买台 max studio，但你跑出来的模型离 gpt 五点四或 opps 四点六还差得远呢。事实上，情况比 gemini 三 flash 还要糟糕一点。然而，直到一周前，谷歌向我们展示了未来的真实模样，他们推出了 gemma，这东西能在你的笔记本电脑上运行，甚至还能在手机上一跑。有史以来第一次，你能够在普通电脑上运行一个真正聪明的本地模型。谷歌基本上送了我们一款免费模型，它能在 macbook 上运行，其智能水平相当于一年前的最先进模型 oppo 四四。如果你想试试，谷哥发布了一款名为 google 人工智能 h gallery 的应用程序，把它安装到任何近期的 iphone 或 android 设备上试试看。你可以和在本机运行的扎马四聊天。总之，简而言之，我们已从需要数十万美元的硬件设备转变为如今能直接在笔记本电脑里运行这些应用。于是，我把新的 jama 四放在 open code， openclaw 和 py coding 智能体中，在我的 macbook 上进行测试。我想分享一下我发现的内容。不过，首先让我们快速看一下 jama 四的规格，看看它如何与竞争对手抗衡。这张图将其与其他开放权重模型进行了对比。根据尔瑞纳人工智能的说法，他基本上比大多数开源权重模型更聪明。尽管其他模型体积大得多，并且需要昂贵的多的硬件才能运行，比如高端 gpu 级群，但我认为这张图标有点误导人，并且过度承诺了价值。这个模型确实不错，但如果你看人工分析指数，那些更重的开源权重模型仍然明显领先。所以我做了一个表格，更现实的总结了我们要了解的一切。然后我会展示如何在本地上运行这个模型。在最顶端，当前的最先进模型是 g p t 五点四和 opps 四点六，位于约五十五个人工智能核心处。这两者都不是开源权重模型，也无法在本地运行。接着是最强大的开源权重模型 glm 五和 quan 三点五，它们在原始智能方面其实差距不大，问题是要运行它们最大的版本，你得在硬件上砸下数万美元，所以对大多数人来说真的不可行。然后是 jam 四，你可以在 macbook 上运行它具体取决于你选择的版本。 jam 四有多种尺寸版本，小型版本可在 iphone 上运行，中等版本在配备三十四到四十八 gb 内存的 macbook 上能舒适运行，而最聪明的版本则需要更大的设备，大概是一台五 k 系列的 macbook。现在为了安装任何本地模型，比如这里的占八四主要有两个选项，奥拉玛或 lm studio。当然还有其他选项，但这两个是主要的。在这种情况下，我将使用奥拉玛，我就去网站复制安装命令，粘贴到终端里，然后让安装完成。使用奥拉玛，你可以下载并运行几乎任何本地模型。如果你搜索占八四，你会发现有好几种不同的选项可供选择。前三个是样式专为手机设计的，体积范围大约在十 g 字节左右，最高需二十 gb 内存。我的笔记本是配备二十四 gb 内存的 macbook m 四 pro，所以为了测试提升效果，我决定从小出着手。你运行 alama pro jama 四 latest 是那个十 gb 的版本，一旦安装完成，就可以打开 alama，直接和模型聊天了。这就是我们第一次运行 jama 四。现在进入真正的测试环节，我先下载了 open code，这是一个代码执行框架，你可以把它理解为 codex 或者 cloud code。我安装了它，启动了它，并给模型分配了一些编码任务。不幸的是，我很快意识到 open code 在运行 gem 四时还不够稳定，思考经常被打断，工具调用也不正确。围绕本地模型的整体生态仍然相当粗糙。 tiktok 上还有公开的问题证实了我所看到的情况，所以我转到了 py decoding agent。这是一个极简的代码编排工具，在此类似于 cloud code，但你自由决定使用哪个模型。对于 pi，我实际上尝试使用了更大版本的 demo 四，即拥有十八 g b 内存和两百六十亿参数的专家混合模型。理论上，它应该能在我那台配备二十四 g b r a m 的 macbook 上运行，但他没做到，我的 macbook 运行起来真的很吃力。我觉得对于更大的模型，你至少需要三十二 g 的 ram，所以小版本是我唯一能舒适的在本地运行的那个。不过正如你稍后所见，我最终还是找到了运行最大模型的方法，所以我启动了 p i，使用小版本的 jam 四，让它构建一个紧字器游戏。令我惊讶的是， jam 四和 pad 的组合非常棒，比 open code 顺畅得多，而且速度真的很快。你在屏幕上看到的就是结果，效果非常好，设计简洁，逻辑也跑通了。而且记住，这是一个能跑在手机上的小模型，还能写出可运行的代码。但我的探索尚未结束。接下来，我将较小的 jama 四模型连接到 openclaw，这基本上让我能免费使用 openclaw，并开始进行实验。它是个小模型，但我仍能用它做点事，比如询问保加利亚索菲亚的天气情况。这需要模型调用网络搜索工具。结果很成功，真酷！随后，我测试了视觉能力。 zuma 能够分析图像效果非常好。这是个好消息，因为这是一项非常消耗令牌的任务，因此你可以将此类任务委托给本地模型，从而在使用 open class 节省大量成本。展望未来，我能看到一种高效混合架构前沿模型，用于大量智能需求场景，本地模型则处理简单任务。最后，我决心尝试最强大的 gmo 模型，并在真实应用场景中测试它。我去 runpot 租了一块现存大约八十 gb 的 gpu，这应该足以运行最大的 gmo 模型。经过一些配置和设置后，我将 macbook 连接到远程 gpu，以便能在笔记本电脑上使用该模型。然后，我重新启动了 p 编码智能体。根据我之前的测试，这是运行 jm 最可靠的方式，也打开了我的 youtube copilot 的应用。这是我为自己制作的缩略图工具，不算大项目，但也绝非小事。目前它的 ui 是用 gpt 五点四构建的，所以看起来真的很丑。所以我让 jama 把它变得美些。看着模型一步步推演问题，真的很酷。他正在正确分析 ui，提出切实可行的建议。构思深思熟虑的改进方案并阅读代码。但当他试图向 jama 发送过多上下文时，就会出问题。也许是远程连接出了问题，也许是 runpod，也许是 p 编码智能体，也可能是 gemma 本身。我无法找出这些错误的准确原因来自编码智能体服务器和 gemma 的错误。日制看起来都正常，但工作流还不够顺畅，他没法正常工作，所以我放弃了那个大型编码任务，等待生态系统的完善并修复那些漏洞。最后，我又让最大的詹马斯模型构建了一个井字棋游戏，你现在屏幕上看到的正是结果。他比小模型看起来更好，动画也很棒，整体看着很舒服。所以基于我做的所有实验和研究，这是我的心得，并结合了谷歌推出的新效率算法，如 turbocharged。我想很快我们拥有的将不只是玩具，而是能运行在我们设备上的超智能模型。不过，我认为詹姆斯并没有宣传的那么强。谷歌发布的这份图标感觉非常一片概全。我认为人工分析指数更接近真相，基本上达到了 oppo 的四级别的智能在本地运行，真正有能力的程序仍需一台不错的机器，但硬件正在快速追赶并变得越来越便宜。生态还不成熟，工具链集成和配套都还很粗糙，充满漏洞，明显处于早期阶段。但我预计生态会在接下来的几个月里大幅跟上。总体而言，我认为我们正走向一个混合的未来，部分工作将在本地运行，部分工作则在云端运行。总之，我已经分享了让这些模型跑起来所采取的每一步。如果你有更强的机器并做过一些测试，我很想在评论区听听你的经历。所以，如果你对自己的本地人工智能设置满意，或者发现了很棒的使用场景，请在评论区留言告诉我，告诉我，我很想学习。非常感谢观看，我们下次再见。
7声译看世界
00:22
大家本地的gemma-4速度多少？我本地64g的mac studio跑gemma-4-31b的4bit量化的版本，速度太慢！
查看AI文稿
AI文稿
这个什么谷歌的机密啊？三三十 e b 的，我靠生存速度才八点八 t，最开始第一次生存才四点四 t，肯定不怎么玩。我这是六十四 g b 的 max 六 d，我靠，这速度这么慢怎么用呢？
88麦汁服务器
05:28
"树莓派就能跑AI大模型？谷歌Gemma 4让边缘计算零成本还在为AI大模型的高成本发愁吗？谷歌刚刚发布的Gemma 4，用31亿参数击败620亿对手！这不仅仅是技术突破，更是AI行业的价值回归。手机端到服务器端全场景覆盖，Apache 2.0开源许可证彻底消除企业顾虑。三分钟带你全面掌握Gemma 4的核心功能、应用场景和硬件配置，小而美的AI效率革命已经到来！
#AI大模型 #开源AI #谷歌Gemma4 #边缘计算 #手机AI
查看AI文稿
AI文稿
gemma 四让企业 ai 部署零顾虑，手机端到服务器全打通！大家好，欢迎来到 ai 科普社，今天深度拆解谷歌 gemma 四开源大模型系列，从核心功能、模型规格、应用场景到硬件需求，帮你选对型号，轻松上手。 gemma 四深度解析，从核心功能、应用场景、硬件需求三个维度建立完整认知框架。 gemma 四是谷歌二零二六年四月发布的开源大模型系列许可证的拍曲二点零，企业可零顾虑，商用修改分发集成，谷歌战略转向效率优先，端云协调生态开放。了解了 gemma 四的定位，那它有哪些技术突破呢？接下来深入拆解它的四大核心突破，三十一亿胜六百二十亿，全场景覆盖 app 二、零开源原生 agent 降门槛四大突破一、三十一亿参数，击败六百二十亿对手小二十倍更强，打破参数迷信。二、全场景覆盖，从二 b 到三，一 b 覆盖手机到服务器所有硬件。三、 ipad 二点零开源，消除企业数据隐私和安全顾虑。四、原生 agent 支持内置函数调用，降低开发门槛，核心竞争力，效率高，覆盖广、商用易，开发简。掌握了这些突破，你可能想问优势具体落地到哪些型号？下面详细看看。四款主力模型，一、二 b 边缘音频专家支持离线语音识别翻译树莓派可跑量化后三点二千兆内存。一、四 b 移动于笔记本主力量化后五千兆内存，十二千兆手机流畅。二、六 b mode 混合专家模型，用四 b 速度实现两百六十字节质量驱 r t x 三零九零四零九零二十四千兆显存。三、一 b d s 企业旗舰三百一十亿参数全激活，需 i 七零零或服务器集群选定了型号，你可能会好奇背后的核心技术是什么？接下来深入技术底层，混合注意力处理长文本内存降低百分之六十，训练速度提升两倍。原生 agents 内置智能体，工作流输出结构化 jason 调用外部工具，多模态视觉、可变分辨率音频离线识别翻译文本支持三十五加语言思考、模式展示、推理步骤决策透明，便于教学。技术最终要服务于应用。掌握了核心技术， jam 四，能解决哪些具体问题？看看典型应用案例端测 ai 手机离线、语音助手、相册管理、文档处理、教育辅导、边缘计算、工业质检、安防监控、医疗影像分析、开发者工具 vs code 代码补全调试奥拉玛本地部署企业级智能客服，年成本两千五百美元，准确率百分之九十一。文档问答五百页，三分钟分析看到这么多应用，你可能想上手尝试，但先别急，需要了解硬件具体要求，下面这份硬件配置指南，帮你避免踩坑。量化技术，降低门槛，消费级显卡可跑 e r b。树莓派五或八千兆手机 q 四下画线零约三点二千兆一四 b 八千兆笔记本或十二千兆手机 q 四下画线零约五千兆二六 b m o r t x 三零九零四千零九十 q 四 k m 约十六到十八千兆三 e b dance i 七零零 q 四 k m 约十七到二十千兆建议个人和中小团队从一四 b 或二六 b mode 量化版开始， r t x 三零六零四零六零即可。硬件准备就绪后，下一步是实际的部署和优化，不同的工具有不同的适用场景。下面介绍三大主流部署方式。奥拉玛，新手友好一键启动拉玛 c p p 极致性能，树莓派可跑 vr l m 高吞吐，适合企业 e p i 优化技巧，调整 u b i 参数匹配图像 token 分层卸载平衡 g p u c p u 动态量化，按需切换精度批处理提升吞吐量。部署过程中可能会遇到技术难点，比如视觉处理功耗和数据安全等，不用担心，下面整理常见问题及解决方案。一、视觉编码器图像 token 需一次性加载，设 u b 二零四八 r t x 四零九零可处理。二、工号散热芯片优化工号降百分之五十动态频率调节。三、数据安全私有化部署，数据不出内网加密传输权限审计解决了眼前的问题，不妨把眼光放长远。詹玛四代表了什么技术趋势？未来 ai 会向哪个方向发展？看看三大趋势，边缘 ai 普及，终端设备直接跑大模型，离线应用更私密及时垂直定制，企业用自有数据微调打造行业专家模型，人机融合 ai 城外挂大脑辅助决策整理知识激发创意，了解了未来趋势，最终要回到当下的选择，面对这么多型号和方案，如何根据自身需求做出最合适的选型？最后总结实用选型建议用户 e 四 b 量化版手机平板体验开发者二六 bmo rtx 三零九零四零九零智能体开发中小企业二六 bmo，性价比高自建服务器大企业三 e b dance 四、有云部署专业训练原则，小规模验证逐步扩展，重视数据安全，敏感数据本地部署 gemma 四推动 ai 谱绘画。希望帮你用好这个工具。感谢观看，下期再见。
6AI科普社
01:32
的 Gemma 4，在试图改变世界#这是个真实的事情 #说真话 #Ai
查看AI文稿
AI文稿
一件事正在悄悄发生改变， ai 开始不需要联网了。过去两年，你所用的 ai 全在 g b d k 米。有一个共同点，你的数据要先上传到别人的服务器才能得到回答。谷歌上周发布机密四在试图改变这个件事。它是一系列开源模型，最小的版本，量化后大约六个 g b 内存就能跑，普通笔记本电脑就能用，能看图，能处理文档，能做多，能做多步骤推理全程在你自己的设备上运行，数据不会经过任何服务器。这意味着什么？你把一份合同发给他，分析内容不会出现在任何公司的数据库里。你在没有网络地方，他照样能用。你不需要每个月支付订阅费用，部署也不复杂，一个工具就能支持装安装，装好之后一行命令它就能跑起来，不需要懂编程。更值得关注的是，授权变化，从之前的限制颇多的自定义协商换成了 patent 二点零商用。没有任何版本，也就意味着任何人都可以拿它做产品、做服务，不用担心有法律风险。高通在推 aipc，苹果在高通在推 aipc。谷歌现在在用开源模型，走了另一条路，不靠硬件绑定，让任何设备都能离线跑强 ai。 ai 不再是云端的专属服务。这个改变正在发泄，只是大多数人还没有再注意到。你现在用 ai 最担心的是数据泄露，还是说用不起呢？
2小星讲财经
00:44
别再乱买服务器了！4核8G腾讯云代理价！官网直降，还带发票#云服务器 #云服务器推荐 #云服务器配置
查看AI文稿
AI文稿
一个四核八 g 的云服务器到手之后能干什么？四核八 g 算是服务器中配置比较高的了，用它搭建官网小程序或者部署电商后台，几百人同时访问，都不用担心它卡顿。也可以做开发或者测试，不管是搭建测试环境还是运行代码部署项目，就算多任务同时操作，都可以丝滑流畅，不用担心卡着等进度。游戏党呢，可以开个传奇或者梦幻西游，和朋友联机开黑不卡顿。重点来了，这款腾讯云四核八 g 服务器，元旦特惠，比官网价格便宜，还有正规发票，还送免费技术支持，如果你有需要，欢迎来私！
50腾讯云服务
06:11
Gemma4谷歌AI装进你的设备 Gemma 4 是 Google DeepMind 推出的最新开源大语言模型，基于 Gemini 3 研究成果打造，
在有限参数下实现了前所未有的智能水平。本期介绍如何在各类设备上本地部署 Gemma 4
查看AI文稿
AI文稿
哈喽，大家好啊，哎，你想过没有，把谷歌最新最强的那个 ai 模型，就是 gmail 直接塞进你自己的电脑，甚至是手机里，听起来是不是特带劲？今天啊，咱们就来聊聊怎么一步步把它搞定。你想象一下那个场景啊，完全不用联网，也不用管什么云端服务器，一个顶尖的 ai，就那么安静静的待在你的设备里，随时听你插钱，怎么样？光是这么想想，是不是就觉得，哇，太酷了？你没听错，这可不是什么科幻电影里的情节了，这事现在真的能办到，今天咱们这个指南就是要把打开这个宝箱的钥匙直接交到你手上，看完之后啊，你不仅会知道该挑哪个模型，还能自己动手，让它真正在你的设备上跑起来。好，那咱们第一步干嘛呢？当然是先来认识一下 jam 四这个家族。没错，它可不是孤零零一个模型，它是一整个家族里桌的每个成员呢，那都是有自己的看家本领的。来，咱们看看这张表啊，奸骂家族的成员呢，都在这了。你看这个参数量，你就可以简单的把它理解成是模型的脑容量，比如说这个三百一十亿参数的就是个大家伙，脑容量最大嘛，那肯定得放在 server 上干点重活。再看这个二十亿参数的小家伙，他就特别小巧，就是专门为咱们的手机这种移动设备量身定制的。所以你看，第一步的关键就来了，先瞅瞅你自己的设备是啥，然后呢，就从这里头给他找个最合身的尺寸。嗯，你现在心里可能在打鼓，这些模型都能在自己电脑上跑了，那性能是不是得打个大大的折扣啊？我跟你说，恰恰相反，他们的表现绝对会让你惊掉下巴。要我说啊，这张性能对比表绝对是今天最震撼的地方。咱们就挑几个关键数据来看啊，不管是多语言理解，做数学题，还是可以说是全方位的碾压了上一代。最夸张的是什么呢？你瞅瞅这个 aimee 数学测试，我的天，四十亿参数的 gemma four 得分居然比上一代那个二百七十亿参数的模型高出两倍还不止！这就很清楚了，谷歌在模型效率上真的是搞出了一个惊人的大突破。好了，看完了这惊人的成绩单，咱们也该卷起袖子，真刀真枪地干起来了。咱们先从最常见的桌面系统开始，看看怎么把 demo 四给装上去。如果你一看到代码和命令行就头大，就想图个省事，那听我的， l m studio 绝对是你的不二之选。你就把它想成一个 ai 模型的应用商店，他把所有那些麻烦的技术细节全都给你打包成了一个漂漂亮亮的礼品盒儿，直接送到你手边。你看，整个过程就这么简单，三步，第一，下载软件。第二，在里面搜 jamaf。第三，下载模型。哎，不过这第三步有个关键的小技巧，你一定要选那种后面带着 q four k m 这种标记的，这叫量化版本。这是啥意思呢？其实啊，你就可以把它理解成一个智能压缩包，它能做到在几乎不影响模型聪明材质的前提下，把占用的内存给大大的减小。这么一来，模型在你的电脑上跑起来那可就又快又稳了。好电脑搞定了，咱们再把目光转向一个更有挑战性的平台，没错，就是你的手机。 jam 四那些小尺寸的模型可以说就是为了在移动设备上大显身手而生的。在手机上呢，咱们同样有好东西可选。首先，不管你用的是安卓还是苹果，都可以先试试 m c chat 这个 app，它就跟电脑上的 lm studio 一样方便，绝对是大多数人上手的首选。当然了，如果你是个追求极致性能的发烧友，那安卓用户可以去研究一下谷歌自家的 ai h 工具。而苹果用户呢，只要利用好系统自带的 core m l，就能把苹果芯片的那个神经网络引擎的性能给它扎得干干净净，那效果滋滋，绝对惊人。好嘞，在咱们结束之前，最后再来快速的对一下清单，保证你万事俱备。就差最后点一下那个下载按钮了。这张内存需求表我跟你说，它就是整个部署过程里最重要的参考，没有之一。你得记住啊，这个 b 代表的是 billion，也就是十亿。举个例子，如果你的笔记本是十六 g 内存，那选个四 b，也就是四十亿参数的模型就非常合适。千万千万不要贪大求全，非要去硬上一个更大的模型，那样只会让你的体验变得特别糟糕。记住，选对尺寸才能跑的舒坦。最后啊，再送你几个性能优化的小窍门，第一，记住咱们前面反复强调的量化，他绝对是你最好的朋友。第二，如果你的电脑有独立显卡，也就是 gpu，那一定要让它动起来，这就好比是让专业运动员上场比赛，那个速度啊，嗖嗖地就上去了。那要是只能用 cpu 呢？也别灰心，老老实实地选个小点儿的模型，比如二 b 或者四 b 的版本，照样能玩得很开心。好了，这张表就是咱们今天所有内容的终极备忘录了。不管你用的是 mac、 windows 还是安卓、苹果，这张表都给你指了一条明路。我建议你啊，可以直接截个图，保存下来以后肯定用得着。所以你看呐，现在技术已经帮你铺好了路，一个精英几倍的 ai 已经可以安家在你的设备里了。那么真正的问题就来了，面对这股触手可及的强大力量，你准备用它来创造点什么呢？这个问题的答案就在你自己的手里。
3有云转晴
00:49
《小慧云库》Gemma4大模型ai下载教程#Gemma4 #Gemma4模型正式发布 #大模型 #开源 #谷歌ai
查看AI文稿
AI文稿
开源世界最强模型真马寺来了，看图、听声音、读视频全搞定！智能体更是进化的媒谱，多模态推理、多语言，各种能力大大加强。这次同样支持手机电脑多端使用。获取方法我给大家打包好了，现在火速分享给大家。首先点我作品下方分享箭头分享，复制一下，然后打开这个蓝色小蓝鸟工具，没有的自行安装一个，打开后等两秒，他会自动跳出一个资源框，点查看，没跳的朋友在主页空白处输入这几个字，进去找到这个夹子，选择 jam 四保存下载就可以了。
3249077781538
01:51
Gemma 4登场：不跑云端也能碾压GPT-4？#AI #科技 #人工智能 #认知
查看AI文稿
AI文稿
这几天，谷歌寄出了一季重锤全新的 jam 四，这回可不是简单的例行更新。对于 ai 赛道来说，这是一场实打实的底层清洗。他告诉所有人，想要拥有最强的逻辑推演能力，根本不需要你去连什么数万元的高端云服务，哪怕你在自己的笔记本，甚至是稍微高端点的手机上，都能把这台数字怪兽给跑起来。以前咱们觉得大就是正义，没个万亿级别的参数量，这模型都不好意思出来跟人打招呼。但 jam 四这波操作直接玩出了花，哪怕是参数只有三十一倍量级的主力版，在性能逻辑上居然直接摸到了同级别模型里顶级巨兽的后脚跟，这背后就是逻辑推理被极度浓缩后的技术奇迹。这就好比你找了个专科门诊，不用费劲挂专家号，系统会自动把你问的问题匹配给逻辑最强的那个核心模块。以前那些商业模型最大的护城河是因为我有资源，所以你要租用。现在 jam 四硬是把这道收费墙给拆了，这意味着未来的竞争彻底变味了。以前大家比拼的是谁囤的芯片多，谁能卖更贵的授权，现在看的是谁能把这算法逻辑做的足够小，跑的足够快，最后真正把生产力毫无压力的塞进每个普通人的办公场景里。对于我们每个人来说，这预示着一种全新的交互方式。不管是在飞机上，还是身处信号全无的山区， ai 都会一直躺在你的设备深处待命，你的数据资产再也不会被迫为给大厂商做练功时了。真正的科技不应该只活在服务器、机房里让人仰望，而应该变成像水龙头一样的基础配置。当你彻底拥有这种随处可调用、随时都能逻辑进化，还不用付月租费的模型时，不管是写文章还是理账单，你的效率感知是真的要从本质上变了。觉得这是以后每个人生活必不可少的工具的评论区咱们仔细聊聊，毕竟这场属于咱们的算力狂欢是真的到点了。
5森盟体制谈规划
06:19
利用Gemma4实现token自由告别高昂 API 账单和网络卡顿！这期视频手把手教你把 Google 最新开源的 Gemma 4 满血版塞进电脑。破解 2048 Token 记忆封印，解锁 GitHub Copilot 本地直连黑科技。一分钱不花，用你的本地算力实现真正的无限 Token 自由！所有防坑指南和终端命令都在视频里，建议关注点赞收藏防走丢。#Gemma #谷歌 #AI
查看AI文稿
AI文稿
还在为昂贵的 a p i 账单焦虑，忍受极高的网络延迟？今天这期视频手把手教会你在 vs code 里装上 gem 四，不花一分钱零延迟，实现真正的无限 token 自由。前几天谷歌开源了多模态的 gem 四家族，那么大家可以来看一下，这是最新的跑分图表加八四，它全系直接杀入了图标左上角的最具吸引力象限。特别是二十六 b 这个混合专家模型，用极少的激活参数量打出个月级碾压的智商分数和 i 成绩。这意味着你不需要搬一台服务器回家，用家用电脑就能享受顶级的 ai 算力。那么我根据官方发布的数据，给大家整理了一份最全的防踩坑硬件指南，大家可以对号入座并截屏。那么只要你的硬件设备有五 g 到八 g 的内存，就能轻松玩转轻量款的 e 二 b 和 e 四 b。那么如果你有十八 g 以上的内存，就可以像我一样直接上今天主角二十六 b，体验顶级的 mo e 专家架构。要是你的电脑有着二十八 g 甚至更大的超大内存，那最顶配的三十一 b 性能怪兽也是没问题的。那么搞懂了配置，选好个模型，我们直接开干。首先我们来到 jama 四的官网，然后选择阅读文档，点击阅读文档后，我们会来到这个页面，来到该页面中，我们可以从左侧侧边栏转 jama 的部分，通过下拉的方式找到欧拉玛，我们选择欧拉玛来到对应的页面。那么第一步我们需要来到欧拉玛的官网去进行欧拉玛的下载，下载好后，我们找到电脑终端，在终端中输入该内容，我们按下回车键，在这里会显示欧拉玛的版本后，这也提示我们欧拉玛已经下载并安装正确。接下来我们按照提示继续输入欧拉玛铺 jama 四，那么默认他会给我们安装 jama 四 e 四 b 参数的模型。那么如果你希望他给你安装其他比如说二十六 b 或者三十一 b 的模型，那么你可以在 jama 四的后续添加对应的版本号。在你的终端中输入欧拉玛铺 jama 四的指令，按下回车后，他便会帮我们安装好 jama 四 e 四 b 的模型。像二十六 b 和三十一 b 这种超过十几个 g 的，大家伙下也需要一段时间。大家记得把系统中的自动休眠关掉，那么盯着进度条走完，看到终端里弹出对话，光你的本地引擎就准备就绪了。打开奥拉玛，当我们打开奥拉玛，在模型切换选项中，我们向下滑，就可以找到我们最新的伽马四系列模型。比如说在这里我就可以选择伽马四二十六 b 参数模型。那么接下来是今天的核心，把本地算力接入 b s code。通常大家会装一些第三方的开源插件，那么在这里我推荐大家去使用 github coopilot chat 啊，它是可以直接绑定到我们欧拉玛中的。我们可以在侧边栏插件中找到 github coopilot chat，选择并进行安装。安装后，我们会在右侧看到我们的聊天部分，我们可以进行登录，然后我们打开 escode，我们可以在模型这边自动选择模型，这里找到其他模型，其他模型我们可以选择管理模型，在管理模型页面，我们可以选择添加模型来自欧拉玛。接下来我们按下回车键，我们会找到目前我们已有的多个模型选择。将左侧的小眼睛开启，接下来关掉，我们就可以看到我们通过欧拉玛部署的伽马四系列模型并进行使用。当你成功把本计算例连上 vs code 后，还要解除模型上下文的封印。很多小伙伴刚装好让 ai 读一个稍微大点的前端项目，写着写着突然开始胡言乱语，或者直接报错罢工。这不是你的电脑性能不行，而是欧拉玛默认给所有模型的上下文长度丝丝卡在了二零四八个头。肯，那么我们花五秒钟给他做一个脱绒手术，打开终端，复制这段指令下回车键。这段代码的意思是我们以 jm 四二十六 b 为底座，强行把他的记忆容量拓展到三二七六八个 token，也就是让他一口气能记住将近两三万行代码。那么大功告成。现在你的 ai 已经拥有了过目不忘的超长记忆，哪怕是复杂的项目丢给他也可以化身为你的大局架构师。那么我在 vs code 里给他提需求，让他去给我制作一个马里奥的游戏，我们来看一下他在这里所达到的效果，我们可以看到达到效果还是不错的。那么接下来第二个测试，我们来看一下它的多模态视觉推理能力。那么既然 jam 四支持多模态，我们上一个略微有一点难度的，我这里有一张在野外拍摄的复杂的动物脚印，我们让它识别一下是什么动物，请你帮我看一下这是什么动物的脚印，这是我在四川甘孜发现的，那么这展示了 r 六 b 惊人的逻辑推理能力，它不仅认出了我们动物，这是雪豹的脚印，还通过脚印的物理特征完成了深度的逻辑推理，那么这才是真正的多模态的能力。那么如果我们换成一次 b，让它去处理相同的工作，我们来看一下达到的效果。我们依然上传对应的图片输入，请你帮我分析一下这是什么动物的脚印，这是我在四川甘孜发现的。我们可以看到 e 四 b 给我们回答的结果就没有那么准确了。那么总体而言，从 e 二 b 到三十一 b，从下载到我们利用 copilot chat 的本地绑定，这就是我这几天折腾 jama 四总结的全部干货。有了这套工作流，你以后就可以在处理相对简单或基础的任务工作时，再也不用担心 api 额度耗尽了。如果这期视频帮到了你，请一定要给我点个大大的赞！如果有不懂的配置问题，随时在评论区问我，我是 tim，我们下期再见！
64七的三次方
01:03
31B干翻千亿！Gemma4炸裂开源榜！端云全覆盖，你的4090要封神了！来评论区聊聊～
#Gemma4 #AI #端侧大模型 #开源 #4090
查看AI文稿
AI文稿
新闻不啰嗦，干活直接播！别再盯着昂贵的 a p i 借口了！谷歌刚刚扔下的这枚 james 炸弹，正式宣告了大模型本地为王的时代提前降临。作为 gemini 三的正统血脉， gemini 四不是简单的版本迭代，它把谷歌最核心的闭源基因浓缩进了三十一 b 的轻量化架构里。这意味着你的四千零九十显卡，现在能跑出以前千亿参数才有的深层逻辑，它到底多狠？三点炸裂，第一，参数效率无敌，数学推理直接冲进开元榜前三。第二，端云全覆盖，从服务器到离线手机全搞定。第三，全模态加长文本加智能体，你想到的 ai 能力，它全给了。为什么谷歌这次这么大方？因为在麦塔和国产模型的加持下，生态比门票更重要。 jam 四是谷歌的防守反击，也是给所有开发者的一份降维打击包。如果你想本地运行，追求隐私安全，渴望零成本创业，必眼入。如果 gemini 三是云端王者，那 gemini 四是本地战神，趁着还没烂大街，赶紧去部署。
5飞星AI
02:32
标题：谷歌彻底放开！Gemma 4开源炸场，手机就能跑顶尖AI，普通人也能白嫖？#科技 #人工智能 #算法 #ai职场赋能
查看AI文稿
AI文稿
谷歌突然扔出王炸，新一代开源大模型 jam 四正式上线，直接叫板全球所有开源 ai，这波操作真的要改写整个 ai 行业规则。就在近期， google deepmind 正式发布 jam 四开源大模型，背靠 jamni 三核心技术，分四款不同参数规格，从小型端侧设备到大型云端服务器，全场景全覆盖定位，直接瞄准当下最实用的开源 ai 工具。为啥说这款模型对咱们所有人来说都直观重要？核心有三点，听完你就懂。第一，性能越级，还超轻量化，最小版本不用靠云端手机，小众硬件就能离线运行，旗舰款推理能力直接冲进全球开源第一梯队，代码逻辑推理、数学预算能力比上一代直接暴涨超百分之四十，小体量有大实力。第二，商用政策超级友好，采用了帕赤二点零宽松开元协议，个人中小企业都能免费商用，随意二次修改，没有隐形授权费，还配套完整开发工具，新手开发者也能快速上手，零门槛入居 ai 开发。第三，数据安全拉满，支持本地私有化部署，不用把数据传到外网，完美适配国内数据合规要求，不管是企业办公还是个人使用，隐私安全完全有保障。讲完核心亮点，很多人会问，这对咱们国内用户、开发者和小企业到底有啥实际好处？对国内开发者来说，不用花高价买模型授权，就能拿到顶尖 ai 内核，快速做垂直领域定制，比如教育辅导、医疗咨询、本地办公助手这类实用工具，对中小微企业，低成本就能落地 ai 业务，不用承担高额研发成本，还能避开外网数据风险，普通用户以后能用到更多无广告、离线可用的本地 ai 工具，翻译文案、代码辅助全都不用联网，方便又安全。觉得这条解读干货满满，帮我点个赞，支持一下，关注我，每天拆解全球 ai 热点，讲透干货，不玩虚的！
5小刚的AI观察
00:11
omlx暂时还不支持谷歌最新发布的gemma-4，等吧！
查看AI文稿
AI文稿
谷歌昨天晚上发布的这个模型 o m l 叉居然不支持，我去，害我吓了半天，十八个 g 不支持。
16麦汁服务器
00:28
《初初云库》Gemma4大模型ai下载教程 #Gemma4 #Gemma4模型正式发布 #大模型 #开源 #谷歌ai
查看AI文稿
AI文稿
看好了，兄弟们，酷狗迄今最强开源模型家族 gm 四上线了，从手机到服务器，从个人到企业，从离线到云端的全覆盖，全免费、全可控。今天简单三步教大家下载。首先点击本视频右下角分享箭头，复制一下分享链接，接着返回手机桌面，找到这个蓝色的小鸟，没有的下载一个，然后打开它，等待两秒会弹出一个资源包，我们点击立即查看，打开这个文件夹，然后找到 gm 四，先保存再下载就 ok 了。
0lD
00:47
《掌上云库》Gemm4大模型ai下载教程#Gemma4#Gemm4正式版#大模型#开源#谷歌ai大模型
查看AI文稿
AI文稿
我去看好了宝子们，谷歌 ai 大模型 jm 四在网上爆火，还有很多宝子们不知道如何去下载，去应用它，今天我就花三秒钟来教给你。首先点击我视频的右下角，点击分享复制链接，复制完链接以后，我们在应用商店下载一款这样的蓝色小鸟软件，下载完以后我们打开他会在下方弹出一个链接，我们可以点击立即查看，也可以在输入框里边搜索掌上云库，记住是掌上云库，点击立即查看，搜索好游共享，找到四月资源包，找到 g m 四，打开下载保存，就可以在手机上应用了。
2太阳花
00:35
别再对着服务器参数一脸懵！1分钟拆解CPU、内存、带宽的隐藏密码——看懂这组数字，你选的服务器性能直接翻倍！#服务器配置 #硬核科普 #服务器 #内存 #云服务器
查看AI文稿
AI文稿
你居然还在对服务器配置参数一脸懵？今天带你搞懂核内存带宽的意思。首先说核，即 cpu、核心数。核，就像工厂里的工人，核越多，能同时干活的就越多，处理速度也越快。内存就好理解些，相当于一个临时仓库，里面放着正在运行的程序，仓库越大，能同时处理的请求就越多，不容易卡顿。最后，贷款这东西就只需要记住，贷款越大，访问越流畅，能扛住的用户流量也就越多。总之，核心数决定计算能力，内存影响数据储存和程序运行，贷款决定数据传输速度，这三个指标共同决定了服务器性能。如果需要性价比高的服务器，可以私信聊聊。
9企业服务器-妮子

热门推荐

热门分类