00:00 / 20:18
连播
清屏
智能
倍速
点赞12
00:00 / 20:18
连播
清屏
智能
倍速
点赞6
🚀OpenAI重磅开源gpt-oss系列模型!本地部署+客观深度测评!开源模型中的王者gpt-oss-120B和gpt-oss-20B!从幻觉测试到代码生成,从逻辑推理到文档分析,全面碾压现有开源模型 🚀🚀🚀视频简介: ✅【客观测评】OpenAI开源gpt-oss-120B和20B全方位对比测试:谁是真正的开源之王?117B参数模型性能逆天,20B小钢炮表现惊艳,免费使用Apache 2.0协议! 🔥本期视频详细演示了OpenAI史无前例发布的两款开源大模型gpt-oss-120B和gpt-oss-20B的全方位性能测试! 📊 我们从多个维度进行了深度评测: ✅ 幻觉测试:6道精心设计的题目全面验证模型真实性 🧮 数学推理:空瓶换饮料、青蛙爬井等经典难题挑战 🧠 逻辑分析:农夫过河史上最难推理题完美解答 💻 编程能力:Bootstrap响应式导航栏一键生成 🗃️ 数据库操作:复杂SQL查询语句精准输出 📄 文档解析:大语言模型论文深度分析 🎯 测试结果令人震撼! 🔥120B参数模型单卡H100即可运行,20B小模型在某些任务上甚至超越大模型表现!两款模型均采用Apache 2.0开源协议,支持Ollama、LM Studio等多种部署方式,128K超长上下文,可调节推理级别。 🔥🔥🔥时间戳: 00:00 开场介绍 - OpenAI发布史无前例的两款开源大模型gpt-oss 00:35 模型规格详解 - 120B和20B参数版本技术规格对比 01:14 部署方式演示 - Ollama、LM Studio等多种部署方法 01:34 幻觉测试环节 - 6道题目全面测试模型真实性表现 03:23 数学推理能力 - 空瓶换饮料和青蛙爬井经典难题挑战 05:14 空间推理测试 - 正方体数字推理题验证逻辑能力 05:44 代码理解能力 - 斐波那契数列识别和功能分析 06:10 农夫过河难题 - 史上最难逻辑推理题终极挑战 08:09 编程实战测试 - Bootstrap响应式导航栏完整代码生成 09:33 数据库SQL能力 10:51 文档分析能力 11:41 提示词遵循 12:43 综合评价总结 #openai #gptoss #gptoss120b #gptoss20b #ai
00:00 / 13:02
连播
清屏
智能
倍速
点赞156
Kimi K2 是否能替代 Claude Code 据说奥特曼原本打算发布 OpenAI 的首个开源模型,结果因为 Kimi K2 的突然上线取消了!这到底是巧合,还是说 Kimi K2 作为一款新的国产开源模型,真有什么过人之处?国外 AI 技术达人 Alex Finn 亲测了 Kimi K2 的编程能力,并分享了自己的看法。 在 Alex Finn 看来,Kimi K2 在高性价比和开放性这两个个方面,真的做到了极致。最吸引人的地方就是免费、开源。普通用户直接上 kimi.com 就能无限免费体验 Kimi K2 的聊天和代码生成功能,开发者甚至还能把模型下载到本地,玩法很灵活。 在性能上,Kimi K2 基本能和国际主流大模型媲美,基准测试的数据也非常亮眼。不管是生成代码还是文本处理,速度和效果都很出色。它还开放了 API,价格比同类产品低很多,每天甚至还有免费额度,对于开发者来说简直是 “白嫖神器”。 配置也很简单,不管是接入 Cursor 这样的开发工具,还是集成到自己的项目里,只需要一个 API Key 就能直接用。Alex Finn 用 Kimi K2 生成了一个基于 three.js 的第一人称 3D 射击游戏,代码一次性通过,游戏效果也不错。 虽然说 Kimi K2 在功能和性能上没有特别突破性的创新,但性价比确实很高。而且免费、开源的策略,有望让 Kimi 打造出一个健康、繁荣的应用生态,未来也能在实际使用中不断自我完善。 希望 DeepSeek 也能尽快上线 R2,带来更多惊喜! #OpenAI #ClaudeCode #AI编程 #kimik2 #AI工具测评
00:00 / 08:44
连播
清屏
智能
倍速
点赞10