00:00 / 04:57
连播
清屏
智能
倍速
点赞1518
00:00 / 03:29
连播
清屏
智能
倍速
点赞69
00:00 / 00:58
连播
清屏
智能
倍速
点赞3
00:00 / 06:27
连播
清屏
智能
倍速
点赞8
实测 Kimi K2:最擅长 Agentic 任务开源模型? 本期视频将对月之暗面(Moonshot AI)最新推出的开源模型 Kimi K2 进行一次全方位的评测。 Kimi K2 在官方介绍中号称其在代码和 Agent 任务上表现卓越。 我将从官方公布的性能跑分入手,详细解读其模型架构、API 特点,并进行大量的上手实测。 内容包括: - 代码生成与可视化: 从 3D 峡谷、粒子银河到财务报表,再到像素游戏和复古打字机,我们将通过十余个不同难度的任务,深度测试 Kimi K2 的代码生成和数据可视化能力。 - 推理与逻辑: 通过精巧的逻辑推理题,考验 Kimi K2 在复杂指令下的理解和执行能力,并与 Gemini 和 o3 等模型进行横向对比。 - API 与工具调用: Kimi K2 同时兼容 OpenAI 和 Anthropic 的 API,我将展示如何将其集成到 Agent 和各类工具中,并分享我个人在调用 API 时的经验和遇到的问题。 - 横向对比: 在多个环节中,我会将 Kimi K2 的表现与 Claude Sonnet 4、Gemini 2.5 Pro 等业界顶尖模型进行直观比较。 Kimi K2 究竟是名副其实的开源强者,还是有所夸大?它的实际表现能否挑战闭源的顶尖模型?看完这期视频,你就会有答案。 时间戳 00:00 Kimi K2 核心亮点与性能跑分 00:58 模型架构、API 特点与使用门槛 03:01 创意写作与可视化测试 08:29 更多官方示例 09:41 指令遵循+推理能力测试 #kimi #moonshot #AI
00:00 / 11:42
连播
清屏
智能
倍速
点赞75
00:00 / 00:55
连播
清屏
智能
倍速
点赞8
AI+MCP,如何解放人类? 我感觉最近对 如何通过MCP给AI塑造工作环境,又有了新的认知。 最近我看到了海螺AI 02,也就是MiniMax旗下的第二代视频生成产品,效果已经非常出色了。 另外,Kimi开源了K2模型,这个模型主要对标Claude那种Agentic AI的模式,能够操作工具,通过MCP的方式调用工具来实现各种结果,包括强大的编程能力。在国外和国内业界的口碑也很不错。 这些大模型的能力在不断升级,几乎每隔一两个月就会有翻倍式的提升,让我感受到它们的进步速度非常快。 在这样的背景下,我越来越确信未来大模型会成为一种基础能力,就像PC互联网、移动互联网时代的数据库一样。 不同的是,AI时代的大模型这个“数据库”可以自己产生数据,而不仅仅是依赖我们去做前端界面,设置GUI的产品环境,让人来贡献数据。 现在的问题是,我们是要通过人的提示词工程,也就是通过提问让AI去生成数据。 还是更要学移动互联网当年,打车平台、外卖平台那样,塑造一个环境,让AI在特定场景下产生反馈和数据,方便我们平台去中心化地调用? 我觉得显然后者能够创造价值更大。一个这是老板需要大呼小叫驱使员工干货的手工作坊,另外一个则是全自动化生产商品的智能化工厂。 在Agentic AI的时代,需求侧还是真人来发起,但是满足我们需求,那些接单的滴滴司机、骑手小哥,已经变成AI了。我们通过MCP等基建,给AI司机、AI骑手们打造了一个工作的环境,让他们为人类去提供服务。 整个AI的工作流完全是自动化的运转。 如果这样思考的话,未来我们真正要做的,就是不断地为这些AI打造一个又一个的环境,建立一套AI熟悉的交互体系和界面,让AI能够自动化地实现信息的上传和下载,甚至逐步操作现实生活中的各种事务。 没错,而且我们还可以根据用户的需求,调动这些Agent,让它们形成一定的协作规范,帮助我们实现目标。就像外卖里面,骑手跟餐馆,存在某种协作,共同再为用户提供服务。 从未来生态的布局来看,我认为核心还是要掌握更多的垂直场景和环境数据,基础AI大模型,已经非常非常智慧了,垂直场景和环境数据,就是让他们产奶的挤奶工! 通过后端的超级自动化能力,我们可以构建一条完整的服务链路和服务模式,供前端调用。#agent #MCP #AI #Agentic #强化学习
00:00 / 03:26
连播
清屏
智能
倍速
点赞6
00:00 / 02:20
连播
清屏
智能
倍速
点赞18