00:00 / 00:58
连播
清屏
智能
倍速
点赞757
00:00 / 04:52
连播
清屏
智能
倍速
点赞224
00:00 / 00:56
连播
清屏
智能
倍速
点赞98
成为AI native company 整个AI产业链看似机会很多,其实每一层机会的分布是不均的,我们尽量把握好自己这一层能够拿到结果的机会。 AI的智力以及编程能力已经有目共睹。codex的电脑操作能力已经能胜任绝大部分任务,3月份以来每一次使用都让我震撼,预计再过三个月(8月)同样的能力就能普惠到国内的开源模型,届时agent生产力爆发。 自从openclaw出现之后,各家agent框架的记忆机制从任务记忆开始转向长期记忆。claudecode、codex是闭源产品的代表,openclaw和hermes是开源生态代表。随着LLM能力提升agent harness层会越做越薄,大家都是AI来改框架代码(人数的边际效益降低),功能上差异也会越来越小。最终拼的还是底层模型能力,届时将会是开源模型和闭源模型之争(即未来某天,闭源模型厂家不再对外提供api,只提供自己的agent原生服务,开源框架只能依赖开源模型)至少目前开源模型生态还是一片祥和,距离顶尖比源模型相差3、6个月。 飞书的agent接入、智能文档、天生就是为ai原生公司准备的,腾讯的产品生态相对隔离,很难构建agent与人类协同工作的环境,所以转向字节系。 最后:盒子里东西放不下之后,会把东西放箱子里;人类无法承载的任务,将由另一种生命形态接棒。 #AI原生公司 #agent框架 #openclaw
00:00 / 05:49
连播
清屏
智能
倍速
点赞3
00:00 / 06:22
连播
清屏
智能
倍速
点赞97
Qwen3-Coder技术解析:开源代码大模型的性能突破与实践价值 作为近期开源领域的重要进展,Qwen3-Coder系列模型在代码生成与开发辅助领域展现出显著优势。本文将从技术特性、性能表现、训练逻辑及应用实践等维度,系统解析这一模型的核心价值。 一、模型核心特性与版本信息 Qwen3-Coder系列中,当前旗舰版本为Qwen3-Coder-480B-A35B-Instruct,采用混合专家(MoE)架构,总参数量达480B,激活参数量35B。该模型原生支持256K token上下文窗口,通过YaRN技术可扩展至1M token,在Agentic Coding(智能编程)、Agentic Browser-Use(浏览器协同)及Agentic Tool-Use(工具调用)场景中实现开源模型最优(SOTA)效果,性能可与Claude Sonnet4等专有模型对标。 二、性能基准与对比分析 在多项权威代码能力基准测试中,Qwen3-Coder-480B-A35B-Instruct表现突出: - 在SWE-bench系列(软件工程任务)、Aider-Polyglot(多语言编程)、Spider2(数据库操作)、BFCL-v3(代码逻辑推理)等测试中,其性能显著优于Kimi-K2 Instruct、DeepSeek-V3 0324等开源模型; - 与Claude Sonnet-4、OpenAI GPT-4.1等专有模型对比,部分核心指标已实现接近或持平,验证了开源模型在专业编程场景的实用性。 三、训练体系与技术优化 模型性能的突破源于系统性训练升级: - 预训练阶段:构建7.5T规模训练数据(代码占比70%),扩展上下文至原生256K并支持1M扩展;通过Qwen2.5-Coder对低质数据进行清洗重写,提升训练数据质量,强化代码基础能力。 - 后训练阶段:深化Code RL(代码强化学习)训练,聚焦真实场景代码任务;拓展Agent RL(智能体强化学习)至可验证环境,在SWE-bench Verified测试中斩获开源模型最优成绩,强化实际问题解决能力。 #计算机 #Ai应用 #大模型 #Qwen3 #代码编程
00:00 / 05:59
连播
清屏
智能
倍速
点赞343
00:00 / 04:37
连播
清屏
智能
倍速
点赞82