港大新开源 OpenHarness，两天斩获 1.9K Star！它把 Agent 从黑盒变成了白盒！#Harness教程 #抖音科技风向标 #知识分享 #创作灵感 @抖音小助手 @抖音精选小助手

港大harness怎么用

1575

18

2013

283

举报

发布时间：2026-04-09 09:27

查看AI文稿

AI文稿

港大开元神作 open harness，两天一千九百 star，把 ai agent 黑盒彻底扒成白盒！家人们还在为学 ai agent 被动辄几十万行的代码互劝退吗？还在好奇大模型到底怎么从只会说变成能干活的吗？香港大学刚开园的这个神作，直接把答案甩在你脸上！上线两天，狂揽一点九 k get up 新，仅凭一点一万行代码，干翻了大厂五十一万行的复杂架构，把藏在黑匣子里的 ai a 阵的底层逻辑扒得明明白白。这个名为 open harness 的项目，堪称 ai 开发者的 agent 架构肾精。今天这篇内容全程干货无废话，不管你是刚入门的 ai 爱好者，还是想做自定义 agent 的开发者，看完直接吃透 agent 的核心逻辑，上手就能用。获得感拉满，音效清亮，转场音口播语速放缓，节奏平稳。先跟大家介绍一下这个项目的来头。 open harness 是香港大学数据科学研究所的新作，这个团队可是开源界的明星天团，之前推出的 lightsrock、 gutel agent，还有上个月爆火的 nanobot、 clyar、 anything，个个都是开发者圈的热门项目，技术实力直接拉满这次的星座，自然也没让人失望。很多人第一眼看到 open harness，会误以为它是一个新的 ar agent，但其实它的定位更精准，是给模型穿的能力马甲。官方用一句话概括了核心理念， the model is the agent， the code is the harness。翻译过来就是模型负责思考代码提供支撑。这一句话直接把 agent 系统的底层架构说透了。简单来说，它把 agent 拆成了两个核心层次，一层是模型层，也就是我们熟悉的大模型，负责推理、规划、做决策，是 agent 的大脑。另一层是框架层，也就是 open harness，本身负责给大脑配手眼记忆和安全边界，提供工具调用、权限控制、记忆存储、多 agent 协调这些核心能力。要知道，纯聊天大模型只能输出文本，说白了就是光说不练，但当模型接入 open harness 之后，瞬间就拥有了文件读写、命令执行、网络请求十九记忆的能力，直接从会说变成能做。这也是为什么一个普通大模型能成为实用 agent 的关键，而 open harness 就是把这个关键环节做到了极致。那这个项目到底解决了开发者的什么痛点？为什么一上线就爆火？答案很简单，他把学 agent 架构的门槛直接打下来了。我们都知道 azurepick 官方的 cloud code 是非常强大的代码助手，但其背后是五十一万行代码，一千八百八十四个文件。对于想学习 agent 架构的开发者来说，这简直就是天书级的存在。很多人刚打开代码库，看到密密麻麻的文件和代码，直接就放弃了，想研究 a 站的内部怎么工作，却连门都摸不到。而 open harness 做的最牛的一件事，就是用一点一万行 python 代码精准重构了核心架构，砍掉了遥测、 olaf、重型 reactui 这些普通开发者根本用不上的企业级功能，只保留最核心最精华的哈尼斯架构，把复杂的 a 层框架做清做透，让普通人也能看得懂、学得会、改得了，这也是他能快速圈粉的核心原因。接下来就是大家最关心的核心内容， open harness 的架构到底有多强？它由十大核心子系统组成，每个子系统职责明确，环环相扣，搭建起了一个完整可扩展的 a 阵的框架，而且每一个功能都踩在了开发者的需求点上。首先是 aning 智能体循环，这是整个框架的心脏，一个简洁的循环代码就能处理无限的功能组合模型，只需要决定做什么，剩下的全线校验工具执行结果格式化，全由 harness 负责，把大脑和手脚的分工做到了极致。其次是 tools 工具，系统内置四十三个使用工具，包含文件 a o show 执行、网页搜索、 agent 协助、任务管理等核心场景，每个工具都自带验证和权限集成，拿来就能用。还有 skills 技能系统，只用 md 文件就能定义领域知识，按需加载内置的 git 提交代码审查、 bug 调试、方案设计等刚需技能，开发者自己写个 md 文件，就能自定义专属技能，零门槛扩展。更贴心的是它兼容 coder code 的插件生态，官方已经测试了十二个官方插件，含盖低的工作流、安全警告、多 a 证的代码审查等场景，直接附用大厂的生态积累，不用自己从零搭建。 permissions 权限管控系统，更是解决了开发者的后顾之忧。默认自动规划三级权限模式，还能配置路径和命令规则，比如禁止修改系统文件，禁止执行危险命令，在开发时给足安全感。除此之外，还有生命周期勾子五十四个斜杠命令、 m c p 协议支持持久记忆、多 agent 协调，这五大子系统覆盖了 agent 开发的全场景需求，从单 agent 运行到多 agent 协助，从临时绘画到持久记忆，从简单命令调用到复杂插件扩展，一个框架全部搞定。讲完核心架构，大家肯定想问，这个项目上手难吗？答案是零基础也能快速启动！官方提供了超简洁的操作流程，三步就能跑起来。首先克隆项目代码，用由于 think 命令安装依赖全程，无需复杂配置。然后配置模型，以大家常用的 kimi 为例，只需设置三个环境变量，填入 api 地址和密钥即可。不仅支持 kimi，主流大模型都能适配。最后一键启动，不管是交互式的聊天模式，还是非交互式的脚本管道模式，都能轻松实现，甚至还支持 j s n 输出流逝事件，方便开发者做二次开发。插件管理也同样简单，一行命令就能完成插件的列出、安装启用。而如果想扩展自定义功能， open harness 也做了极致的简化。添加自定义工具，只需几行 python 代码，定义输入和执行逻辑，添加自定义技能，写一个 md 文件放在指定目录即可。添加自定义插件仅需配置一个 json 文件，再补充对应的命令和钩子，零基础也能轻松打造专属的 agent 框架。音效舒缓，背景音口播语速放缓，升华价值。看到这里，相信大家已经感受到了 open harness 的价值，它不是要取代 cloud code 的这样的大厂产品，而是给所有 ai 开发者一个可理解、可修改、可扩展的 agent 框架参考。在 ai agent 这个高速发展的领域，我们不缺好用的成品工具，缺的是能让人看明白、学透彻的底层架构，缺的是低门槛、高开放的开发生态。而 open harness 正是朝着这个方向迈出的关键一步。他用极简的代码把 agent 的黑盒彻底变成了白盒，让我们终于能清晰地看到大模型到底是怎么和工具结合的， do agent 到底是怎么协调工作的，权限控制到底是怎么实现的。这些之前被大厂藏起来的核心逻辑，现在都能在 open harness 的代码里找到答案。对于刚入门的开发者来说，它是最好的 agent 架构学习教材，一点一万行代码量，逐行研究也不会有压力。对于有开发需求的开发者来说，它是现成的 agent 开发底座，不用丛林搭建框架，基于它做二次开发能节省大量的时间和精力。

粉丝4994获赞2.2万

相关视频

04:46
ClaudeCode源码流出,打开一看里面也是Harness Claude Code 源码意外流出。打开一看，里面本来就是一套Harness：信任门控把所有能力扩展推迟到身份验证后；工具约束给BashTool加了九层专属校验；运行边界用硬熔断+软压缩+断点恢复三道防线控制执行；六个内置Agent动态分裂可随时接力。外面工程师搭的是Agent Harness，里面跑的是Model Harness。同一个工程直觉，在每一层都在重演。
#ClaudeCode #anthropic #AI编程 #Harness #软件工程
488新
00:41
港大OpenHarness万行代码，重构AI Agent 4天冲上 8000 星。OpenHarness 最吸引我的是，它对Agent基础设施的极简重构。港大团队将 Claude Code 51 万行繁杂的 TS 代码，精简为仅 1.1 万行的纯 Python 实现，体积缩小 44 倍，却保留了 98% 的核心工具链。
它彻底解决了“黑盒”痛点：采用模块化子系统架构（Engine、Tools、Hooks、Memory 等），让 Agent 的每一个决策环节都清晰可见、可定制。内置 43 个工程化工具，完美兼容本地模型。最实用的是它的安全审批与任务分发机制，非常适合在个人开发或团队协作场景下，作为轻量级的 AI Agent 底座进行二次开发。#ai#ai工具#ai新星计划
查看AI文稿
AI文稿
港大最新开源 open harness，四天冲上八千星！ open harness 最吸引我的是它对 agent 基础设施的极简重构。港大团队将 call 五十一万行繁杂的 ts 代码，精简为仅一点一万行的纯拍脏实线，体积缩小四十四倍，却保留了百分之九十八的核心工具链。它彻底解决了黑核痛点，采用模块化子系统架构 engine、 turbo hux memory 等，让 agent 的每一个决策环节都清晰可见，可定制内置四十三个工程化工具，完美兼容本地模型。最实用的是它的安全审批与任务分发机制，非常适合在个人开发或团队协助场景下，作为轻量级的 ai agent 底座进行二次开发。感兴趣的朋友欢迎评论区交流。
216技术PP虾
01:55
港大申请进度更新！你被一键“养鱼”了吗？
快去看看你的网申状态！
#香港大学 #港本 #alevel #alevel合肥 #合肥国际学校
查看AI文稿
AI文稿
今天很多同学都来问党大怎么提前将申请状态变成了 wetlist 或者 unsuccessful，他们也没有收到任何的邮件的提醒，而且基本上商学院、工学院等都进入了 wetlist 的状态。有个别专业呢，虽然还是 uc 的状态，但是呢，按照官方的回复，三月三十一日变或者不变，都是一键进入到一键养鱼的状态，真是等了好几个月，还还是没有逃出这样的一个结局。和港科大大批量发去信一样的情况，就是很多学生同样发出了这样的疑问，想知道你到底在招谁？那么从今年港大和港科的预录取发放的情况来看，其实还是有一定的规律性，可以去那港科的话，我之前发过解析的一个视频，大家也可以去翻看一下。港大和港科发放规律是有明显差异的，港大的 offer 在课程体系的不同，比如你是 a level 或 i b，地域的差异性，或者你学校有差异，都会呈现出非常明显的区别，很多二三线的学生拿到 offer 都存在一些特定的搭配。最后来说一下，如果已经被 wet list 该怎么办？往年港大在后期仍然是有路过一些学生的，虽然说机会比较小，但是大家仍然是要去做一些动作去观察的。首先，明天应该是有一批学生，港大留位费的截止缴费日期是到了的，所以如果有空位的话可能还会捞一下。然后呢，就是后期如果你拿到了新的成绩单，一定要及时上传，是有机会从 whitelist 转到 under consideration，也就是被考虑。还有就是有一些学生可能在最后的时候 viscer 自己的港大选择也会出现新的空位，因此呢，仍然是要及时去查看一下你自己的邮箱。总而言之呢，港本现在的申请难度确实是远远超过了预期，未来申请的同学一定要提前做好整体的规划。也欢迎大家关注我，在评论区一起来讨论哦！
11我是Vicky呀🙋‍♀️
09:51
Meta-Harness 端到端优化 LLM 框架的核心逻辑 3.2 / 顶会论文解读｜Meta-Harness 端到端优化 LLM 框架的核心逻辑#框架的核心逻 #大语言模型 #论文解读 #深度学习 #Harness
查看AI文稿
AI文稿
欢迎收听每日 arc。哈喽，大家好，今天咱们来聊点硬核的。斯坦福最近出了一个 meta harness 方法论，据说能让大模型性能提升一大截，我研究了好几天，今天就给你好好掰扯掰扯哦。这个我知道，好像是在代码空间里搞代理搜索，对吧？听起来就挺玄乎的，你先给我讲讲这到底是怎么回事？行，咱们先从这个代理搜索开始说。你想啊，以前大模型处理任务的时候，就像是一个人在黑屋子里摸东西，只能凭感觉瞎试试错，成本特别高。但 meta harness 不一样，它相当于给大模型搭了个地图，让模型能在代码空间里精准定位到最适合解决当前任务的代理代理。你是说专门处理特定任务的小模型吗？差不多，但又不完全是。这里的代理其实是模型生成的一系列代码片段，每个片段都对应着解决问题的一种思路。 meta harness 会先让大模型生成一堆这样的代理，然后通过评估机制筛选出效果最好的那个，再用这个代理去处理具体任务。那它这种搜索方式跟传统的有啥不一样？优势在哪呢？最大的优势就是效率高。以前模型生成代码可能要反复试错，生成一堆没用的东西，但 meta harness 的代理搜索是有目标的，它会根据任务的要求有针对性的生成代理，而且他还能利用之前的搜索经验，不断优化搜索策略，越搜越准。就好像你找东西，第一次可能要翻遍整个屋子，但第二次你就知道大概在哪了，效率能提升好几倍。哦，我明白了，相当于给模型装了个智能导航，不用瞎转悠了。那他是怎么保证筛选出来的代理是最好的呢？这个就涉及到他的评估机制了，他会给每个代理打分，打分的标准就是代理解决任务的能力。比如处理代码，生成任务，他会看生成的代码能不能正常运行，有没有 bug，运行效率高不高。而且他还能根据任务的不同调整评估标准，非常灵活。听起来挺厉害的，那除了代理搜索，我还听说他特别重视保留未压缩的历史记录，这又是为什么呢？你说的这个点也很关键，这其实是 meta harness 的另一个核心。你想啊，咱们平时用大模型的时候，模型生成的内容如果被压缩或者丢弃了，就相当于模型忘了自己之前是怎么想的。但 meta harness 不一样，它会把模型生成的所有中间过程都保留下来，不管是有用的还是没用的。保留这么多东西，不会占用很多资源吗？而且那些没用的记录留着有啥用啊？资源肯定会占用一些，但换来的好处太大了。你想啊，这些未压缩的历史记录就像是模型的草稿纸，里面藏着模型思考的全过程。比如模型在生成代码的时候，可能会尝试好几种思路，虽然有些思路最后被放弃了，但这些尝试的过程能帮助模型更好的理解任务的本质。而且当模型遇到类似任务的时候，还能参考之前的尝试，避免重复踩坑哦，相当于让模型学会从失败中总结经验是吧？没错，就是这个意思，而且这些历史记录还能用来优化代理搜索的策略，比如模型发现某种类型的代理在解决某类任务时效果特别好，下次遇到类似任务，就可以优先生成这种类型的代理，省下不少时间。那这些未压缩的历史记录是怎么存储和使用的呢？不会乱糟糟的吗？他有一套专门的存储和管理机制，会把不同任务的历史记录分类存放，方便模型快速解锁。而且在使用的时候，模型会根据当前任务的特点，有针对性的调取相关的历史记录，不会一股脑全都用上。就好像你查资料，会先筛选出跟你要写的文章相关的内容，而不是把整个图书馆的书都翻一遍。明白了，看来这未压缩的历史记录就像是模型的知识库和错题本，既能提供参考，又能帮助模型反思。那咱们再深入聊聊，为什么 metal harness 能取得这么大的成功呢？它的技术原理和设计理念到底厉害在哪儿？这个问题问得好，我觉得 metal harness 能成功主要有这么几个原因，首先就是它的设计理念特别先进，它不再把大模型当成一个黑盒子，而是试图理解模型的思考过程，然后通过优化这个过程来提升模型的性能。以前很多研究都是在模型的参数或者训练数据上下功夫，但 metal harness 换了个思路，从模型的推理过程入手，这本身就是一种创新。对，我也觉得这个思路挺新颖的。那具体到技术上呢？他有哪些独特的技术原理？技术上的创新点可不少，就说代理搜索吧，他不是简单的让模型生成一堆代理就完事了，而是引入了强化学习的思想，让模型在搜索过程中不断学习和优化，模型会根据每次搜索的结果调整自己的搜索策略，就像一个不断成长的棋手，下的棋越多，棋意就越高。强化学习？那他是怎么实现的呢？简单来说就是模型每次生成代理并完成任务后，系统会给他一个奖励信号，告诉他这次搜索的效果怎么样。如果效果好，模型就会强化这种搜索策略，如果效果不好，模型就会调整策略，下次换一种方式搜索。这样一来，模型的搜索能力就会越来越强，不用人工干预就能自动提升。这个机制确实挺聪明的，相当于让模型自己学会怎么找最优解。还有其他的创新点吗？还有就是它的模块化设计， meta harness，把整个系统分成了好几个模块，比如代理生成模块、评估模块、历史记录模块等等，每个模块都负责不同的功能，而且模块之间可以灵活组合和替换。这样一来，要是想改进某一部分，直接替换对应的模块就行，不用动整个系统，非常方便。模块化设计确实能提升系统的灵活性和可扩展性，这也是很多现代软件的设计思路。那除了技术层面，他的设计理念还有什么特别的地方吗？还有一个很重要的点就是他的原学习理念，你知道原学习吧，就是让模型学会怎么学习。 mathematics 就是通过不断积累搜索经验和历史记录，让模型逐渐掌握解决各种任务的通用方法。这样一来，模型就不是只能处理特定任务的专家，而是能举一反三的通采，不管遇到什么新任务，都能快速找到解决办法。难怪他能提升大模型的性能，原来他是在教模型怎么更好的学习啊。那他这些创新点组合到一起，到底能给大模型带来多大的性能提升呢？这个得看具体任务了，但根据斯坦福的测试结果，在很多代码生成和推理任务中， meta harness 能让模型的性能提升百分之二十到百分之五十不等，而且随着模型使用的次数增多，性能还会不断提升，因为它会越来越懂怎么处理任务。哇，提成这么多啊，那他对未来的 ai 发展有什么启示呢？我觉得最大的启示就是要想让大模型变得更聪明，不能只想着堆砌参数或者增加训练数据，还要关注模型的推理过程和学习方式。以前我们把太多精力放在了模型的硬件上，比如参数量、算力这些，但 madison 告诉我们，优化模型的软件，也就是推理机制同样重要，甚至可能更重要。对，就好像一个人光有天生的聪明还不够，还要学会怎么学习，怎么思考，才能把聪明才智发挥出来。没错，就是这个道理。而且 meta harness 的成功也说明大模型的能力还有很大的挖掘空间。我们以前可能低估了模型在推理过程中的潜力，通过优化推理过程，不用大幅增加模型的参数量，就能让模型的性能获得显著提升，这对 ai 的普及和应用来说非常有意义，毕竟不是谁都能拿出那么多钱去训练超大模型的。确实，要是能通过优化推理机制，让小模型也能达到大模型的效果，那 ai 的门槛就低多了。那除了这个，你觉得它还有哪些潜在的应用方向吗？我觉得他在很多需要复杂推理的领域都能派上用场，比如医疗诊断、金融分析、科学研究这些。就拿医疗诊断来说，医生看病的时候需要综合分析患者的各种症状和检查结果， meta harness 可以帮助大模型更好的梳理这些信息，快速找到最可能的病音。再比如科学研究，科研人员做实验的时候经常需要尝试各种方案，加快科研进程。听起来应用前景挺广阔的，那你觉得他有没有什么局限性或者需要改进的地方呢？局限性肯定是有的，比如他现在主要还是针对代码和推理任务，在自然语言理解和生成方面的应用还比较有限。而且他需要大量的历史记录来优化模型，要是处理一些全新的没有历史数据的任务，效果可能就没那么好了。还有就是它的计算资源消耗虽然比训练大模型小很多，但也不是随便一个普通用户就能用得起的，还是需要一定的算力支持。也是，任何技术都不可能十全十美。不过总的来说， mate harness 还是给 ai 领域带来了很多新的思路和可能性。没错，他就像是给大模型装上了一个智能大脑管家，帮模型理清思路，总结经验，让模型能更高效的处理任务。虽然现在还有一些不足之处，但随着技术的不断发展，我相信这些问题都会慢慢解决， metal harness 的潜力还会得到更多的挖掘。今天跟你聊这么多，我对 metal harness 有了更深入的了解，感觉真是大开眼界，希望以后能看到更多类似的创新技术，让 ai 变得越来越聪明。我也一样，期待 ai 领域能有更多的突破。今天咱们就先聊到这，感谢大家的收听，咱们下次再见。
17每日Arxiv
05:35
大白话带你理清Harness Engineering 一个视频带你揭秘最近很火的Harness工程到底是什么
#AI #harness #AI开发 #人工智能 #每天学习一点点
查看AI文稿
AI文稿
嘿，各位开发者，问个问题，你有没有感觉现在用 ai 写代码是快得飞起，但代码写完了，要上线反而更慢了？没错，从你敲下最后一行代码，到用户真正用上中间的测试、部署、安全，所有这些环节现在都成了新的大瓶颈。那怎么办？今天咱们就来聊聊， hans 是怎么用 ai 来解决这个大麻烦的？ honest ceo，这句话我觉得真是说到了咱们心坎里。我们开发者呢，天天埋头写代码，这个叫内循环对吧？那你想过没？这部分工作其实只占了整个软件生命周期的百分之三十，那剩下的其实它是什么？就是所谓的外循环，也就是代码写完之后，怎么测试，怎么部署，怎么保证安全，这些事才是真正决定你的代码能不能顺利上线的关键。你看这张图就更直观了，左边这三十百分之的编码环节，现在有了 ai 的加持，简直就是踩满了油门，一路狂飙。但问题来了，右边这七十百分之的交付环节，包括测试、部署、安全、合规等等，还跟老牛拉破车一样，完全跟不上节奏。结果呢？这就成了一个新的，而且是更大的瓶颈。好，那咱们就来深入聊聊，这个由 ai 生成代码引发的新瓶颈，到底是怎么一回事？它又是如何改变了整个游戏规则的？这么说吧，你来想象一下这场景，因为有了 ai，你团队的代码产出量一下子翻了四倍。哇，听起来很爽是不是？但别急，这意味着什么？四倍的测试工作量，四倍的安全扫描，还有四倍的部署任务，你原来那套老流程还能顶得住这种压力吗？很可能顶不住，最后结果就是开发写的飞快，但代码全堵在发布门口，根本出不去。这就是我们现在面临的最大鸿沟。那这个问题要怎么解呢？很多人的第一反应可能是缺啥工具就买啥呗，但这样只会让工具链越来越复杂。真正的解决方案是得换个思路。我们需要的不是更多东拼西凑的工具，而是一个能统一管理、外循环的智能平台。你看这个对比就特别清楚了。左边就是我们很多人熟悉的传统模式，各种工具制成一派，像一个孤岛，中间全靠胶水胶板硬粘在一起，每次发布都得等着人手动点同意，提心吊胆。安全问题呢，也总是出了事才想起来去补救。再看右边 house，方式思路完全不一样，他用一个统一的平台打破了工具孤岛，用智能自动化来代替那些脆弱又难维护的脚本，用策略及代码的方式让合规治理自动化，并且把安全检查直接纳入到流程的最前端。所以说 harness 最大的一个特点就是统一。你看，从持续集成、持续交付，到安全测试、云成本管理，甚至还有内部开发者门户，所有这些过去可能需要七八个不同工具才能搞定事，现在全都被整合到这一个平台里了。它的目标很简单，就是让你用一个地方就能管好从代码提交到云端运行的整条线。好，我们刚才一直在说智能平台，那 harness 的智能到底体现在哪呢？来，我们现在就深入它的内部，看看它背后的 ai 引擎是怎么工作的？你可以把后任设 ai 引擎想象成一个团队，首先最底层是 ai 代理，他们就像是团队里的执行者，是真正撸起袖子干活的，负责跑测试、搞部署。然后中间这一层也是最核心的，叫做软件交付知识图谱。这个你可以理解为是整个团队的大脑，它掌握了所有的信息和上下文。最后顶层是编排引擎，它就是总指挥，确保所有的执行者都能在大脑的指导下有条不稳地协调工作。我们来重点说说这个知识图谱，因为它真的是重中之重，它干的活可不是简单的搜搜日记，看看监控指标就完事了。不，它的厉害之处在于，它能理解这些数据背后的关系。比如说它知道你这个微服务部署在哪个 k 八 s 集群里，它依赖了哪些下游的 api，它又要遵守哪些安全策略。只有掌握了这种深度的、结构化的上下文信息， ai 做出的决策才能既智能又安全，而不是像个霉头苍蝇一样，只会盲目的执行。角落这个东西，我相信搞平台工厂搞安全的同学听了肯定会两眼放光。卡克斯 delegate 是一个跑在你自己的环境里，比如你的 vpc 或者 k 八 s 级群里的一个轻量级代理，他最牛的一点是什么呢？他所有的通信都直走出站连接，这意味着什么？你再也不用为了介入一个外部工具去给你的防火墙开一个危险的入站端口了，也不用再费劲去配那些复杂的 vpn，单凭这一点安全性和便利性就直接拉满了。 ok？聊了这么多技术细节，可能有人会问，这东西到底好不好用，效果怎么样？别急，咱们不谈虚的，直接上数据，看看真实的影响。第一个数字，七十五 percent，这是什么？部署时间最多可以缩短七十五 percent，你想象一下，一个过去要花整整一周才能上线的版本，现在可能一天半就搞定了，这对于任何一个追求速度的公司来说，意味着什么？这就是实打实的竞争力啊！再来看这个六倍部署频率最多能提升六倍，这意味着什么？这意味着你的团队可以从过去可能好几周才敢发一次版，进化到一天就能安全的发布好几次，这个才是我们天天挂在嘴边的敏捷，对不对？当然，光快还不够，还得省钱，通过智能的云成本优化，而且最多能帮你把云上的花费砍掉百分之六十。咱们得记住，做代发、做平台工程，不光是为了让开发爽，让发布快，最终还是要为业务创造价值，帮公司省下真金白银。好，最后，我们再往远看一点，聊聊未来软件交付的终极形态，在我看来，不会仅仅停留在我们今天所说的自动化上，它会进化到一个全新的阶段，那就是由 ai 代理来驱动的自主化。你看专业的分析机构福特的 group 也有类似的预测，他们认为未来的 ai 不再是一个你问他答的助手，它会进化成真正的代理。什么意思呢？就是它可以在你设定的安全护栏里面，主动的自主的去完成一些复杂的任务，而不需要你一步步去指挥，这里将会从根本上改变我们软件开发和稳运的模式。所以聊到最后这个问题我想留给你来思考一下，在现在这个 ai 时代，你每天都在用的那套软件交付流水线，它究竟是在帮你加速创新，还是已经成了拖慢你脚步的那个瓶颈？也许现在是时候停下来好好想试一下了。
10钟同学的AI思考笔记
00:29
这是一款可以让你的AI直接操作各种软件的开源神器
查看AI文稿
AI文稿
这是一款只需一行代码就能让你的 ai 直接去操作各种软件的开源神器。它是广大最近放出的狠货，短短几天时间，在 get 吧已经拿捏十七 k 的 star。它只是做了一件很简单但很颠覆的事，就是只需一行代码，它就能把任意软件变成 ai 可以调用的工具。也就是说，不管是本地工具、脚本还是各种应用，都可以被 ai 直接调用，从你用软件变成 ai，帮你用软件写代码、跑脚本、执行任务， ai 可以一条龙帮你搞定，就非常夸张。
530亚莱加德
00:38
港大开源的疯狂Agent项目，一行命令将任意应用变成AI工具
查看AI文稿
AI文稿
兄弟们，港大开源的这个项目简直太厉害了，一行命令就能扫描所有应用源代码，将 g u i 操作映射成 api。它的核心思路非常直接，就是用 c l i 作为 a 键和软件之间的桥梁，将设计好的软件转变成 a 着能用的工具，并且不损失任何功能。像目前的图像处理、三 d 建模办公软件设计工具等， ai 想自动化操作它们，以前只能靠截图加识别加模拟点击来实现，而它会先自动读取应用源代码，然后生成一套命令行工具，最终让 ai 完成自动化办公、批量图像处理、三 d 渲染、流水线等实际应用场景。
411小白二次源
01:52
带小白1分钟了解2026年ai工程关键词：Harness Engineering（驾驭工程）#人工智能#大模型#harnessEngineering#ai小白#软件工程@抖音热点
查看AI文稿
AI文稿
二零二六年 ai 工程的关键词不再是 plant 提示词，而是 harness engineering 驾驭工程。简单来说，如果大模型是一匹强烈的烈马， harness 就是那一整套，江神和马鞍马只管跑。而 harness 负责告诉他任务怎么拆，失败了怎么重试，什么时候该把控制权交还给人类。 islopy 明确指出， plants 提示提升效果有上限。未来的关键性能全看哈尼斯的设计。为什么现在大厂都在提这个呢？因为模型能力已经商品化。 gpt club 和 jimmy nine 的差距正在缩小。现在的瓶颈在于数学直觉，即便每步成功率百分之九十五，只要串联把二十个步骤，任务完成率就会暴跌到百分之三十六。这种系统性方式需要靠哈尼斯城的约束和验证来治理。目前顶级公司的标准做法是深层与评估分离。 islamic 发现模型质评往往会盲目自信，所以必须单独建一个评估器 agent 来专门打分纠错。 open ai 只走得更远，他们用 honey 驱动的 code agent 在五个月内写了百万行代码，所有应用逻辑和 ci 文档全由 ai 生成，实现了一个自我改进的必亡。对于创业团队，我建议三步走，第一，立即在项目目录创建 a agents n n b，把 agent 犯的每个错误记成规则。第二，构建硬性的验证程，不要全听模型的判断。第三，设计模块化的哈尼斯架构，确保模型升级时，这套马具能平滑迁移。记住 open ai 工程师的一句话， agents 不难，哈尼斯才难掌握。驾驭工程是二零二六年 ai 创业的核心护城河。
7小郑总Richard
03:21
聊聊harness engineering 从prompt engineering到context engineering再到harness engineering，AI工程的重心正在发生巨变。3分钟讲清楚这三个阶段到底在说什么，为什么harness才是决定AI agent能不能真正干活的关键。OpenAI、Anthropic、Cursor三家都在押注这个方向。#人工智能 #ai #知识分享 #产品经理 #大模型
查看AI文稿
AI文稿
hello，大家好，我是 bruce。今天我想花短短几分钟聊一个你可能还没有听过，但今年 ai 圈非常火的词儿， harness engineering。要讲清楚它，我们需要先倒回去看两个阶段。在二四年，我们听到最多的是 prompt engineering。简单说就是你怎么跟 ai 说话，它才能给你想要的结果。写 system prompt 加 fewshot，规定输出格式，本质上是在指令层下功夫。你可以把 prompt engineer 想象成一个翻译官，把人的意图翻译成模型，能听懂、能执行的指令。它虽然很有用，但有一个天花板。你再怎么写 prompt 模型，看到的信息就那么多，它不会去自己找资料，不会调工具，不会记住上一轮干了什么。所以到二五年， anthropic 带头提了一个新词儿 context engineering，相信大家也不陌生，它的意思是光写好指令并不够，你还得管好模型每一步能看到什么，包括给它解锁什么文档，该连接哪些工具，该怎么压缩历史对话该在什么时候把信息喂进去。 prom 的只是 context 的一部分，而 context engineer 管的是整个信息供给系统。在二五年末， harness engineering 开始浮现出来。 harness 是什么？中文的意思是驾驭。你可以理解为把模型真正刨起来的那套系统。它不是模型本身，而是模型之外的一切。比如指令怎么输入，工具怎么调用，执行环境怎么搭，出了错怎么检测和修复，长任务跑到一半断了，我们该怎么接上？这些都属于 harness 的范畴。 openai、 antropica、 cursor 三家公司都讲了这个事情，它们说法不同，但核心一致。光有一个聪明的模型是没有用的，你需要给它搭一个 harness，一个控制系统，让它能够在真实的环境里反复执行，反复验证，反复改进。打个比方，你可以把模型想象成一个实力很强的实习生，你让他帮你做自媒体。账号 prompt 是你给他发布的 brief，写一篇小红书，主题是 ai 工具推荐，而 context 是你给他的参考资料，你账号过往的爆款文章，品牌调性文档，精品截图，今天的热搜榜等等等等。而 harness 是什么，是你给他搭的一套能自动运行的工作台，他写完初稿之后自动运行的质检流水线会检查有没有违禁词，自动对比品牌调性有没有跑偏，自动检测标题是不是符合算法，发布前自动走一遍审核流程，发出去之后自动抓取数据回来，告诉你哪篇跑得好，为什么好，然后把这几个经验自动沉淀下来，变成下次写稿的规则。没有 harness，这个实习生，每一篇都得你人工盯，人工审，人工复盘。而有了 harness，你扔一个 brief 进去，它就能自己合规的跑起来，而且越工作越靠谱。 harness 具体包括四层东西，第一，指令层，怎么告诉模型该干什么，不该干什么。第二，工具层让模型能够读写文件，跑命令，调 api。第三，上下文状态管理，让长任务不会因为 context window 爆炸了就失忆。第四，反馈闭环，用测试 eval， link 这些手段，把看起来是对的，变成被证明是对的。所以三个角色的关系，不是谁替代谁，而是一层套一层。 prompt engineer 管的是指令， context engineer 提供信息，而 harness engineer 把这些全部组成一个能跑，能验证，能持续迭代的一个系统。那么为什么你要关注 harness？因为 ai 正在从一个聊天工具变成一个干活的 agent，而 agent 能不能真正干活，干的靠不靠谱，取决的不是模型有多强，而是 harness 有多扎实。这就是 harness engineering，它把 ai 从能聊天变成能真正干活。如果你想学到更多的 ai 知识，关注我。
31Bruce说
00:27
港大开源项目Harness狂揽6.3k星标，撼动硅谷！ #AI #人工智能 #大模型 #开源 #Harness
查看AI文稿
AI文稿
ai 圈又炸了！港大开源项目 oppo harness 狂揽六点三 k 星标，让 ai 变得听话又好用。最近爆火的 harness，本质就是给 ai 装上浆绳和氨具，让大模型的可控性大大提高。而这个项目把整套 ai 操控系统彻底开源，智能体循环四十三款实用工具，超强上下文记忆、多级权限控制、多 a 阵协助全部打包，最绝的是一句 o 指令即可唤醒全功能，有了它，人人都能做顶级 ai 驯兽师。关注我，带你了解更多 ai 知识！
33腾科-智械老师说AI
01:37
在港大上海校区上学，下课就能逛豫园是什么体验这大学生活也太爽了吧～
#港大上海校区 #港大 #上海vlog #豫园#大疆pocket3
查看AI文稿
AI文稿
港大上海校区一天 vlog 先巡视领地，讨论校区建成时间中才用六十天沉浸式发呆，对校园贩卖机实施友好打劫下课就开始捉迷藏争霸赛中午前往餐厅吃大餐好欣赏龙岩不会胖哈哈哈哈啊搞到我想报答你的恩情了这是饭吧高雅人士品鉴中耶！猜猜这顿饭多少钱？依旧巡视领地校园限定键盘剑帽凳主打一个硬核入座下课了打个车直接闪现芋圆耶！葱油饼成功拿下一位香港搭子互相推脱葱油饼使用权先环绕运镜再说得绕一个坑猜猜这些黑的是什么？摸了幼纹化身旅行跟拍摄影师偶遇春晚同款机器人朋友们的标准拍照流程沉浸式生煎品鉴大会，你以为这就结束了吗？你有朋友经典的红墙今天还有某位过生日，让我们祝他生日快乐！生日快乐！
1228超能小黄鸭
00:29
AI驯兽师，港大开源Harness全套系统，四天拿下四千多星标 #Harness #开源项目 #AI新技术
查看AI文稿
AI文稿
四天拿下四千多星标，香港大学把如何驾驭 ai 的底层设施彻底开源了！最近不是又火了个词叫 harness 吗？说白了就是给马套上可驾驭的装置。放到 ai 这里，就是给 ai 套上僵尸和安具，让 ai 变得可控又可用。而港大这个开源项目，就是把驾驭 ai 的整套安具全开源了，四十三个工具，五十四条命令，十大词，代理文件读写、网页搜索、多 action 写作、跨绘画、记忆等等，全打包好了。最魔性的是，一个 o 命令就能唤醒整套系统，有了它，你就是真正的 ai 驯兽师了。
2987阿甘探AI
02:12
Harness Engineering到底是什么 #harness #AI工程
查看AI文稿
AI文稿
prompt engineering 还在学 context engineering？刚听说现在又来一个 harness engineering？别慌，今天用一个奶茶店的故事，帮你一次搞懂这三个概念。假设你开了一家奶茶店，招了一个新店员，叫小美，怎么把它从新手培养成金牌店员？三步第一步， prompt engineering 你给小美一张话术卡，遇到顾客先说，欢迎光临，推荐今日特饮，确认甜度温度，最后说请稍后马上制作。这就是 prompt 通过精心设计的指令，告诉 a a i 每次该怎么说怎么做。但问题来了，卡片上没写的小美就不知道怎么办了。第二步， context engineering 光有话术卡不够，你又给小美配了三件装备，平板显示顾客历史订单，耳机实时播报库存，便签写着今日活动规则。现在小美脑子里有了完整的信息，不再只靠那张卡片，这就是 context engineering。不止告诉 a a i 怎么说，还要把正确的信息塞进他的脑子里，但小美表现好不好，你还不知道。第三步， harness engineering 你不用亲自盯着小美，而是搭了一套自动化考核系统，摄像头自动录像，每天抽查时段，对话题库自动出标准场景考题记分板自动统计满意度和出错率，还有暗访机器人模拟刁难顾客，自动测试，你只需要制定规则，系统自己跑。这就是 harness engineering。搭建一套自动化系统，持续测试和评估 ai 的质量，确保它在真实场景中靠谱。重点来了，这三层不是替代关系，是包含关系。 prompt 是最内层，告诉 ai 怎么做。 context 包住 prompt 给 ai 提供完整信息， harness 包住一切，保证整体质量。 promp 教他说什么， context 给他看什么， harness 考核他做得怎样，从指令到信息到质量层层递进，这就是 ai 工程的完整图景。未来以来，拥抱变化。这里是 jarvis 实验室，我们下期见。
61JARVIS实验室
04:52
怎么避免长时运行的agent越跑越偏? #大模型应用开发 #AI应用开发 #Agent开发 #Anthropic
查看AI文稿
AI文稿
如果一个 ai 能连续写代码几小时，你最该担心的已经不是它会不会写组件儿了，而是它到底会不会规划，会不会验收，会不会在错的方向上越跑越远。在全站开发部分， anthtapiti 把前面的思路升级成三代理系统。第一个是 planner，它接收的不是超长 p r d，而是一到四句话的简单需求，然后把它扩成完整产品规格。文章特别强调， planner 不能一上来写得太死，尤其不要把细碎技术实现提前锁死，否则上游猜错一点，后面会层层传染。所以它更关注产品上下文和高层技术方向，还会主动把 ai 功能织进产品设计里。第二个是 generator，它不是一次性把全部东西糊出来，而是按 sprint 工作，一次拿一个 feature 去实现。技术栈写得很具体，前端是 react 和 vite，后端是 fast ipi。数据库先 static，后面再到 post script，还用 git 做版本控制。每个 sprint 结束后，它会先自查，再交给 qa。第三个是 evalerer，他用 playwrite mcp，像真实用户一样点应用，不只是测 ui，也测 api 和数据库状态。每个 sprint 都会按一套标准打分，覆盖产品深度、功能、视觉设计和代码质量。更狠的是，每个维度都有应域值，只要有一项没过，这个 sprint 就算失败。 generator 必须带着详细问题继续改。这套系统还有一个非常实用的设计，叫 sprint contract。每次开工前， generator 和 evalerer 先谈清楚这一轮什么算做完，怎么验收，哪些行为必须可测，因为 planner 给的是高层 spec，这一步相当于把产品意图翻译成可验证交付。通信方式也很朴素，就是通过文件来回写，一个 agent 写文件，另一个 agent 的读文件在回复。这么做的好处是交接稳定，上下文清晰，也不容易因为一长串对话把真正的任务目标冲淡。文章给了一个 retro game maker 的对照实验，单 agent 版本跑了六小时，花了两百美元，成本超过二十倍，但质量差距非常明显。单 agent 做出来的界面看着像回事，可一上手就暴露问题，布局浪费空间，操作流程不顺。最关键的是游戏根本玩不起来，实体显示了却不响应，输入完整。 harness 那边 planner 把一句话扩成了十六个功能，十个 sprint 的规格，除了基础编辑和试玩，还加了动画、行为模板、音效、 ai 辅助、精灵生成和关卡设计，可分享导出链接。最终虽然也有一些产品直觉不够好的地方，比如流程提示还不够清楚，但至少核心玩法是真的通了。更关键的是 evalererdrawbug 的质量。文章举了几个例子，比如矩形填充工具，实际上没有正确触发填充逻辑，删除实体出生点的条件判断写错了。 put frames reorder 路由因为放在斜杠 frame id 之后，被 fast api 当成整数参数匹配，直接报四二二。这些都不是空泛批评，而是可以马上修的具体缺陷。不过 anthropic 后面没有停，在多加 agent 就对了。这个结论上，作者开始反向做减法，因为第一版 harness 太重太慢太贵。随着 opps 四点六发布，模型在长任务规划、代码审查和调试上的能力更强。于是他们先尝试去掉 sprint 结构，保留 planner 和 evaluator，把 evaluator 改成整轮，结束后再做 qv。这里文章给了一个很重要的判断， evaluator 不是永远必须存在的固定配置，而是看任务是否超出当前模型单打独斗的可靠边界。落在边界内，它可能只是额外成本，越过边界，它就有真实提升。新版 harness，他们拿浏览器内 daw，也就是数字音频工作站来测，一句话，需求是用 web audio api 做一个全功能。 daw 整轮还是跑了大约三小时五十分，花了一百二十四点七零美元。其中 planner 四点七分钟第一轮构建，两小时七分钟七十一点零八美元。后面又经过几轮 q a 和反攻， q a 依然抓到了关键问题。比如很多核心交互只是展示，不是真能拖动编辑录音按钮是假的，没有麦克风采集音频效果可塑化，只是数字滑块，没有真正的图形化 eq 曲线。最后，作者的结论很克制，模型更强，以后某些老的 scout 会过时，应该删掉。但这不代表 harness 不重要，反而意味着你要持续重新判断，到底哪些结构还在提供增益，哪些只是历史包袱。基于原文可推断，未来最有竞争力的 ai coding 系统，可能不是最会堆 agents 的，而是最会根据模型待机变化动态调整编排复杂度的那一批。如果你在做 agents 产品，这篇文章最值得抄的不是某个固定三代理模板，而是它背后的方法论。先看真实失败点，再加结构，模型升级以后，再把不再承重的结构砍掉。
35宇哥AI精读
06:31
你是Harness派还是大模型派？
#harness #大模型 #智能体 #AI落地
13王老仙AI商业落地
02:06
南京地区学子想申请港大，不同国际课程要怎么选？近年香港申请又火爆了起来，南京地区的学子想申请港大，不同国际课程咋选？我懂！#美本 #留学 #南京留学 #南京留学 #香港大学
查看AI文稿
AI文稿
南京地区的学生想深进广大，不同的国际课程应该怎么选？那今天我就来给大家介绍一下 ib、 lever 和 ap 三大国际课程的特点。 ib 课程注重综合能力的培养，包含 cos、 tuk 一等核心要素，适合全面发展，不偏科、时间管理能力强，能够平衡学术和活动的学生。而港大对 i b 课程的认可度也是最高的。在第一批次的录取中，像南外 i b 和南师 i b 的不少同学就收获到了很多港大的 offer。 i level 课程可以灵活选科，适合在特定科目有优势的同学，例如擅长数学、物理等理工科的学生。大对 a level 课程的要求也非常明确，像热门专业都需要至少三 a 星到四 a 星，像今年比较热门的工程项目，已经要求实考三 a 星一 a 这样的成绩，而如果能够提高完整的实考成绩，对于申请的帮助会更加大。 ap 课程是单科考试，适合同时申请英国、美国并且想冲刺高校的学生。 ap 课程单次考试比较节省时间，而用于申请的也都是实考成绩，也是最容易达考的课程。港大一般要求三到五门 ap 五分的成绩以及一千五百分以上的 sat 成绩，像我们这几年拿到 offer 同学基本上都是以上这样的成绩。再来说下课程选择的核心原则，就是匹配自身的优势。和港大录取的特点。不同的国际课程体系虽然认可度要差异，但我觉得还是要能够在自身所处的国际课程体系里面达到前百分之的水准。例如 i b 需要尽量达到四十加的成绩， ele 需要达到至少三 a 星， ap 至少达到五门以上五分的成绩，再结合自身学习特点来选择最能展现自己能力的国际课程体系。如果大家想咨询南京地区国际课程体系方面的问题，欢迎联系我。
14东山大鲨鱼
04:03
给AI套方向盘和刹车，Harness Engineering Brief 第一期｜用最小demo讲清harness四要素，用真实TTS流水线讲落地。Agent自评通胀、无收敛检测、约束失效——三个问题怎么解。loop谁都能写，周围四件事怎么设计才是重点。
#AI #Agent #HarnessEngineering #程序员 #TTS
查看AI文稿
AI文稿
三月 ai 方向项目太多了，但这个月我真正花时间去研究，自己动手做的只有一件事， harness engineering carpathia 在做， shopify 在做， ospec 在做，独立开发者也在做。我自己做视频，大部分生产流程已经自动化了，但 tts 配音是最不稳定的环节，每次花最多时间的就是反复调发音调语速调停顿。这是一个典型的 l m 输出不可控的问题。我用 harness 的思路重新设计了整条配音流水线。这期先用一个最小代码讲清楚 harness 是什么，再用这个真实项目讲它怎么落地。先用一个最小的例子讲清楚 harness 是什么。我给 agent 一个问题，先有鸡还是先有蛋，让他自循环改进自己的回答，六个文件，零代码依赖路普周围有四件事，操作对象， agent，每轮置改 solution 文档，评估函数 criteria 文档，定义了五个维度，每轮打分约束系统 rules 文档写死了规则，跨轮记忆 memory 文件，每轮追加 loop 式发动机。这四件事是方向盘、刹车和安全带合在一起就叫 harness。但跑起来问题就来了，评估函数是挨剑，自己给自己打分，分数一路涨，但后面十几轮全在改错词，实质没变化。挨剑次既是运动员又是裁判，他当然觉得自己越来越好，没有收敛，检测分数在四十到四十二之间反复震荡，路普还在跑，纯粹浪费头肯约束说每轮最多改三处，但什么算一处？ agent 自己定义，自己执行，自己检查，等于没有约束。开放性问题，没有确定性的评估指标， harness 就很难真正闭环概念清楚了。看真实场景。我做视频，每期要用 t t s 生成配音，听起来简单三个痛点，第一，发音错误， carp c 被读成 carp d，六三零被读成行六万秒 tars 被读成秒 tars。 t t s 引擎是黑盒，你不知道它什么时候会读错。第二，改一个词要重做整条，一句话里改了一个发音，整段音频要重新生成，重新转写，重新对齐字幕。第三，字幕对齐每条音频的时间戳要精确到毫秒级，手动一条条对很繁琐。用 harsh 的思路重新设计，先解决改一个词要重做整条的问题，操作对象不是整条音频，是 chang 脚本先按句子切成小段，每段两百字以内，每个 chang 独立走完整条流水线，生成语音转写校验。对齐字幕，改一个词，只重做那个 chang，其他的不动约束系统用如此。文档定义了一套 tts 规则，英文品牌名前加句号隔断，防止连读数字转中文读法，连字母转空格。这些规则在生成语音之前就把文本规范划好，从源头减少发音错误。自动修复，最多三轮，超过了标记，人工处理不无限循环，跨轮记忆，用 normalize patches 文件，每次修复发现的新规则写进去，下一期自动加载 karpati 读错了一次，修复成卡帕西以后每期都不会再错。最难的是评估函数 demo 里的问题是 i 真的自己评自己，没有外部教验。 t t s 场景好一点。语音生成后，可以用 whisper x 转写回文字，拿转写结果和原文比对，这就有了外部信号，但同音字替换语气词增减不算错，真正的发音错误需要语义理解，所以评估分了两层，第一层，确定性预检文件是否存在时长、语速转写字数差异，不调 api，不花钱拦掉明显问题。第二层，克隆的语义效验，原文规范文本转写结果三方比对区分，发音错误和无害替换，拦不住的还有人工兜底。现在 prompt engineering， skill 各种 a 阵框架发展都很快，很多方案在优化单词输出的质量，但 l m 的输出本质上是不确定节点就会产生分支，节点越多，最终结果就越随机。提示词和 skill 能提高单次质量，但控制不了不确定性的极连放大 harness 在每个不确定节点加上评估约束和记忆，让输出趋向收敛，说白了就是测量结果和预期比对不对就纠偏循环直到收敛。这其实就是控制论的思想。 t t s 项目里，语音生成是一个不确定节点，外面套一层校验加修复循环让它收敛。整条流水线本身也是一个大的 harness 链，这些层是全局状态机，复杂项目里就是大 harness 套小 harness，工作量不小，偷啃消耗也不小。我这个项目用 cloud code 辅助做了将近一整天，但这是让 a 针的系统可靠产出的代价。 demo 和 t t s 项目的链接都在评论区， lupl 谁都能写一行就够，但 lupl 周围这四件事怎么设计，我觉得才是真正要花时间想的。关注工具人研究所，我们下期见。
5439工具人研究Hive
03:28
港前三的商科哪家强 #香港大学 #香港中文大学 #香港科技大学 #香港留学 #港硕
648文姐探校指南
05:47
video 最近大家都在聊 Harness，但有人已经在想下一步了。这段时间 AI 圈有个词特别火：Harness，简单说就是"套在模型外面的那层东西"——你给模型喂什么数据、怎么设计提示词、上下文怎么管理。大家发现，同一个模型，Harness 设计好不好，效果差异可以非常大。
于是工程师们开始疯狂卷这一层，各种 Prompt 模板、RAG 策略、上下文压缩方案层出不穷，全都靠人工调试、经验积累。
但 Meta 最新这篇论文的思路是：等等，这件事为什么还要人来干？他们做了一个叫 Meta-Harness 的系统。核心想法很简单粗暴：用一个 Code Agent 去自动优化 Harness 代码。这个 Agent 能看历史实验结果、看执行过程，然后不断提出修改方案，自己跑、自己迭代。
跑出来的结果挺能说明问题：
1. 文本分类任务准确率涨了 7.7 个点，同时 token 消耗降到原来的四分之一
2. IMO 级别的数学难题准确率涨了 4.7 个点
3. 代码任务直接超过了人类手工调优的基线
换句话说，以前 Prompt 工程师做的那些事，现在开始可以交给 AI 自己搞了。Harness 这层还没卷完，Meta-Harness 已经在想怎么把这层也自动化掉了。
#AI #干货分享 #LLM #程序员必备 #AI研究
查看AI文稿
AI文稿
大家晚上好，今天这个视频比较长，然后希望大家给耐心看。今天主要想和大家分享一下，我今天刚看到一篇关于哈里斯的，最近哈里斯一般的很火，我这边也就不会去重复介绍一下什么是哈里斯，今天主要是想跟大家认识一下 metac harness。 metac harness 其实是一个自动搜索和优化 harness 的外层系统，它核心做法其实说使用一个更强的 code engine，比如说 cloud code，比如说啊，例子，通过文件系统访问所有历史的一个后选版本的代码，并且日式还有做评分测评分数转化，可以像一个工程师一样真正去读懂你的代码。失败原因是实现自动化完整反复调试和优化 harness 系统的一个目的，论文的初试，他去分享两个实验成果，是一个文本分析场景，在图里面有个很多技术概念名词，这一局一个场景方面大家比较好去理解。假设你在做一个 ai 法律助手，任务是给模型看一段案情描述，让他去判断该定什么罪，我们需要从两百十五个罪名里面选一个，那 sales short，那他其实是说直接把案情模型什么都不准备，那它准确率是大概是百分之七 qsort 呢？其实说我们在把案情弄给模型同时又附上了几个历史案例去提升它准确率，那准确率我们就上升到百分之二十一。那 ace 是什么概念呢？那就好比说一个工程师我们花了几周所做的一个一套非常精妙的一个记忆筛选逻辑，我们把最相关的一个历史案例挑选出来作为模型，通过让准确率提升到百分之二十九， open effort 和 discover，呃，它其实是有一个自动化的一个调整机制，会尝试不同代码版本，它跑了四十四十次之后呢，准确率就爬升到我们的百分之四十二左右。那 metal harness，那同样它也是说做自动调整，但是它每次跑完之后呢，都会去完整的看一遍的运行设置，你说哪个按键预设错了模型？当时看到什么呀？上下文是怎么构构成的呀？所以说他每次改动都很精准，只跑了四次就达到了别人跑四十次才看到的水平，最终冲上了百分之四十。这可好比我们去做一个系统时候，那我们需要完整的错误去方便去定位你的系统的错误，也很准确去修改系统代码，那现在他的其实也是类似这么一套逻辑在里，然后同时考虑到整个现实场景其实会比我们的分类场景会更复杂一些。论文找到一个更贴近真实的工程，更复杂场景，你来去验证，也就是右边这个图，那它是选了一个 tomato batch two，那其实这个是一个专门去测 ai 能不能自己在比如说我们的 linux 系统上面独立完成一个复杂任务工程的一个测试机，同时官网也会有一个排行榜，它会有一个测试机，里面包含了八十九个真实任务。那全球会有很多团队其实开发了 ai 的啊，其实都会在上面去刷分，分数越高说明你的 aj 会更智能一些。我可以看到说红色柱子这个曼塔哈尼斯这种点化出来的版本，其实整个成功率是最高的，达到百分之三十七点五，当然四个是在跑的库四点五上面的一个成功在不同模型上它的分数是不一样的。接着来我们看一下，从内部看一下，叫做 aj 哈尼斯，比如说刚刚讲说这个场景，他们的整个关系怎么样？那是我们刚才也提到了说 komodo banish，它是一个 ai agent 的一个机动测试。 komodo 杠 two，它是一个通用的高自制的一个终端 agent 的 harness。嗯， tara，那它是基于 komodo 杠 two 之上的一个更强的 agent harness，我们这个论文里面提到的。 net harness，它其实是一个基于分明能 get 整个自动进化出来的 a 型的 hinesk 版本，我们可以看一下进一步的一个测试集啊，其实前面讲到的时候，上面测试是基于他的 hik 四点五去做的。左边这个图啊，其实是官方排行榜里面的一个结果，我们可以看到量子它有两个版本，一个是基于 call of ops 四点六的，那它其实分数就达到了百分之七十四点七。还有 jimmy 三点一的是百分之七十四点八，那量子杠 two 这个是分别是百分之六十四点七，这个是基于 gps 三五点三的。还有 ten minus 二 to 低于 cloud ops 四点六的，它是百分之二十六十二点九啊。 methelis，右边这个是 methelis 的一个结果，可以看到其实在我们的叫做 ops 四点六里面，那它已经分数到了百分之七至六点四，它其实会比 ten minus kilo 会更高一些。三十七点六，其实刚刚图里面去看到这么一个结果，其实你可能会很好奇，就说它到底是怎么去实现的呢？这论文中的第二张图其实是去讲述完整一个流程，那其实相当于我们可以从第一步，第一步基于存储的这些数据，包括源源代码，以及说一些相关日记，以及说一个评分分数去生成一个新的一个汉尼斯代码。第二步做什么事情，第二步就是说你生成汉尼斯代码，再结合你的任务集重新去运行一遍，生成对应的结果集，那在结果集会有什么？就包括我们的一个预制，对啊，以及说评判分数以及一个执行的过程，在最终把这个结果再存回到你的套系统文件系统里面去。像说有不同版本通过多次迭代之后，那你生成的 hic code 就知道所谓的一个最优版本，他肯定会比你最初手搓版本会更高一些，他是这个肯定是个前提，说你的这个 hics code 并不是说是无中生有的，你肯定是先要先手搓衣板，再结合这整套，那他也是之后那他会生成一个更优版本的 hic code，那其实这个就是整篇论文想去表达一个意思，大家如果对这个论文感兴趣，可以去找一下这篇论文，想去阅读一下。
11kipper 说 AI
01:25
UKChO金奖 + 港大offer：理科生的秘密是融会贯通！ #国际教育 #香港大学
查看AI文稿
AI文稿
嗯，其实我没有想到港大可以给我发 offer，这个怎么说下去呢，申请的人数也很多，竞争非常大，所以其实我没有想到港大会给我发 offer，然后拿到 offer 第一时间就是比较惊讶，然后比较惊喜。我觉得对于我这个 u k c a 时候竞赛的准备来说，呃，难题并不是就是这个知识，或者就是这个竞赛本身，而是当时在考竞赛很临近的一段时间，我还要准备 a level 的大考，就是当时一月和二月，我认为他跟我的大考一样，就是是一门我需要去完成的考试。后来在准备的过程中，有一次就是跟化学老师就是聊天的时候，他说就如果你真的很喜欢化学的话，竞赛对你来说不应该是一个任务，对你来说应该是一个很有趣的事情。然后后来就是我的心态就发生了变化嘛，然后反正对，嗯，因为我选的科目全部都是理科，对 a level 来讲就是平衡这些科目的关键在于你要找到这些科目之间的联系。物理的一些部分和普数，还有高数历学中的一些部分，它是有联系，有重合，甚至有重合的。化学和生物一些知识点也是有重合的，去融汇贯通的学习这些科目可以更好的平衡，就是多门科目的学习。录不录取，发不发 offer，玄学在这其中的占比其实比我们想象的都要要高。这个学校他不录你，他不给你发 offer，有时候可能是因为你运气不好，或者或者就是你跟这个学校他不匹配，我就申请进来说心态是很重要的。
16成都七中国际部

热门推荐

热门分类