这是一个人人都能训练的小模型,在 github 上斩获了四十二点八 k 的 星标,用三米加两小时就能训出仅二十五点八 m 的 超小语言模型,并且仅两千五百万参数, 最小版体积不到 g t p 三的七千分之一。并且项目开源了 tokino 训练,预训练 s f t 等全流程代码,拓展视觉多模态。所有训练脚本均为 p t r 曲原型框架,麻雀虽小,五脏俱全,完整复现。大模型全阶段训练是入门 l l m 的 绝佳教程。
粉丝2183获赞4.9万

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

最近发现一个工具,专门解决 ai 编程烧 token 的 问题,叫 r t k。 先说痛点,你用 cloud code 也好, cursor 也好, codex 也好。每次跑一个 git status, 输出十几行,全部塞进上下文窗口,跑一个 cargo test, 两百行测试日记全吃进去。这些输出大部分是废话, 进度条空行通过的测试重复的警告,但 l l m 不知道哪些是废话,它全都读,全都算钱。而 t k 做的事情特别简单,就是在命令和 l l m 之间差了一层。你敲 get push, 它帮你跑成功了只返回一行, ok men 你 跑测试一百个通过,三个失败,它只把失败的给你看。日制里同一行报错出现四十二次,它折叠成一行,加个数字,原理不复杂,但效果很猛。 有个用户跑了十五天的真实数据,七千多条命令,原始 token 接近三千万,压缩完剩不到五百万,省了百分之八十三。而且它不挑工具, cloud code, cursor codex, windsurfer, gemini, c l i idler, klein 七个主流 ai 编程工具都支持。装完之后,它会注册一个 hook, 命令被自动改写,你正常用 ai 也感知不到,区别就是上下文变干净了。安装也简单,一个 rust 二禁制,没有任何依赖,启动开销十毫秒以内。他说,我觉得它不够好的地方,它是用正则和规则做的过滤,不是真正理解内容。 g a t div 被截掉的部分可能正好是你要找的 bug。 注,是被过滤掉了,但里面可能有关键的 to deal, 成功的命令它不保留原始输出,过滤错了没法回看。 另外,它每个命令都要单独写一个过滤模块,源码里已经四十多个文件了,新工具出来就得加,长期维护是个问题,但整体来说,日常开发够用了。 g i t n p m cargo docker 这些高频命令的输出确实大部分是噪音,砍掉之后上下文窗口能多做很多事。感兴趣的可以搜 r t k gitlab 开源的。你平时 ai 编程一个绘画大概用多少 token 评论?

这个就是我们 openclaw vacuum 的 一个主页面,这个就是我们开发的一键包,我们双击一下进行安装,然后点击我同意,然后点击,然后找一个地方,然后安装,然后我们点击完成,然后它就会自动启动我们的这个 我们选择中文,然后进行下一步,我们暂时跳过设置,我们看一下。 首先给大家介绍一下 opencloud 是 什么?它是一个本地开源的一个个人的助手,这是我们的一个思维导图,它有非常活跃的社区,截止到今天为止,它已经登顶 gitup 上的榜首。 我们在之前提出过一个问题,就是为什么在 opencloud 里面一句你好,一个打招呼的两个字,竟然消耗了一万五千多播放呢?直到现在有十五万关注的一个浏览量。我们接下来看一下 opencloud, 作为一个 ai 的 个人助手,它可以比如说像网页的新闻搜索,每天什么时候定时给我汇报,或者说作为一个工作的一个客服,或者说一个知识库的问答都是可以的。然后我们介绍一下我们开源的 opencloud viking, 这是一个基于 open cloud 还有 cloud x 的 一个独立维护的优化版本,它解决了什么?它解决了一个古法代码启动的问题,比如说我们之前的话是在 linux 进行一个命令行的启动,这对于很多 不是程序员的用户很没友好。我们现在的话是一个纯图像的一个操作,我们看一下 一键启动,然后我们前端启动,后端,然后接下来回到我们的思维导图,它可以摆脱 linux 的 一个烦恼,比如说 win 系统的 wsl, 然后接下来是一个一键的图形安装,这是我们的一个开源地址,前期的话我们正在一个维护, 然后已经开源,然后接下来我们给大家介绍一下它的一个特性,第一个功能就是减少我们的噪声,它至少可以减少百分之五十以上的透光的消耗,也就是对于我们的一个更加省钱,这对于我们之前的视频实测过,大家可以看一下。 接下来是它的一个时间记忆的永久保存,我们采用的是 open viking 的 一个思路进行制作了一个三层缩影,接下来给大家慢慢的介绍。最后就是我们的三层缩影,就是我们的记忆白盒可以溯源。 我们首先来到 viking 的 主页面,配置一下它的模型,在此会很简单的配置一个,我们选择是 cloud 四点六这个模型,我们点击,然后输入 api k 就 可以了。现在先给大家演示一下如何进行跑通,我们接下来演示怎么获取,我们在这里面输入自己的 api k, 然后点击测试连接,我们发现已经连接成功了, 这个在国内不用开任何的一个科技或者魔法都可以使用,这是一个直连的,为什么说是直连呢?是因为今天中午的时候 cloud 它崩了,然后我们进行测试,结果可以显示它是一个官转的一个 api, 它是一家上市公司,待会介绍,然后我们点击提供, 我们进行提问,我们看一下他已经回复了,我们问一下当前的工作目录有哪些文件, 这个命令就是检测的是我们温系统是否可以读取我们的一个温系统的系统以及执行一下操作,他是可以成功的执行他的系统的命令,因此我们在温系统是绝对可以实现的。 然后接下来我们可以进行测试它的一个写入以及运行代码的能力,这些技能对于我们运行 skills 等等是一个重要的基础。我们让它写一个 python 的 一个脚本, 我们发送过去,我们可以看见他已经成功的执行了写以及执行程序,然后这就是他的一个文件的位置,然后我们进行测试一下他消耗了多少 token, 我 们输入斜杠 context detail, 然后就可以看到他的一个详情,我们可以看到他执行这个任务消耗了八千五百个头肯,按照我们上次的对比,原版的话最起码得在 一万七到两万之间的这个头肯的消耗。接下来我们看一下他的一个版本介绍,这个就是我们的一个三帧缩影, 我们看一下 roe 的 招标,就是一句话定位它有时间戳,就是我们优化了一个上下文的一个记忆,无论什么时候我们可以精确的定位,比如说像二零二六年 三月一号发生了什么事情,我们可以精确的进行定位当时的对话,然后来到我们的记忆,所以我们可以看到这个就是我们的一个白盒式的,可以看到当时的一个记忆,二零二一二二都是可以的。然后接下来给大家看一下它的模型的配置, 我们点击设置,在这里面可以进行一个自定义的 ai 的 提供商。 在此的话我给大家演示的就是我们推荐的这个魔星广场,因为它足够的优惠。然后我们点击这个, 然后我们会在这个优云智算里面进行注册一下,手机号注册,这个就是我们注册的,然后点击一下 它里面会送我们五元的一个余额,也就是说我们进行一个充值一块九,我们看一下我们进行充值, 然后我们现在就支付成功套餐订阅,然后点击这儿,然后点击立即购买,这个就相当于原价 a p i 的 一折起,我们实测了一下,基本上像 cloud 是 二折,然后像其他的都是一折,我们点击购买,然后我们点击复制,这就是我们的密钥, 然后来到我们的一键包打开,在这里的话我们比如说我们可以选择 open i 的, 在这里面我们可以任意选,在此的话我选择 open i 的 最好的编码的模型,我们在这里面输入,输入之后我们点击测试, 我们可以看到测试成功,然后我们点击添加就可以了,在这里的话它就会自动重启这个网关。 在设置里面我们可以看到我们这样点击一下使用的就是 gpt。 五点三开启一个新的对话,我们提问一下它是哪个模型,我们可以看到它的回答是正确的,也就是说我们可以在国内的环境进行直连,这个的话它一共消耗了两千五百个头狠。 像其他的比如说像定时任务以及我们的这个技能都是可以使用的,像这些其实说实话可以删掉,因为他在国内的话可能用不了, 我们可以来到这个市场上可以进行一个安装技能,在国内的话咱们可以联系一下钉头,就是我们钉钉以及非书。 然后接下来这是我们的一个设置模型设置已经给大家演示了,然后接下来这是我们的一个记忆缩影,这个就是我们一个长期记忆的优化,甚至到我们的一个时间戳。

别再瞎用 openclaw 了,别人用 ai 啊,一分钱不花,你却在疯狂地烧 talk。 今天一条视频告诉你, openclaw 到底能连哪些大模型, talk 又该怎么薅?哪几个模型便宜又好用? openclaw 能连的模型啊,就三类, 国际大厂 g b t cloud, 国产头部空一千万 g l m kimi, mini max, 还有本地的 alama 开源模型,零成本啊,随便跑,想省 talk 啊?记住三招, 第一,新用户免费额度全领一遍。 deepseek 百链智普注册呢,就能白拿几百万的 token, 每月还有赠送的额度。第二,简单任务,用低价模型,复杂任务呢,再上高端。 第三,本地跑开元模型,一分钱不花,如果追求性价比,日常清量啊,用 deepseek 加千万 flash 免费额度就够你用了。中等任务呢,选 mini max g o m 四点五,便宜又稳,复杂推理直接上 cloud, 索尼 g p 四 o 迷你效果顶价格还不心疼?逻辑通了,你一个人就是一家二十四小时无人公司,关注我带你用 ai 早点下班!

你每在 opencall 里问一句你是谁,或者今天天气怎么样,都在白白烧掉昂贵的美元。这种无效的 token 损耗其实完全可以避免。接入这个开源插件 c i a e w z max, 它能让你的 token 账单直接脚踝展,最高狂省百分之九十八。它不是靠牺牲模型质量来省钱,而是通过本地代理,在不到一毫秒的时间内,对你的每条提问进行十四维度的智能评分。 简单的动作,走最便宜的模型,真正硬核的需求才调用顶配。现在就去 get 搜索 v 五一 ai 斜杠 c l a w 思慕 max 下集我带你拆解他不花一分钱投坑就能做决策的底层逻辑。别忘了关注,这可能是你今年最省钱的一次点记,很多人担心在 opencloud 里加一层路由判断会不会拖慢响应速度? 完全不会。这个插件在本地起了一个极轻量级的代理层,它会对你发出的每一条 prompt 进行十四个维度的关键词扫描。这个过程完全在你本地 cpu 上运行,耗时不到一毫秒。最关键的一点,这个评分过程完全不消耗任何云端 token。 这就好比你在家门口雇了一个火眼金睛的保安,他一眼就能看出来访者是来送外卖的还是来搬家的,根本不需要打电话去总部请示。这种本地化的硬核决策,是你实现最高百分之九十八省钱目标的第一道关卡标记。玩复杂度, 剩下的就交给智能路由。当你开启 c l a w z max 自动模式,系统就开始展现真正的超能力。 如果你只是随口问一句你好,或者查询简单的语法,插件会自动把流量切到最便宜甚至免费的模型上。只有当你甩出一个极其复杂的架构设计或者深度 bug 需求时,它才会精准调度最顶级的模型。 这种切换在后台是完全透明且丝滑的,你感知不到任何区别。但月底看账单时, 你会发现,自己一直享受着顶配模型的智力,却只付出了极小部分的 token 费用。下集我带你实操如何获取 apikey 并完成部署。记得关注这套方案,能帮你省下大笔开发预算。为什么要选 zmax 做底层? 因为它解决了最头疼的模型碎片化问题。一个 apikey 就 能直接调动一百多个顶尖模型, 你再也不用去维护那一堆乱七八糟的平台账号。它完整兼容 open ai 和 antropic 两大协议标准, 你现有的开发工具改个地址就能用。最核心的是,它跑起来极其稳定,是目前大规模智能调度的最佳底座。这就是省钱又不降智的底层逻辑。下一集,我带你进入终端, 直接配 key 跑通流程,还没关注的朋友,点个关注,别错过最后这一步。实操部署拿到 zmax 的 api key 之后,直接在终端执行这行命令, 用 echo 把你的密钥写入到加目录下的点 open claw 斜杠 j m m t t 斜杠 api 点 key 文件中。 这里的等号是赋值操作,横杠是路径分格符,千万别写错,这个路径是插件读取权限的硬性约定。 如果你习惯使用配置文件,也可以直接在 open class 点 json 里进行定义。这一步完成后,你的智能路由网关就已经拥有了访问百大模型的通行证。虽然十四维评分很聪明, 但有时候你可能想手动指定,在你的消息开头加入 close max 横杠 auto 这种指令就能实现强制层级路由。 比如你要处理复杂的图标逻辑,直接在 prompt 里带上特定的参数标记插件,就会跳过本地评估,直接把请求打到你指定的模型水位上。到这里,你的 open claw 已经彻底完成了省钱进化。 下集,我将带你深度实测不同模型在极端压力下的路由表现,看看它到底有多稳。点个关注,后续更多 ai 提效黑科技准时推送!

今天这个视频给大家分享一些干货啊,身边很多朋友都在抱怨说养一只小龙虾太贵了,根本养不起,那么今天我就教大家两个办法, 帮你做到怎么把养小龙虾的金钱成本降到最低。我也给大家演示一遍,你们在现实生活中省钱是怎么省的?是不是有个办法叫开源节流,同样的,我们想省脱口的话也是如此。第一步,开源, 我们去到各大公司的官网大模型平台去注册账号,申请 apikey。 现在国内的很多大模型,为了推广自己的大模型哈,对新用户来说都有一些福利。我刚刚就问了小龙虾 现在有哪些大模型送新用户免费额度,他就给我列出出来了。看这个, kimi 送一百万 token, 十五块钱代金券, deepsea、 阿里云、百联通讯、千问智普永久免费。还有这个 mini max 也是一百万头肯送了三个月,有效期三个月。但这里面有建议啊,首选智普,想体验最强模型的话,阿里云百联它也有送免费的头肯, 对普通轻度使用者来说的话,可以用两个月。我在这里给大家演示一遍啊,我们去到 kimi 官网的 api 开发者平台,一般都是用自己的手机号注册登录啊, 只要你认证了就会送你十五块钱,我这里已经领过了,我半个月已经用掉了十块,还剩五块。 其他的大模型平台操作流程是一样的,接下来开始讲第二步,节流,把这一套方法发给你的小龙虾智能记忆压缩降投肯百分之六十分级缓存系统降投肯百分之二十五 上下文智能截断,将托肯百分之一十五托肯消耗监控卖给你的小龙虾哦,执行这套方法,刻进你的骨髓,看他怎么想赢。我看出来了,废话,他他会直接压缩分级缓存热点存储能数据归档 上下文,截断日常十轮,复杂的二十轮。以后你给他布置任务的时候,他就会按照这种工作流程,这种省托肯的工作流程。

大家好,欢迎收听。今天啊,咱们来聊一个特别有意思的话题,就是现在越来越火的人工智能编程助手,这些工具是越来越厉害了没错,但他们其实一直有个挺要命的问题,一个大家可能都没太注意到的问题。 来,咱们先从一个场景开始说起。这个场景啊,我估计很多开发者听了都会觉得后备一两。想象一下,你让 ai 去改一个核心函数,比如说叫 user service validate, 他改的挺快,看起来也没啥毛病,但问题是他根本就不知道你整个代码库里还有整整四十七个其他函数,都依赖着这个函数的返回类型。结果呢,一个看起来人畜无害的小修改,直接导致了一堆破坏性的变更,就这么上线了。这就是咱们今天要聊的核心问题。 好,那咱们就先来深入聊聊 ai 的 这个盲点到底是怎么回事。你看现在的 ai 写代码的能力真的很强,一些复杂的逻辑它都能搞定, 但是它看不到整个代码库的大局途径。这就好比什么呢?就像一个天才程序员,技术超群,但他偏偏被蒙上了眼睛在工作, 他能写出非常漂亮的一行行代码,但他根本不清楚这些代码和整个庞大的系统是怎么互相影响的。很多那种特别隐蔽但又非常致命的错误就是这么来的。那这个问题要怎么解决呢?说白了,其实也简单,我们得给 ai 一 张地图, 这一张所谓的地图用专业术语讲,就叫代码知识图谱,它到底是个啥呢?其实就是一个结构化的地图,把整个代码库的所有信息都画上去了,它能追踪到每一个依赖关系,每一个函数调用链,以及代码和代码之间的各种关联。 说得再形象一点儿,它就等于给 ai 创建了一套完整的神经系统。有了这个神经系统, ai 再去修改代码,就不再是盲人摸象了,它能清楚地感知到自己随便动一下,可能会牵扯到哪些地方。 好了,概念聊得差不多了,咱们现在就来看一个具体的工具,看看它是怎么实现这个想法的。这个工具就叫 get access。 哎,说到 get nexus, 咱们得先澄清一个事儿,因为很多人容易搞混。你看,有个东西叫 sony type nexus, 名字听起来特别像,对吧?但它俩完全是两码事儿。 get nexus 是 一个代码智能引擎,而 sony type nexus 呢,是用来存商包的仓库。 这里有个比喻特别好,能帮你一下子就记住。 get nexus 就 好比是一本历史笔记本儿,记录代码是怎么一步步演变的。而 sonata nexus 呢,更像是一个材料仓库,存放的是软件最终打包好的成品。一个关心过程,一个关心结果,这点啊,大家一定要分清楚。 那么 get nexus 到底是个什么样的东西呢?简单来说,它是一个开源的,而且是零服务器的代码智能引擎。 这里最最关键的一点就是,它所有的工作百分之百都在你自己的电脑上完成,管你是在浏览器里用,还是在命令行里用,都一样。这就意味着你的代码永远永远都不会被上传到任何外部服务器上。它能帮你深入的理解任何一个代码库的架构,同时保证绝对的私密和安全 啊。对了,对于开源项目来说,它是免费的。那最有意思的部分来了, git nexus 是 怎么画出那张地图的?这可不是随便扫一下就完事了,它有一套非常严谨的流程。第一步,结构分析, 先把整个项目的文件结构、文件结构给摸清楚。第二步解析,用 tree sitter 这种工具,把代码里的函数类、方法这些基本单元都给抽出来。 第三步,关系解析,追踪代码里所有的引用关系和函数调用。第四步,具类,把功能上相关的代码块组织在一起。 第五步,流程追踪,从程序的入口开始,把整个执行流给跑一遍。最后一步,建锁瘾,建立一个混合搜索的锁瘾,让你能非常快地找到想要的信息。你看,这一套组合拳下来,代码的里里外外就被它摸透了, 了解了原理。那作为开发者,我们具体该怎么用它呢?其实主要有两种方式,你看左边是命令行模式,也就是 c l i 加 m c p, 这个特别适合咱们日常开发,你可以把它跟你用的 ai 编程工具,比如 cursor 或者 cloth code 结合起来。 再看右边是网页版,也就是 web ui, 这个呢,就更适合做一些快速的代码探索、项目演示或者一次性的分析。但不管你用哪种,记住最重要的一点,所有东西都在你本地跑,绝对安全,绝对私密。 好,讲完了工具本身,咱们把视角再拉远一点儿。其实像 get nexus 这种工具的出现背后是一个更大的行业趋势,这个趋势就是智能体 ai 正在崛起。 genexus 最牛的地方到底在哪?它的核心创新其实是四个字,预计算智能。 咱们平时听得比较多的 r a g, 也就是解锁、增强生成。它的做法是什么呢?是让大模型自己去一个原始的知识库里头瞎逛,问好几次问题,希望能找到点有用的上下问, 这个过程又慢又费偷啃,而且还经常找不到关键信息。但 gennexus 的 思路完全不一样,它在建立索隐的时候,已经把所有结构化的信息都预先计算好了, ar 只要问一次,就能拿到一个结构完整、信息全面的上下文。 这么做的好处是什么?就是让 ai 的 工作变得又快又准,效率极高,甚至能让一些小模型也具备强大的大局分析能力。 这个趋势啊,可不光是我们自己说说。我们来看一份来自 utorry 的 市场报告,里面有一句话说的特别好,智能体相关的基础建设正在走向成熟,而商业变现会紧跟着实际用量和效果而来。这就等于给咱们正在讨论的这个方向盖了个权威的章。 这份报告还提到了几个 ai 开发领域种在冒头的新赛道,第一个叫 ai 原生基础兼属时,说白了就是给未来各种 ai 智能体生态系统铺路搭桥的底层管道工程。 第二个叫设备端 ai 智能体,也就是完全在咱们自己手机、电脑上运行,主打隐私安全的软件。 那 gnexus 处在什么位置呢?它就是这个 ai 原生基础间属实里面一个非常典型的例子,它给那些在本地运行的 ai 智能体提供了它们最需要的东西,代码智能。 讲到这里咱们差不多可以来总结一下了,看看这个技术转变对我们软件开发的未来到底意味着什么。 这个我们一直在说的代码智能,大家千万不要把它只看成是又多了一个新工具。 不是的,它正在成为未来由 ai 驱动的整个开发技术站里最最基础、最不可或缺的那个管道工程。它不是一个可有可无的插件,它是地基,这一点我觉得直观重要。 那么最后咱们用一个问题来结束今天的分享,一个需要我们每一个人都去思考的问题, 当 ai 智能体真正拥有了代码的神经系统之后,我们人类开发者的角色又会演变成什么样子呢?好了,这次的分享就到这里,感谢大家收听。

oppo 可浪呢,是我目前用过最强大的软件和工具,但它的 togg 消耗量也确实让很多人望而却步,甚至呢,因为高额成本不敢完全释放它的潜力。 今天呢,我就教大家四种方法,在性能完全不打折的情况,就是前提下把成本降到最低,实现 top。 四。在讲方法之前呢,我们要先弄明白 top 到底花在哪。 其实呢,你每问 ai 一个问题,发过去的就是并不是一句话,而是一个巨大的工作包,它包含五部分, 一、系统规则,他是谁,能干啥。二、工作去文件, a 阵 g 文件等等。三、对话历史会形成滚雪球效应,越聊越贵。四、工具的输出,抓取的网页,论文日制等等。 最后才是你当时的问题。这个呢,就像你雇了一个员工,然后每次想让他工作,你都得把员工手册,公司章程,岗位职责先从头到尾的就是跟他说一遍,然后再问他今天你中午吃了什么,你说这能不会吗?对吧? 那如何节省掏根呢?就是我们今天要告诉他步骤,而不是问题。第一种方法, qm, 传统情况呢,就是把整个资料像填鸭一样,整天给报大模型,就会呢导致输入 token 的 爆炸。 qmd 的 逻辑呢,就是在本地把 make down 数据库建立,所以你问问题的时候,它只提取最相关的几个片段和摘录给部分框,也就是模型,不再读全库,只读需要的部分,那它是如何工作?所以库是如何建立的呢? 第一个是 update, 所以 文件刷新。第二个呢,是向量的更新,以及向量的投,就是投射。重点呢是这两件事全是在本地跑,不消耗云端的投币,也就是说 qmd 把云端投币用来读所有文件和信息的成本都转化为了本地所有的成本。 那如何安装 qm 币呢?你可以让你的 opencloud 帮你安装,或者呢你想就是手动的安装,那么也只有这三步。首先呢就是运行这些命令到我们终端里安装 qm 币,之后呢,我们去到 opencloud 点 json 文件, 确保我们的 memory 是 这样的,然后呢我们就重启网关,这样呢就结束了。还有一点呢,值得一提的就是 qm d 还允许你精确的去控制你的预算,通过三个参数来实现,还是在我们的 open file 边最顺,这个文件形式就是里面 可以看到厘米的,下面呢有三个参数, max result 是 最多可以注入几段, max snivetime charts 是 每段允许多长,而 max injector charts 是 每轮总注入最多允许多长,也就是总的预算阀门。 接下来呢,我们来看第二种方法,就是用本地模型跑心跳,心跳呢就是 open clock 定时的唤醒行为,他呢按照你配置的频率把 a 阵的叫醒一次,让他呢执行一段心跳清单,他的屁的心跳本身就是走一次完整的 a 阵的回合, 他呢可以当监工,比方说你给我们可到一个特别长期的任务,他做就是承诺做完之后可能做一步就不会往下推进了,这个时候呢,我们就可以使用心跳, 定期的呢,每三十分钟的去刺激一下,触发一下我们 a 阵,疼,让他呢没有完成任务之前不准停下来。 这样呢我就保证了我们整个这阵的 open cloud, 我 们 ai 助手有一次性能确保完成我们的长期任务。那为什么心跳呢?会花费很多的 token 呢?因为每次心跳的输入通常都会包含系统提示词, worker space 文件的输入,尤其是 memory 点 md 和 agent 点 md 可能会变得很大,还有可能的对话历史。还有呢,就是 hadbeat 心跳本轮的提示词或清单,所以它的输出可能会很短,可能就是 ok 没有问题,但是输入可能会很大很长。 那如何减小心跳的成本呢?除了增大时间间隔这种常规的方法外呢,最根本还是直接让本地的大模型,小的大模型来跑心跳这种低智商的任务。 心跳呢,只用来触发,不用来执行任何任务。如果用本地的模型呢,大家需要下载一个欧莱吗? 然后呢,根据你电脑内存的配置来选择相对比较好的模型,比方这里的千万的各个参数的模型。然后呢,大家可以去告诉 openclock 心跳呢,触发任务 用本地小模型来做。然后呢,第三种方法,也就是最简单一种方法,就是尽量用订阅,而不是 api 用量。值得注意的呢,是很多的厂商是不支持这么做的,比方说安卓配,比方说谷歌, 他们的订阅呢,是严禁禁止使用到 open klo 的, 避免的,但是 open ai 目前他们是收购了 open klo 的, 所以呢,他们还是开放状的这个状态。如果呢,想要极致的稳定 走 api 用量而不走订阅,这个时候呢,你要注意了,如果你用最新的模型,不论是 azure 还是 open ai 的 模型,你的账单可能会成倍的增长。 最后呢,第四种方法,直接呢给你的 overclock 发指令,让他呢给你生成一个成本的体检报告,不用固定形式, 让他给你一份靠谱起的消耗驱动清单,可以是百分比的形式,看看到底哪项任务呢,最烧钱,最高的消耗来自于哪里找到不合理的地方。因为你刚开始利用 overclock, 总是会有很多不合理的地方, 比如说一个简单的轻任务,却携带了巨就是巨大的上下文。其实呢,有很多不合理的地方是可以被优化, 而高消耗其实不一定是必要的成本,很多很可能是那种就是流程和配置的浪费,我们呢是要根据我们自己的用处和任务来杜绝掉,那发现问题呢?如何优化呢?这里可以分为流程和模型两个方面考虑, 流程方面呢,能不能有一些轮询的任务改成就是事件触发符不符合条件。然后呢就是我们刚才讲的 gdp, 也是一个非常好的减少上下工序, 就是注入的一个方法。第二点呢就是从模型方面,有一些轻任,我们能用更便宜的模型或者小模型来替代,就像我们刚才说过的,用本地模型来做心跳也是一个非常好的方法。 最后呢就是由 openkey 给出的任务清单,和他讨论有哪些任务可以就是优化来减少成本。最后呢我们总结一下 大幅减少就是成本的四种方法,分别呢是使用 g m d 大 幅减少上下文的注入,心跳呢用本地的模型。第三个呢就是尽量用订阅,而不是走 a g i 消耗。第四个呢就是跟你自己的 openkey, 让他列出所有的就是 消耗投款的任务,由大到小。然后呢,跟他讨论优化的可能性以及如何优化,按照这个方案,保证你的欧文克劳既聪明又省钱。如果呢,你的理论别忘了点赞关注,我们下期再见。

春节期间,海外大模型聚合平台发布了全球大模型排行榜,数据显示,中国模型在全球排名前十的大模型 token 总用量中占比很高,这引发了国内对国产 ai 全球变现的关注,也催生了 token 出海的新趋势。今天我们来聊聊 token 出海目前落地的三种商业模式。 第一种是模型聚合平台上的 api 调用,这是目前最直接的出海方式,也是资本市场认可的模式。 海外开发者通过全球模型聚合平台调用中国大模型的 api 推理过程,在国内数据中心完成,海外用户按实际使用的 token 付费,中国大模型企业从中受益, 核心优势是电力核算力不出镜,但价值出镜。第二种是海外版 ai 应用,这类产品面向海外普通用户, 属于 c 端 token 出海。国内比较成功的有字节跳动的豆包海外版和 mini max 的 ai 陪伴应用。前者在东南亚、墨西哥等国的免费 ai 应用市场表现突出,日活超千万。后者吸引了近两百万海外付费用户,是 mini max 的 核心变现产品。这些应用依靠国内 i d c 服务的性价比 推理服务用国内平台,但变现方式是订阅、广告等 c 端模式,不是直接卖 token 给开发者。第三种是开源权重出海,这是长期抢占生态的打法, 中国公司将模型权重免费开源,海外推理算力平台在本地部署这些开源模型。不过这种模式下,海外开发者的 token 消耗在当地平台, 中国大模型公司无法直接受益。严格来说和 token 出海没有直接关系,但开源模型能抢占全球开发者心智,后期可通过高性能闭源模型导流到自家 api, 实现真正的 token 出海。总结来说,这三种商业模式本质还是国产算力的趋势, token 出海更像是给国产算力套了个新马甲,大家要注意其中的炒作风险。

现在用了二十七亿 toc, 花了五千多美金,现在有八个 a 正在运行,为了方便我监督所有的 ai 牛马工作呢,我做了这个项目, 这也是上期视频里面大家评论区问的最多的,问我这是个什么软件,能够同时显示出来 toc 数和金额数?这其实是我自己写的一个项目,现在已经免费开源了,给大家稍微讲解一下这个功能。第一,它能够显示出来你当前机器上运行的所有的功能。第一,它能够显示出来你当前机器上运行的所有的智能体,像这种绿色的是 codex, 像这种紫色的是小龙虾 openclaw, 像这种蓝色的它是 cloudco 的。 为了方便监督多个 ai 员工工作,我还做了一个密集模式, 它的窗口就会更小一点,因为之后可能会有同时几百个 ai 在 同时工作,这样的话一目了然,能够知道每一个都在干什么。第二个是有一个大的看板, 能够知道每天花了多少 talk, 以及不同的模型,分别花了多少 talk。 这个项目完全免费开源给大家使用,如果不知道该怎么找到,看这个名字, 如果不知道该怎么使用,把这个项目的地址发送给你本地的 agent, 比如 cloud code, 然后再加一句话叫做帮我本地部署启动这个项目就可以了,欢迎大家去使用,也欢迎大家提意见。

三月二十四日,京东一口气甩出五大 ai 进展,从开源大模型到聚生智能数据基建建指行业三大痛点,成本贵、落地难、数据荒。拿最近大火的龙虾智能体来说,针对 token 成本高这个痛点,京东云基于 joy 大 模型, 通过开源 openco 架构,推出轻量云主机、一键部署一体机、云上哨子板等多元产品形态,覆盖从个人开发者到中大型企业的多样化需求。自研云原生推理框架,优化推理成本,同时推出 kodin plan 大 模型套餐包,持续释放 tokun 降本红利 数据最能说明问题。京东云龙虾系列产品上线后近一周, tokun 调用量环比涨了百分之四百五十五。 这个涨幅背后,不光是开发者热情,更折涉出京东 ai 独特的战略路径,以轻量化工具撬动普及,以产业场景沉淀价值。 当前, ai 行业普遍陷入参数内卷与落地难的两难。京东的解法是构建工具普惠家、场景深耕的双轮驱动。 前轮是龙虾系列所代表的工具化能力,开源轻量模型一键部署多元产品形态,大幅降低 ai 使用门槛,让中小企业与开发者用得起用得上。 后轮则是京东深耕多年的产业场景,从金小智服务五万商家,到物流操脑降本增效,再到数字人具身智能在真实业务中打磨迭代, 这两者并不不利。他们跑成了一个正循环工具,给场景提供低成本的 ai 燃料场景,又给工具反哺高价值的行业数据和需求。 当不少厂商还在比谁的模型参数更大时,京东已经用龙虾把流量入口打开,靠零售、物流、健康这些产业众生把护城河系起来了。 这或许揭示了 ai 商业化的本质,技术领先是暂时的,而低成本触达加高价值落地的生态能力才是穿越周期的底气。 京东的实践表明, ai 的 真正价值不在于实验室里的参数,而在于产业土壤中生长的力量。

近期,太原 ai 智能体欧本科奥龙下凭借本地部署自主操控电脑的能力,成为 ai 辅助开发的热门工具,但底层参数配置一旦出错,就会造成巨大资源浪费。本次核心任务是对应的 tree s d k。 二 python s d k 进行全维度梳理,形成标准化文档与测试脚本。 实际执行中, ai 只完成了目录创建,后续工作全面中断,陷入执行中断、重试的死循环,没有任何有效成果, 却在夜间消耗了超百万级无效 token, 严重耽误进度。问题根源并不是模型性能或工具缺陷,而是两处核心参数被不合理手动配置。一是 context window 上下文窗口手动设为一万六千,远低于模型原声上限。二是 max tokens 单次最大输出 token 手动设为四千零九十六,限制了单次输出长度。配置的初衷是想降低 token 消耗,却忽略了工程化分析最大容量上下文的需求。 s d k 分 析需要读取多文件源码, 记忆目录结构,留存历史结论。过小的窗口反而成了性能瓶颈。 context window 代表模型的总上下文容量,可以理解为模型的短期记忆。一万六千的容量太小,系统会自动压缩数据,导致核心信息丢失,模型记不住项目进度, 只能反复从头开始。 max tokens 控制单次推理的最大输出长度,四千零九十六的限制无法满足工程文档和完整代码块的生成,输出会被强制截断,无法生成完整文件或使模型不断重复请求,这样就形成恶性循环。 上下文不足导致记忆丢失,输出截断导致任务无法完成,两者叠加引发无限重试,最终 token 疯狂消耗, 任务却毫无进展。解决方案非常简单, openclaw 本身具备模型参数自动适配能力,没有手动配置时会自动使用。模型的最大上限,我们只需要删除配置文件里的 context window 和 max tokens 这两个限制参数,保存重启后重新下发任务即可, 效果非常明显,任务效率大幅提升。 ai 可以 快速完成全部工作,精准判断底层通信架构,生成完整的架构分析报告,整理全部 api 接口文档,输出对应的拍丧测试脚本,完成统一配置文件参数。缩线并不是不能用,而是要看场景。适合缩线的场景 轻量级交互,比如简单查询单行代码修改普通问答,或是硬件资源有限的环境,可以降低消耗,提高速度。不适合缩线的场景 工程开发、项目分析、长文档生成、批量代码编辑等复杂任务,这些对上下文和输出长度有硬性要求,强行限制一定会崩溃。核心原则, 简单任务适度缩线控成本,复杂任务放开限制保效率,不要一刀切,给大家一个实用的配置。建议复杂任务直接删掉 context window 和 max tokens, 让系统自动适配。手动配置可以参考 常规工程 context window 不 低于八万,大型项目拉满到模型上线, max tokens 建议设为一万六千三百八十四。如果遇到 ai 失忆,输出截断,任务卡住, token 消耗异常,优先检查这两个参数。最后提醒大家, token 成本要看有效产出率,一次完整执行的成本远低于无数次无效重试的总和,提升效率本身就是在节约成本。

五分钟 ai 知识点学到 token, 这是大模型最基础也最重要的概念。 token 就是 大模型处理文本的最小单元,如同原子构成物质, token 构成语言模型理解的文本世界, 它可以是单词、子词、汉字或标点。掌握 token 就 握住了 l l m 的 算力方向盘,精准控制输入,预测成本,优化生成效果。 token 有 三个核心特性,第一,非固定长度,一个 token 不 等于一个字,比如中文人工智能可能拆为两个 token, 人工智能也可能是四个 token。 人工智能 第二,数值化表示每个 token 映设唯一 id, 如 ai 对 应数字三一九二四,再转为向量输入神经网络。第三,计费机制, api 调用,按输入输出 token 量收费,比如每百万 token 收费一元 token 计算,等于提问给大模型的输入加大模型的输出。关键机制有中英文差异,一个中文制服约等于零点六个 token, 一个英文制服约等于零点三个 token。 上下文窗口模型单次处理 token 上线,比如 gpt 四 turbo 支持一百二十八 k token 约六点五万汉字。为什么要学会 token 约等于 money 调用?所有付费大模型 api 都是基于 token 数计费模式。 我们来看一个实际场景,用户提问,订单号滴滴,二零二四零八一五,何时发货?第一步,使用 deepseek 分 词器拆分为七个 token。 订单号 滴滴,二零二四零八十五,何时发货?第二步,模型回复订单,已发货物流单号 s f, 一 二三四五六拆分为六个 token。 第三步,计算成本,输入七 token 加输出六 token 等于总十三 token 按 deepseek v 三定价输入,每百万 token 收费零点一元,成本等于十三乘以零点零零零零等于零点零零零零一三元。 行业真相,克服系统月耗千万 token, 优化分词规则,可降本百分之二十。动域模型采用不同的分词策略。 chat gpt 使用 bpe 算法,长词猜分准,人工智能猜为二个 token。 deep seek 使用 word piece 算法,词缀捕捉强学习能力,猜为学习加能力。 阿里 quinn 使用 sentence piece 算法,生僻词支持优氪氪金保留为一个 token 选择,建议六十四 k 选 quinn, 七 b 开元免费获 gpt。 四 turbo 多模态 六十四 k 到二百 k 用 cloud 三点七长文本理解强大于二百 k 选 gmail 一 点五 pro 需要高预算。 最后分享几个冷知识,第一,训练数据规模, gpt 三吃下三千亿 token, 约等于人类三百万年阅读量。第二,一百二十八 k 上下文威力,可一次性处理整本三体约六点五万汉字。 第三,中文的 token 税,同一段信息,中文消耗 token 数比英文多百分之四十到百分之一百。 第四, emoji 的 拆解,诅咒爱心表情被拆为心脏符号加修饰符共两个 token, 若用于情感分析,可能被误判五分。

万万没想到,让当下最火爆的 open clone 帮我们赚钱,结果他却要我们先花钱给他充 talking! 本期视频就来教你白嫖上千万 talking 的 神操作!首先打开这个网站,下滑找到这个输入输出都是零元的 deep secret, 轻轻一点它就会弹出详情页,点击打开这个 a p i 文档后,直接在 post 栏下复制这串网站的域名 url, 然后我们打开电脑自带的命令提示, 以管理员身份运行后,我们下滑找到龙虾的 api 配置页面,把刚才的 url 域名复制到下面后,回车,龙虾就会问我们索要 apikey, 此时我们再回到刚才的网站,找到 apikey 秘钥栏,新建一个自己的 apikey 后,我们点击复制,然后粘贴到龙虾的 apikey 索要栏下,继续回车, 等它提示我们输入模型 id, 再回到 deepseki 的 详情页的最顶端,点击这个复制符号,模型 id 就 已经到手。 此时只用粘贴到输入窗口,然后回车,一个无限 talking 的 龙虾就已经配置完毕,此时随便给他发布什么任务,等他完成后,我们进入消耗后台,可以看到我们已经消耗了十二万的 talking, 却没有花一分钱。

普通人到底要如何参与到算力租赁这个风口呢?今天这个视频呢,就完整的教给大家。那最近算力租赁头肯出海,这些概念就跟着 ai 一 起火出圈了。像算力啊,或者 api 租赁到底是什么?要怎么赚钱呢?简单说呢,其实就是租你电脑的算力给别人用。 我举个例子啊,比如说你想跑一个 ai 大 模型,或者用 ai 做批量的视频生成,但是呢,是能实现这种目标的设备啊,你光买显卡就得花几十万,但假如此时此刻你租别人的算力,按小时付费,那成本呢,就直接可以省百分之七十。那租算力给别人的那一方呢,也可以通过源源不断的订单来赚钱。那 api 租力呢,就更简单了,他就像是租别人的 ai 能力,比如说你想做一个聊天机器人,你不用自己直接搞技术, 租一个 api 呢,直接用别人的,非常方便。那现在 ai 可太火了呀,像做 ai 视频,搞大模型,开发智能应用,全部都得靠算力,但好的显卡呢,一台就几十万,普通人和小企业呢,其实根本是承受不住的,所以租算力呢,就成了刚需。那对于我们普通人来说呢,最简单的入局方式其实就是去大厂代理 空手套白狼。那意思呢,比如说你去当腾讯自结这些大厂的算力,或者 a p i 代理,就像帮他们卖算力套餐,你不用花一分钱啊,只要能拉到客户呢,就能拿百分之十到百分之三十的返点。 我举个例子啊,就是你推荐客户买了一万块的算力套餐,最少呢也能挣一千块,客户越多赚的越多,享用门槛非常低啊,我觉得几乎每个人都可以干。 第二种呢,就是线上平台托管算力卡,基本上等于躺着收租了,要是你手里有闲置的一些高端显卡,可以放到一些线上平台上去托管,那平台呢,会帮你把显卡租给需要的人,你什么都不用管,每天看着租金到账就行。 第三种呢,其实是适合有实力有资金的朋友啊,你们可以租个正规的 a、 i、 d、 c 机房,比如说像阿里云、华为云的机房,然后呢,自己去买一对高端显卡,配置好后呢,租给企业客户。但是 a、 i、 d、 c 机房是受国家严格监管的,所以必须要有 a i、 d、 c 的 资质,企业才可以搞,个人呢,可千万别瞎折腾。

现在我们看到的是基于我开源的 graph memory 制作的一键安装包,我们可以通过这个安装包双击就可以安装成功。 然后我们看一下它的一个特性,给大家分享一下本周我们在 清华大学进行分享的这个项目, open cloud 的 一个上下文引擎插件 graph memory pro, 我 会给大家进行一个图解。首先我给大家介绍一下它有哪些功能,我们可以清晰的看到右侧的话是一个可以交互的图谱,这也就是我们通过 多轮对话进行提取出来的。然后我们对比一下 graph memory 以及 loss loss curl, 我 们可以看到它的一个使用,以及最后的一个写入一个文件,我们可以看到所有的实体都是我们的一个操作的显示,然后我们打开一下 这个制作的 word, 我 们可以看到它做的还是非常的不错的。 然后回到我们的一件包进行演示,它不仅仅可以进行可塑化我们的一个对话的历史以及我们的有价值的记忆。同样呢也可以使用的一个交互,比如说我们找到一个实体,我们可以把它拖进来 进行一个直接使用该实体作为一个 skills 的 一个介绍,我们通过发送信息就可以使用这一个。然后接下来我们可以看一下像其他的,比如说像我们的这是图谱里面的增删改查,我们在这里面就可以使用, 我们可以进行一个精准的修改,以及它的一个关系。比如说我们以这个 web fetch 为例, 我们找到它可以进行修改一下,比如说 然后我们点击保存,然后它就会自动的跟着我们进行一个修改,看一下,我们通过旋停可以看到里面的一个内容, 当然的话我们所有的节点都是参考 skills 的 这个架构进行的,在我的这个设想里面,我们会使用这个模式进行一个构建自己的一个个人图谱,各一个个人的一个知识的体系,然后我们使用这个进行知识的注入,我们看一下我们直接发送 这个就是刚才我们的这个技能,也就说在我这个体系下可以进行把每一个实体当成它的一个 skills, 然后接下来我们可以看到他其他的一个功能,我们使用的时候需要这样子点开模型设置,在里面的话有各种各样的一个配置,可以自定义,以及我们推荐的优云计算。在这里面的话可以使用这个套餐,比如说我们使用的是 mini max 二点五, 我们可以点击测试,如果说没有 api 的 话,我们点击这里注册的话可以送五元的额度, 然后我们登录进去,就是这样子,我们可以在这购买一个套餐,接下来来到我们的 api k, 然后我们复制一下放在这里面,然后进行测试 就可以了。由于我们这个是一个插件的版本,所以说我们必须要设置这三个,第一个是它的一个知识图谱提取的模型, 我们同样点击设置,然后接着是他的一个切入模型,我们可以选择这个 embed 顶的, 这个 embed 顶的话是在套餐外的,所以说我们可以多充在这里面,我们选择幺五三六的维度,接下来是他的这个图数据库,图数据库的话我已经集成到这个一键包里面,我们不需要填写密码,直接测试连接就可以了。需要注意的是,我们一定要点击右侧的这个 显示才可以。开源不易,希望大家可以更加方便的使用以及更加愉快的使用。三连评论关注优先发送。然后接下来我给大家分享一下 我在清华大学的一个思路,也就是说这个 graph memory 是 如何进行工作的。我们首先从发现问题开始,我们首先看第一个问题,为什么简单的两个字就消耗了一万五千多 tokens 呢?我们可以看到 在这里面的话,它有很多的一个系统的配置,系统的文件,比如说它的一个 a 阵的定义,以及它的一个回复的定义,还有很多的十八个 token, sigma 的 一个参数的定义。因此的话我们无论提问任何的问题,它就会有一个基础的一个 token 的 消耗。 然后接下来我们第二个问题,为什么会开启了一个新的对话,会以望而知己的记忆,我们看一下右侧,右侧的话是我们正常的一个记忆的增长,第一轮对话,第二轮对话,第三轮对话,然后他会越底越长, 然后到了一个预值。在 open cloud 的 一个版本中, open i 的 话是在上下文长度百分之七十开始暴力压缩,这个压缩是一个黑盒的形式,我们不知道它到底压缩了哪些,丢失了哪些重要的信息,因此我们做了一个可直观的一个白盒。 我们再看一下第三个,现在这么多的知识以及 skills, 我 们该怎么管理呢?我们的答案是制作一个知识图谱,我们可以看一下,比如说我们进行办公,比如说我们写了周报,写了新闻记录日程, 然后以及我们的对话的招标,以及我们的一个发邮件。这个东西是我们普通的 open class 来说,它会一个 记忆的一个散落,但是他确实有联系的,比如说他们是一个办公的场景,我们通过这个知识图谱完全可以进行一个社区的计算,通过我们不同的任务描述出一个统一的主题,这个就是我们的一个记忆的体系。 我们在进行深入了解之前,先进行一个基础的讲解图解原理。首先什么是上下文工程?我们可以看到左侧这个图, 我们首先最初是什么?系统的提示词加上用户的输入,就像我们之前在网页上聊天一样, 系统的提示词你是一个助手,请用中文回答,用户输入今天天气怎么样,然后 ai 回答是今天天气,这是最基本的一个方案。然后接下来我们就到了一个净化,比如说加入我们工具的调研,比如说让我们查询一下明天的会议,比如说 ai 调用了一个查询日历, 然后我们 ai 回答就是明天上午十点,这就是一个加入一个工具的调用,甚至是一个 skills。 接下来我们就要延伸出一个主要的观点,就是这个 react, 所有的无论是 open code 还是 cloud code, 还是 open cloud, 这都是一个 react 的 结构。 什么意思呢?它是一个思考、行动,观察,然后再思考,比如说我们发出一个指令,然后拿到结果进行思考,然后继续进行一个, 我们以这个例子,我们看一下系统,迭个词,加工具,加记忆,加 skills, 然后帮我整理一下会议的资料,这个就是一个循环推理,直到一个完成。比如说他思考一下查日历,对于复杂的任务,他就有一个结构的编排。第一步查日历,然后 接着再想一下,然后搜文件,再想一下写摘药,最后完成我们这个复杂的记忆,这就是我们的一个 react 的 结构。 然后接下来我们看一下什么是知识图,比如说我们以这个整理桌面为例,我们给 open club 一个命令,整理一下桌面,他会进行使用一个什么的工具,然后最后一个整理,这就是一个最基本的一个三元组整理桌面,使用了这个技能,然后完成了某项任务, 然后我们接下来看一下,随着任务的不断增多,它会有一个类似于一个神经元的一个交叉,但是所有的东西都形成了一个我们自己的一个知识体系,这是我们最基本的一个知识图的概念。 然后接下来我们来到了一个 graph memory pro 的 一个设计思路,也就是我们现在给大家开源的一个一键安装包。我们看一下 建立在我们刚才的 react 的 一个执行上面,我们可以看到同样的一个执行桌面的清理任务,我们可以有这些,比如说看一下桌面上有什么,然后反馈, 比如说我们看一下桌面上又有什么,然后程序开始执行调用一些程序看到看到之后,然后返回结果,然后再调用一下分类,然后会报错,然后调用,然后最后完成,这就是我们模景的一个例子。然后接下来这是一个传统的 open cloud 的 一个记忆结构, 对于我们来说,我们完全可以进行一个提炼去造提取我们的一个三元组。比如说我们整理桌面,无非就是我们下达了这个命令,也以及使用了某种流程,然后最后实现了某种东西。 我们可以看到我们可以提取三元组进行构建一个知识图谱,最后的话通过我们成熟的一个图算法进行一个智能的召回, 比如说像个性化的编程,社区计算等等,这些图算法已经在我们的一个开源项目中,欢迎大家一起探讨交流。然后接下来我们看一下我们最终的一个实验效果,也就是说我的这个方法,这个思路带来的一个优势。 我们看一下左下角,左下角的话它是从上午到下一共七轮对话,二一、二、二三,直到第七轮对话, 我们可以看到红色的是原本的 open class, 它的对话是限性的,积累的是不断的增多的。我们可以看到 右侧,右侧的话是个蓝色的,可以看到在第三轮对话,他很多的情况下,在第四轮做到了一个裁剪,这是一个非常大的一个 作用,什么意思呢?因为我们使用的模型在很多的情况下不能一次性执行完成我们的任务,所以说需要多次试,如果说像以前一样多次累积的话,那么它的所有的报错以及它的一个试错的一个过程都会累积在上下文,根本没有办法处理, 除非达到了这个预制,进行一个被动的黑盒式的压缩,我们现在做到了,我们可以看到在第三轮和第四轮、第五轮可以看到一个明显的一个差异,然后我们进行下一个介绍。 graph memory 是 什么?它是一个 open cloud 的 一个上下文的插件,它用知识读谱代替了原本的一个暴力压缩以及黑盒。 我们可以看到他第一个是主动的一个中流,第二个就是我们的持续图谱以及双层的一个召回,然后就是我们的一个个人的知识的资产体系。接下来是我们的一个白鹤教火,这个的话一开始我给大家都演示了, 我们看一下,首先是一个主动的一个知识中流,我们看一下左侧,左侧的话就是我们刚才的一个案例, 整理一下桌面,我们可以看到他有很多很多的一个噪音,我们完全可以把最关键的几个进行抽取成知识图谱,然后进行一个储存到我们的一个记忆体系,无论是以后我们使用还是什么,构建一个我们自己的一个体系。然后接下来我们实测压缩了百分之七十五, 然后他的一个信息的压缩比,然后我们这些这个就是我们的一个按 按例,然后接下来就来到我们的一个双层召回,我们解决的是两个问题,如果说我们提问实际的问题,比如说我们提问上次的一个整理桌面的问题,那么他会很简单的就会通过我们的项链以及他的一个个性化的配置档口,先找到这个相关的一个三元组, 然后返回,这是很简单的,但是对于我们这些复杂的问题,比如说像概念性的问题,总结一下昨天做了什么,我们就可以通过这个社区的招标以及我们的持续图谱的过滤进行整合一下我们到底做了什么, 这是我们的一个底层架构。然后接着看一下他的一个个人的资产, 原本的话它是一个散落的各个的文件,比如说像 memory 啊还是什么之类带有日期的,对于我们以后的进行一个维护,以及我们的一个版本迁移,这个是致命的,因为我们并不知道它是用来做什么。 然而对于我们现在的这个已建包来说,使用了我们的 graph memory pro, 它是可以结构化我们的一个资产,进行一个增删改查、已建、迁移等等, 这就是我们刚才介绍的。然后接下来就到了我们的一个芝士的白盒可交互化,刚才也给大家演示了一下。