如果你还在手动翻阿凯,或者为了写综述熬大夜,那你一定要看这条视频。千位学术在四月二十日迎来了重磅更新,正式上线了全能的学术 agent, 还升级更新了 ai 订阅功能。 首先,我们来看一下本次更新的核心,你的专属智能学术助手学术 agent agent 在 启动之后将持续运行,从灵感发现、论文复现、文献综述到 gpu 配置,提供全方位学术支持,全程帮你省心省力。 你可以随时通过对话指挥 agent 执行任务,彻底解放学术人的双手。话不多说,一起来看一下它的核心功能。第一,灵感发现。通过苏格拉底式对话,逐步明确研究方向,并形成完整的研究计划, 拒绝艾蒂尔枯竭。 ai 会从问题动机、核心想法到技术细节,全方位协助构思,逐步明确研究方向并形成研究计划。第二,文献综述自动搜集文献阅读并生成深度学术综述,支持自定义篇幅与文献范围实测可支持一次性处理两百篇论文,通宵产出二十万字加的高质量深度综述。 第三,论文赋现自动完成。论文赋现包括信息收集、计划生成、 gpu 分 配、代码执行、一键申请、 gpu 服务器支持多种型号选择。更绝的是,它可以一眼看穿论文含金量,还能快速梳理核心学术图谱,一键 get 及研究脉络,再也不用手动翻遍全网。 接下来看一下升级后的 ai 订阅功能。在工作空间的首页,我们找到 ai 订阅,点击个性化设置,先选择自己专业大方向,然后订阅你关注的顶级刊,比如 nature、 nature machine、 intelligence, 找到刊点一下添加,就可以加入你的专属订阅列表。另外往下还可以自己设置研究兴趣, 比如大逻辑 rev evaluation 这类研究方向,输入后保存就可以。之后系统每天会自动帮你去 archive 和订阅的刊里爬取最新论文,再根据你设置的兴趣自动筛选匹配符合你研究方向的论文, 都会自动整理到 ai 阅读专区,再也不用每天挨个翻刊刊刷上千篇论文标题了。直接打开 ai 订阅板块,就可以轻松看到自己研究领域的最新论文,特别适合科研党,省时省力追前沿。
粉丝122获赞67

一百八十四个角色,这个项目啊,评论区很多朋友们说自己不会玩,也有些朋友们呢,说担心烧头肯厉害,这条视频啊,我就从零开始带着朋友们完整的走一遍,头肯的使用情况后面我也会发出来啊。首先呢,这个项目是 get 上的一个开源项目, 我们进到项目主页以后啊,直接点击这个绿色的按钮,复制项目的仓库地址。那接下来我们要把它丢给我们部署或者安装好的工具,那工具呢,可以是 op, curl, 可以 是 tree, walk body, cutwork, 悟空或者 hammers, 随便哪个都可以。但我建议啊,最好是我们本地部署的 hammers 或者是 op, 这样呢,自由度会更高一些,如果只是想先体验体验,那就无所谓了。我这里就拿我部署好的 hammers 给朋友们做演示啊。模型呢,我用的是 deepsea v 四 pro, 我 们把复制好的项目地址直接丢给 hammers, 然后给他说,请你深入分析这个项目,我需要你完整的部署它, 我们所用。其实啊,现在我们和 ai 沟通,完全没有必要说你是一位什么什么资深的专家。啪啪啪啪啪,我们只要把我们有什么,我们需要他做什么,需要达到什么样的目标给他说清楚就可以看, 这不就开始了吗?结果他一通搞啊,这就部署完成了,其实很简单,所以朋友们,我以前呢,和你们也一样,也是磕磕绊绊一步一步踩坑过来的。但是当初啊,我发了视频后,朋友们就不用踩我踩过的坑了。 部署完成后啊,因为角色太多,所以说我们也记不住,那我要让他把角色清单存一份到我的 office 的 仓库中,这样呢,我们以后要使用哪个角色的能力,就直接告诉他用哪个角色做哪个任务就可以了。他保存完以后啊,正式的任务就开始了,这是我第一次给他布置任务,让他调用这个, 然后呢进行一个多 action 的 指挥, 这是我 dsp 的 消耗,总共消耗四块五毛七。

给大家介绍一下新手如何快速搭建及使用自己的 a g 的 智能体来提高你的办公效率。该教程主要针对未使用过智能体的新手啊, 这个智能体的就是字节跳动推出的翠 solo, 这个翠 solo 先简单说一下啥叫智能体啊,就是你丢给他一个目标,你给他一个,他会自己去拆解任务,做规划,开始干,在干的过程中, 该查资料的查资料,该写代码写代码,该调用工具调用工具遇到需要授权或拿不准的时候,会停下来向你确认,你这边确认补充说明后,他会去接着去推进,直到把你给他的任务完成。 这个智能体呢,它目前支持 pc 端,还有移动端以及云端,云端是网页上可以直接去操作。还有两种模式啊,点击左上角,你能切换 control 模式是针对开发人员的,大多是用户场景还是基于这个 mtc 的 这个场景。 首先你装完之后呢,要给它最好是配一下自己的一个模型,我这边用的是 gm l 五,因为到晚上的话可能也会出现排队 被收入他自己自带的模型,到工作高峰期也会排队,排的时间有时候会比较长啊,会影响你的工作效率,所以建议大家去配一下这个模型。模型的配置呢,其实就是点击左下角这个头像,然后再弹出到这个框里,点模型模型,这里点添加 添加,你根据你自己的需要吧,可以使用 kimi, dp 还有海螺啊,以及这个字谱的啊,这里以 deepsea 为例吧,你就选择把两个模型都选上啊,两个,一个是 一个是推理模型,一个是快速的模型 api 的 话,到 deepsea 的 官网去去注册登录,完成实名认证,在 api key 这啊新建一个 key, 把这个 key 复制过来, 复制过来之后点击点击这个提交,先点击这里的提交,再点击下面的提交。模型添加完之后,在这里就选择自己配置的模型去用就行了啊,模型配置大概就就这么多。另外一个就是啊,这个技能是智能体的一个 比较核心的一个功能啊,去 solo 它官方自带的有一些智能体,这些智能,这些 q 啊这些技能, 这技能你可以根据需要去去安装就行了。点击这个加号就安装啊,它上面有介绍,根据你的工作场景啊,需要哪些去装哪些,你自己也可以去啊,多尝试多去试,自己摸索一下啊,我这边也安装了一些技能啊,有这个, 这也是我在日常使用过程中去装的一些技能。这个还可以自己去安装,有两种,一种是官方直接安装的,另外一种就是可以去上传自己的技能啊,这里我可以上传一个演示一下把,这个我之前上传的,我可以给它卸载,装完之后不想要可以卸载, 点击这个上传技能,这个是技能的一个压缩包,它必须是 vip 的, 或者是直接一个六点 m d 也行啊,这里面按照它的格式去上传就行了啊,这个技能的话你可以从多渠道去获取吧,这个根据自己的需要去上传就行了。 技能上传完之后,他在这会出现,在这出现这个技能是应该是一个文章的,检查文章是否有 v i 感的一个技能啊,创建完这个技能一种是直接安装,一种是自己上传啊,这是两种方式啊,下面给大家说一下这个 如何去使用啊,在如何去使用智能体啊?智能体的话,那你其实针对这个智能体主要的还是针对你技能的一个使用啊,如果仅限于跟他聊天的话,那你用豆包用 deepsea 网页版的那个也可以用啊,效果也没差多少,那个还还免费。 所以说既然用这个,那肯定你要么用他的这个技能,要么用他的自动化啊。技能的话,因为是针对他,可以针对你的办公场景啊,针对你的实际的工作情况,去打造一些 qq 的 工作流程啊,这个才是重头戏啊。 目前这是两种模式嘛,一种云端,云端的话你可以在本地操作云端,也可以在网页上直接用啊,其实这个看个人需求啊,最我这边主要用的最多的还是基于本地模式。 本地模式呢,给大家演示一下这个技能如何用,有两种方式,一种是自动触发,一种你啊手动。比方说你可以指定一下这个是通过浏览器,他能去打开浏览器去登录账户了,去操作各种网页啊,这边可以去尝试一下啊,比方说我们让他搜索一下, 打开百度搜索今日热点吧,热点汇总汇总成文档,这个你说完以后他就开干了。他这边因为他工作的是智能米,智能体不同于网页啊,他这边如果去调用技能的话, 他右边会展示调用了哪些技能。这边他还有一个 ppt 啊,这边我也试过,他做的 ppt 也还行, 它这个智能体你看不到,它是内置的,你给比方说咱把这个新闻的文章它做成文档之后,搜集完之后,你可以接着让它去做啊,帮我做成 ppt 啊,它会已经寄予一个文档,它会帮你做成一个 ppt 啊,这个可以自行去尝试。 你看这个,这边他调用智能体之后,他右边会有一个代办任务,他他需要规划几步去做啊?这边他规划了三步,下面他这个技能就是 skill, 他 调用了哪些技能,他会列出来啊?这是产物,这最后的结果会放在这, 调用他内置的技能,咱让他去,让他去干。咱们这边还有再再建一个任务,可以有多个任务再给大家演示一下。基于本地工作的话,其实如果咱真是要用这种智能体的话,肯定要解决咱们自己 一个办公场景的一个重复性,重复性的工作可以教给他打造成 skill 啊,让他去帮你去做啊, 其实这个才刚才说了,这个就是自定义技能啊,这的话基于本地工作,这个才是 真正能帮助企业 ai 落地的一个核心的一个功能啊,因为你可以基于 skill skill 的是啥?它就是一个工作的一个指导啊,你这个建完之后,你指定你只要说你当前要干啥,它会判断出你当前要使用哪个技能去做哪件事啊, 针对你企业的,因为每个企业的场景都不一样啊,可能每个企业使用的这个落地的 skill 可能也都不一样,这里没有一个什么共性的一个东西啊, 这个当然你打造这个,打造这个 skill 的 话,可能需要你对 ai 有 一定的认知啊,你可能说我,我知道 skill 怎么建啊?我知道,但是你要是对这个 ai 认知达不到的情况下,那你可能 就是做出来的技能,包括日常使用中,它可能也不会那么理想啊,你可能说啊, ai 也就这样, 其实你要想把它用好,可能需要你提升,去持续地去对 ai 的 一个学习吧。嗯,我这边反正是已经有两年的一个 ai 的 企,就是落地经验了,在我们企业也是一直在做这个 ai 落地的应用啊,如果 如果有这方面需要沟通的话,可以就是找我单独去沟通啊,我这边可以给你简单指导一下,让你少走弯路吧,少花,少花一些冤枉钱啊,能快速的帮你企业去落地啊。 然后这个这个工作目录啊,就是就是这个可以就是这样的一个目录啊, 它它其实你要是真正去落地的话,你肯定需要去打造一些 skill, 其实你可以把它理解成是一个工作流程啊,就是一个目录可以可以把它作为一个员工啊,这个员工他能干哪些事儿? 那你就这是对它的一个整,它首先这个是 agent 的 这个 md 呢?它是一个整体的一个工作指导啊,就是我这个员工能干哪些事儿啊?大概给 ai 说一下, ai 每次, 每次比方说他基于这个目录去工作的时候,他首先会先读这个这个文件的规则啊,这个这个文件的规则说明之后,那然后他才会去去下面才会去 去根据你的工作需求啊,根据你的任务去调用不同的技能去进行一个工作啊。我这里有一个比较长的一个流程,就是一个写作流程吧, 他是每一步干啥,每一步干啥,就是这样的一个工作,其实你每个人,其实每个人的工作啊,都可以去给他增流成这个技能啊,他让 ai 来 来辅助你去工作,其实 ai 并不会替代每个人的工作,他只能说让你去做更重要的事。一些重复性的工作啊,完全可以让 ai 去做啊,你把你释放出来,可以去做一些更重要的事。当然 ai 呢,它也不是完全自动的啊,它还需要你去确认, 你还要去对你这个 skill 的 工作结果去负责啊,最终的结果肯定不是 ai 来承担这个结果,谁用啊?谁来承担?对这个结果进行确认来你承担这个最后的一个工作的一个检查,去审核啊,它是否合适,不合适的话你就接着让他去做啊, 这个应该已经完成了啊,调用 d o c 啊,它是它把它它做成,做成一个 word 了,做成一个 word 文档了,这边任务它应该已经拿到内容了,它需要下一步去 去创建一个 word 文档。下面我再建一个任务,给大家演示一下,我这个基于我这个工作目录,我我打造的这个 个人的一个,相当于我办公,我日常办公的一个 skill, 他 是如何工作的啊?首先我这边里面有个 skill 呢,就是有个技能,他就是能帮我收集一些素材,帮我打造持续更新和完善我的知识库, 那就是比方说我,我给他两个链接啊,帮我把这些链接内容加入知识库, 这里它可以多个任务并行处理啊,可以同时处理多个任务,然后移动端的话也可以去看到我手机可以录一下屏。操作移动端的前提是你要在设置里头把这个给打开,把这个 solo 移动端,然后点允许操控你的电脑啊,保持电脑唤醒状态, 可以去查看这个当前任务的一个完成情况,也可以远程,远程的话去操作自己的一个 办公电脑,办公就是你的办公电脑,他可以帮你去操作。这边看打开这个翠 app 啊,这边能看到,打开之后他能看到我这两个任务,哎,一个是把内容加到知识库,一个是百度热点的一个汇总啊,这边可以看到他的工作当前完成情况。 这边比方说你中午去吃饭了,你这个 ai 还在工作,你可以看他工作的,检查他工作的完成情况啊,可以给他下达新的指令,让他继续去工作啊。比方说你去 见客户干啥了,这边 ai 该让他去工作,去工作。这边就是在打开手机也能看到你的这个 ai 工作完成的一个情况啊,这边可以输入下达新的指令,这里大家可以去尝试,我这里不过多演示了。 看这边它也是有规划的,它有几步规划?这是调用了两个 skill 啊,这个是知识库的一个打造的一个 skill, 这个是获取素材的一个 skill, 它调用了两,它自己去,它自己会去调用啊,就是它很智能,就是它该调用哪个 skill, 它自己去去调用。 其实他这个 skill 他的怎么去调用呢?其实这个的话是像这个知识库,这里面有脚本啊,有这个参考的知识,然后主要还是靠他啊,这个 skill 的 话 名称是必须要有的啊,这个简介他是根据这个简介来判断的,就是你这个 skill 能干啥,你只要这个概描述描述清楚啊,他就会自动的能判断到。如果, 如果你的任务模糊不清,或者是这个 sql 描述的不清,那这个 sql 可能调用不到啊。如果调用不到的话,你也可以在这手动去去斜杠啊,可以用斜杠命令 或者是点这个点这啊,然后去去去触发某个 sql 啊,因为你自己做的 sql 你 肯定清楚,然后这边手动触发,这边也不用 ai 去判断了,它效率可能会更高一些。这边它已经收集到了啊, 这个是一个 word 啊,他已经把这个资讯去收集到了,收集到他会放在这啊,做的还不错。这里你可以接着让他做,比方说接着让他去帮你做 ppt 啊, 这里都不再演示了,做 ppt 的 话比较慢,可能需要一二十分钟。然后另外这有一个自动化啊,自动化的话也是比方说你每天都要去做的某些事,比方说我这边会每天定,每天会去, 就是定期的去收集一些 ai 的 一些资讯,因为我要学习 ai 嘛,所以,所以它是一个持续的学习,我每天都要去看,所以说我会让他每天帮我去, 去定时的去收集一些我想要的资讯啊,这个资讯也不是啥都啥都收集的,我就是有学习有分享价值的,然后他帮我保存到文件,然后 他每天都会去执行。这个其实创建的话有两种创建方式,一种手动创建,你直接输入任务名称,然后你这里希望他去干啥?跟爱沟通一样,就是自然语言描述就行了 啊,这个云端的话一般用云端,云端的话因为因为你电脑关机他也能去执行,除非那你用本地的话,那你每天保持你的到这个点,你的电脑在开机,你这个软件在打开他才能执行, 或者他执行不了。绘画中创建也是一样的啊,通过绘画创建都是一样,其实跟恩爱沟通都是通过自然语言描述啊,他会帮你去创建核心功能,基本就这两个,另外一个就是这个, 还有一个 m c p m c p。 现在如果有需要的话可以用,比方说你公司有系统啊,你公司有一个系统,它提供一些接口啊,你可以把这加上去啊,把公司的系统可以出一些报表数据啥的啊,你可以加到这,如果你公司有这个 m c p 接口的话,你把它加上, 加上的话,那你就在这能直接用了。你做方案了。做啥了啊?能直接能直接调用那个数据啊,更方便一些。其实 skill 都是一些标准化的,不是那个 mcp 都是调用一些标准化的接口啊,现在大多数场景的话,那可能用的更多的是这个技能啊,就是这个 skill 这个任务让他去执行吧,大概整整体呢,这个 aint 的 功能大概就这么多啊,大家可以去尝试啊,下载下来先去摸索, 如果有什么问题的话可以给我留言,或者给我私信或者评论区留言都可以啊。这个是这个已经完成了,收集好了,已经交付了啊,行,那就这事就说这么多。

国内用户如何使用 codex? 这个视频我将教大家不需要解决网络问题的情况下完美使用 codex 软件, 避免使用 codex 时提示输入手机验证。我们需要准备两个软件和一个网站,那两个软件呢?分别是 codex 和 cc switch, 一个网站就是我们要选择接入哪个模型,或者是我们使用的 api 中转站。首先我们可以到 codex 官网来下载,我们可以直接打开这个网址,国内用户是不需要上网环境就可以打开的, 打开后我们可以直接下载,如果你是 windows 电脑,这里会出现 windows 的 版本, 我们直接点击下载就可以。第二步,我们打开这个 cc switch 的 github 仓库,我们可以直接输入这个网址来打开,在这里我们选择下载它的对应版本,点击后我们向下滑动, 在这里我们可以找到不同的客户端,我的电脑是 mac, 所以 我选择 mac 版本,点击后直接会下载 这里你如果没有配置好上网环境的话,下载这个客户端会比较慢,那我在这里已经帮大家下载好了,并且已经上传到了云盘,如果需要的话,你可以在评论区留言,下载好后我们正常安装就可以。 现在我们打开 codex, 现在我们可以看到它,让我们选择登录,这时如果你没有上网环境的话是无法使用的, 那现在我们就用到了第二个软件 cc switch, 我 们正常安装 cc switch 后,我们选择打开它。 打开这个 cc switch 后,我们看最上方的这一栏,我们选择 codex, 在 首次配置时默认是只有最上方的这一个官方 api 的, 下面这三个都是我自己配置的,那如何配置自己的模型或者 api 呢?我们点击这个加号, 在这里我们可以选择不同的供应商,也可以自己填写供应商的名称。那我这里以这个 ai go code 的 这个 api 网站为例,点击后我们看到这里的参数,它已经帮我们设置好了, 我们现在只需要填写一个 api k, 那 我们可以打开它的官网,在这里我们点击登录或者注册,如果首次使用的话, 它是需要充值额度的,充值好后我们可以点这个 api k, 然后在这里我们可以看到这个 codex 有 不同的两个分组,我们可以选择这个速度更快一些的,或者性价比更高一些的。 我们点击这个创建,可以给这个密钥起一个名称,然后点击创建,这时它会生成一个密钥,我们选择复制,然后把这个密钥粘贴到 cc switch 中, 我们选择添加,添加好后我们在这里点击起用,这时我们再将 codex 重启一下, 这时我们就可以看到他现在可以正常使用了。这里我全程都是使用正常的上网环境,我们来测试一下,帮我生成一张,欢迎大家点赞收藏。评论的图片要求十六比九的比例, 它现在已经按我的要求可以正常对话,并且可以生成图片了,而且调用的还是最新的 emoji 二模型, 并且全程不需要登录,不需要其他的上网环境。我们接入第三方 api 的 话,也是用多少花多少。这个方法主要是针对那些没有上网环境的同学, 如果你在安装过程中出现了任何问题,都可以在评论区留言,我会给大家逐一回复, 下个视频我将教大家如何具体使用这个 codex, 它和 cloud code 有 什么区别?我们下个视频见,欢迎大家点赞收藏评论。

太炸裂了,家人们这个仓库把顶尖研究机构在用的 prompt 模板和 agent skills 全部开源出来了,大家看一下它这个目录应该就知道它的含金量了吧, 然后它还手把手教我们如何去配置 skills, 这个作者也在项目中说明了自己为什么要做这个项目,然后留给了大家一句话,不要在提示词调试上浪费时间,要把精力留给真正的科研。对项目感兴趣的宝子,简介自取。

很多人 s c i 投稿时被编辑捉据的理由就是写的创新性不足。如果你现在找新的科研 idea, 还是直接提供 ai, 那 我真的不建议你直接这样做,并不是说 ai 不 行,而是用的方式不对,因为科研 idea 它最重要的不是听起来很新, 而是有没有继续做下去的价值。今天土拨师兄来给大家展示一下,我是怎么用 ai 寻找有创新性的科研 idea, 并且还能生成可执行的研究方案。首先不要用那种通用型的 ai, 要用专业型的学术 agent。 就拿我的研究三维立体建模来举例,我会先把一篇前沿论文和我即将开展的研究背景丢给切问学术,然后让他不要给我泛泛的总结文献,而是帮我生成一个新的 idea。 一 开始他给的方向比较宽,比如基于多元数据的三维立体建模,这个研究的题目太像综述了,意义不是很大,所以我会继续的提问能不能把问题收窄到多元数据约束模型不确定性评价这种比较具体的方面。这时候他就会开始把方案进行拆开,一步步的梳理。 他最后给的 idea 是 建立一套面向复杂构造区域的三维地质模型不确定性评价方法,这种比较具体的,并且还会告诉你该怎么做,包括从文献中整理数据,用神经网络进行编码,具体的每一步都很明白。 我个人觉得这个方向确实是有继续打磨的价值的,因为他不是只在说三维模型这种宏观的东西,而是会继续追问模型哪里可靠,哪里不可靠,以及这种不确定性会怎样影响资源评价?把这种模型的可解释性融入进去,这也是我觉得学术 agent 比较有用的地方, 通过多人的对话交流碰撞,能帮你把讨论结果沉淀成有细节的研究计划,就像真的在跟一个学者讨论一样。同样一步。我确定好你具体的科研 id 啊。

现在市面上各种 agent 的 产品层出不穷,像国外的 cloud code codex, 国内的 coder codebody, 但为什么这些 agent 的 产品用起来总是感觉效果很一般呢?也切了最强的模型,换了各种 agent 的 工具,但总是感觉没有别人说那么好用。其实有一个最关键的点,就是你没有做好善文管理。 现在大部分模型的山亚纹都有一百万的 token, 很多人使用的时候看山亚纹窗口还没满就会一直继续的聊,但实际上这么庞大的山亚纹窗口,在达到百分之四十左右的时候,模型的注意力就会因为被稀释导致能力下降。 osrotiki 官方也说过,山亚纹越长,模型表现就会越差, cloud 的 注意力就会被越来越多的 token 去稀释。 旧方案错误的假设跟无关日制都会开始干扰当前的任务。所以 colloud 它不是到一百万 token 的 时候才会突然变笨,它是从上下文变重的那一刻就开始慢慢的变迟钝。 很多人用 colloud 感觉前面很聪明,后面越聊越不对,它不是模型突然不行了,而是你把它的工作记忆给弄脏了。那什么是上下文呢?你可以把它理解成当前能看见能够依据的全部信息, 他读过的每个文件,跑过的每条命令,你们聊过的每句话,甚至工具和 m c p 的 定义,都会一点点塞进这个窗口里。 问题是这些信息它不会自动的区分有用还是没用,你前面试错留下的错误路线,你临时问过的旁枝问题,都会去的留在模型的脑子里,然后他后面每一步都会被这些信息影响, 所以真正的沙纹管理不是等它满了再说,而从一开始就控制它,看什么丢什么。哈喽,大家好, cc 高级使用指南今天会一个视频,教会你管理沙纹的全部技巧,内容有点多,大家也可以让 ai 工具整理一下,希望大家帮忙点赞收藏关注。 那第一个技巧就是先用 context 命令看当前的占用。 context 命令的作用就是返回当前山下文的使用情况,所以在使用 c c 的 时候,可以多用这个指令,观察山下文的用量,才能更好地去做山下文管理。不要凭感觉去判断,可要的是不是变笨了,而是主动去看山下文的状态。 第二技巧有点反直觉,就是提示词不要太短。很多人以为少写几个字省下文,但如果你只说帮我改一下,可要的就要自己去翻仓库。探索可能会读一堆没用的文件,那更省的方法就是直接告诉他目标是什么,不要动哪里,重点看哪个文件,你写的越明确,他就探索的越少,下文也就越干净。 第三个技巧就是多主动地用 compact 命令,它能保证下文更短,并且更聚焦。比如说探索已经完成了,方案已经定了, 你准备正式改代码了。这时候不要把前面所有的试错过程都带进执行阶段。你可以这样说, compact 保留当前架构的判断,用户的明确要求,已经排除的错误方向,该验证的命令丢弃无关的试错过程。这一步的本质是把删文从聊天记录变成了工作交接。 第四个技巧是新任务要用 clear 指令,这点其实比较简单,一个完全跟当前绘画无关的任务,最好不要继续聊,而是通过 clear 命令新开一个绘画。 第五个技巧是错误路线,要学会用 rewind 的 指令,比如说 cloud, 读了几个文件,尝试了方案 a, 结果发现方案 a 根本走不通。那很多人的做法可能就会继续说刚才不对,你换个方式,但这样就会把失败过程也继续留在下文里。 更好的方式就是回到错误发生之前,把后面的失败尝试丢掉。再补一句新的约束,不要走方案 a, 直接走方案 b。 第六个技巧就是旁支问题,不要污染主线。你正在让 cloud 去改支付流程,突然想问一个数据库自断的含义,这种问题不要直接在主绘画里问,而用 btw 指定,或者说专门去开一个新的绘画去隔离掉主删文,只服务当前的主任务。 第七个技巧就是规划执行验收,不要长期混在同一个沙文里复杂任务,让他先规划列清楚影响的文件风险边界,验证方法确认之后再去执行,执行完之后再验收。每个阶段接触都要问自己一句,现在是要继续还是 compact 还是 clear cc。 自己的 plan 模式本身也会做完规划之后,在退出 plan 模式的时候,问你是否要清理掉山亚文再去执行任务。这时候建议大家采用这种方式,不要担心丢失了之前的探索的山亚文,因为核心关注的内容其实都在 plan 里了,当前的山亚文反而加载着规划 plan 的 时候的一些脏东西。 第八个技巧主要是针对一些大项目,提任务的时候一定要给文件路径,不要让查找在全仓库里去乱猜。你越明确,他读的越少,下文也就越干净,结果也就越稳定。第九个技巧是能隔离的噪音一定要隔离, 如果说下一步会产生大量的中间输出,比如说全仓库搜索,日证分析、测试排查,那就让 sub agent 去做主规划,只拿结论,不吃过程。这也是 iceberg 官方说的一个思路,如果你以后只需要结论,不需要工具输出本身,那就要把它放到独立的账本里面。 第十个技巧是用 r t k 命令给输出截流。 r t k 是 github 上的一个项目,全名是 rust token killer。 他 做的事情很简单,就是在卡拉库德里面的 bug 工具和真实终端之间加一层代理。 卡拉要跑 git status py test, npm test 这些命令的时候,他会先改成 r t k git status r t k test, 然后把工具执行噪音重复日制进度条无意义的空白压掉,只把失败点跟关键摘要送回山亚文。 r d k 主要拦的是 best 命令,山亚文污染不止来自对话,也来自终端。输出一次 n p m test get log 可能就会吐出几百行日制, kalot 会默认把这些东西吃进山亚文。 r d k。 官网给我一个例子, 典型的两小时 ai 编程,会产生大约二十一万 token 的 命令噪音,用了 r d k 之后大概能变成二点三万 token, 减少了约百分之八十九。 这不是让他更会写代码,而是让他更少去吃垃圾输出不仅沙文更可控,也更节约你的额度,让重要的信息留下,让探索噪音离开。以上就是本期的全部内容,关注我,了解更多的 ai 技巧。

比起 opencloudex 可能才更适合普通人使用,能操作电脑做文档、表格、 ppt, 还能生成图片,执行自动化任务,逐渐从编程 agent 走向桌面 ai 助手。那今天这个视频我就给大家带来 codex 保姆级教程。先到 codex 的 下载页点击下载 macos, 下载好后打开安装包, 直接把文件拖进去就可以了。打开 codex, 它的界面很像网页版的 ai 聊天界面,主要可以分为三块,右边这里就是和 ai 对 话的地方。左上角的四个功能,第一个就是开启一个新的 ai 对 话搜索,可以通过标题来找到之前的对话内容, 剩下的插件和自动化功能我会在后面详细讲解。左下角这里是两种和 ai 写作的方式,一种是项目方式,一种是对话方式。 项目方式更适合去做一些长期积累的任务,比如沉淀知识库、做工作流、写代码。有两种方式使用项目,一个是创建新项目,默认会在文稿目录下创建一个项目文件夹,也可以使用你现有的文件夹作为项目, 所有后续的 a 阵子操作都会默认在项目文件夹下进行。第二种对话方式,就像我们平常使用网页版 ai, 可以 临时去做一些任务,比如偶尔查一查信息什么的, 那我们这里就可以新建一个项目,我们也可以在三个点这里给项目改名,在聊天框左下角就可以看到他已经进入了刚才新建的项目文件夹。下聊天框这里的加号, 我们就可以上传图片或者文件给 ai 这里我们还可以开启计划模式,这个模式是不让 ai 直接改动文件,而是先生成一份计划,我们看完没有问题以后才会执行。 权限,这里 codex 有 三种权限,第一种默认权限,就是只能访问项目文件夹下的文件,如果涉及到其他文件或者网络访问,就会弹出审核框让我们去批准。第二种是自动审查,就是 codex 会自动放行低风险操作,高风险操作才会需要人工审核。 最后一种就是给 codex 所有的电脑权限,很方便使用。右边这里我们可以选择模型的推理强度,复杂人物可以选择更高的推理强度。 模型这里我们可以切换多个叉 t b t 模型最后的速度就是可以加快模型的输出速度,不过会消耗更多的 token。 这里直接让 ai 写一个单 html 的 个人播客网站,但我们可能有新的想法,想要加进去就可以直接进行引导, 比如我这里补充整体色彩风格要用孟菲斯风格,还可以继续补充,要用一个板块式,个人作品展示用滑动式般的呈现。我们直接点击这里的引导, codex 就 会在下次执行工具调用后 插入我们新的要求,很适合补充提示词或者纠正方向,不用中断对话,让他帮我们再写一个手工艺的电商网站。使用 react, 那可以看到两个任务就并行执行了,属于转圈的状态, codex 当前步骤完成后就会显示为一个小蓝点。 看完基本使用,我们来看一看一些好用的特性。先来看一下插件功能,插件就是用来帮助 codex 操作各种工具的, 比如 computer use 和 browser use 就是 让 codex 操作你的电脑和它的内置浏览器,下面这两个就可以操作表格和 ppt, 那 往下翻我们还可以看到操作邮箱 canvas 设计软件的,我们点开一个就可以看到。这个插件其实由外部服务调用和技能组成, 那有的插件本身也是一个技能,后面也会给大家演示怎么使用插件。技能这里大家应该就不陌生了,技能就是工作流程的一个分装,如果有不懂的朋友可以看一下我之前讲 agent skill 的 视频, 如果你是以现有文件夹的方式创建项目的,也会把里面的技能同步过来。接下来我们就来看一下 computer use 这个插件, 它是利用 macos 的 屏幕录制和无障碍辅助数,让 codex 既能看到画面,又能精准点击。 这里我让他打开扫雷通关简单模式,这个半透明小光标就是 codex 操作所使用的,不会占用你的鼠标。一开始他尝试标记地雷的时候,发现标记失败了,很有意思的是,他换了一种玩法, 直接打开安全格,然后就是一路门店,推理出所有可能的安全位,直接通关。我就在想,如果以后模型的推理速度和输出速度再快一点,那我们干游戏就只需要用 ai 就 可以了。 下面我们看一下办公三件套和作图插件,这里我让他调研一下英伟达显卡的发布和价格信息,并让他制作成 word 文档, 然后配图。这里他很快先把配图制作出来了,整个过程一共用了十六分钟,第一次用的时候他会自动安装相关运行环境,制作完成后,他还会截图进行复查,发现可以打磨的地方还会进行二次修改。我们打开文档来看一下 发布信息和价格表都出来了,而且还贴心的配了图,最后还有产品线解读和购买建议。然后我让他在这个基础上把价格表整理成 excel, 同样的他在处理过程也会不断修正错误,花了五分钟时间做好。 来看一下表格,所有信息都正确写进来了,唯一有个瑕疵是溢价,这一栏应该是百分比,它这里用的是小数,不过这些都可以通过细化提示词去解决。下面继续让它根据文档做 ppt 分 格,参考苹果信息层级不超过三层。 他做完第一版以后,又对我的信息层级这个要求进行复查。我们来看一下 ppt 整体布局还是很舒服的,满足了我对信息层级的要求,没有堆满字,而且风格也是沿用了英伟达的配色。最后我们来说一下自动化功能, 它就相当于一个定时任务。右上角这里我们可以新建任务模板里有一些关于代码的任务模板。下面这里你可以选择在哪个项目文件夹下进行, 并且设定定时时间,有每小时、每天、每个工作日或者每周。也可以自定义规则,我们可以直接粘贴这个规则,让 ai 帮我们改成任意时间,比如这里就让它改成每周二和每周四的十三点执行。那 那我们在这里也可以让它执行已有的工作流程,比如这里,我之前是用 cloud code 做的,在 cloud 点 md 里已经写好了完整的自动拉取推文的流程,那直接让 codex 执行就可以了,很顺利地帮我完成了定时任务。那以上就是全部教程了,如果对你有帮助的话,记得一键三连。

我把耿同学的学术打假视频喂给 ai, 直接把耿同学炼化成了耿同学 skill 在 gamehouse 上开源了,现在人人都能当耿同学,一个耿同学如坐倒下了,那么千万的耿同学站起 来了。我的这个耿同学 skill 会指导 agent 读取论文 pdf, 按照耿同学六十逐一检测,最终输出一份结构化的打假报告。耿同学六十包含图片附用数据造假图、 图片拼接、统计异常、产出异常、方法矛盾、经典的奇会法、照高法等等以及。我还总结了耿同学语料库。我找了篇已撤稿的论文,跑了一篇,三个问题全部剪出。 figure e d 跟四 a, 声称是两批独立实验, 结果图片重复了经典的手法, figure 一 e 跟四 b 两批独立的动物实验,做出了一模一样的数字。这根本不是实验,这就是 ctrl c 加 ctrl v 啊!而且 ai 耿同学最后还来了句辣评,兄弟们,我怀疑这一小鼠压根只存在于 excel 表格里, ok! 那 么这个 skill 怎么用呢?只需执行 一行命令即可给任意的 agent 安装这个 skill, 免费开源, m i t 十 e, 只需要你的同意的点赞即可。最后我想说 说耿同学的功劳不是因为会打假,会打假的人多了,他的功劳在于敢说,敢于质疑院长,质疑结清,不畏强权。我一个写代码的呢,做不到,敢说比你之前太敢说了,被封号。但我能做到的是让更多人参与打假,净化学术圈环境,关注我,教我写代码。

你用 ai 写的论文段落,导师一眼就看出来了,不是因为你提示词没写好,是因为 ai 根本不知道你的研究在做什么,要解决什么问题,目标读者是谁,他只是在帮你填字,不是在帮你做研究。 学术智能体不一样,不是让 ai 替你随便生成一段内容,而是帮你把科研方法论、学科逻辑和智能体能力结合起来,让 ai 输出更规范、更有结构,也更接近真实科研需求。这本书不教你写提示词,它教你把 ai 升级成一个真正的学术智能体, 能规划任务、调用工具、搭建流程多智能体写同围绕八个真实科研场景展开文献溯源与评估、论文框架与拷写、课题申报扎根理论编码 十二个可复现案例用扣子,扣子也是国内直接能用,跟着配置当天跑。通硕博生、高校教师、科研人员,只要你做过论文课题、文献综述,并且已经感觉到光会问 ai 不 够用了,可以看看这本书。

大家好,今天给大家带来的分享是 markdown 到 html, ai agent 的 输出正在从文本变成界面。这个话题来自 clark code 团队成员 three sheet part 发布的一篇文章,文章标题是 the unreasonable effectiveness of html。 这篇文章讨论了一个很具体的问题,当 ai agent 生成内容时,默认输出格式是否还应该是 markdown, 还是可以转向 html? 表面上看, 这是一个关于输出格式的讨论,但往深一点看,它反映的是 ai agent 工作方式的变化。过去 ai 更多是在回答问题, 现在它开始生成报告、页面、原型,甚至是可以直接使用的小工具。这场讨论的起点是 zerik 希和帕尔在文章中提出的一个判断,对于很多 agent 输出任务来说, html 可能比 mark 党更合适。它还配套放出了二十个 html 势力, 用来展示 coco 可以 生成什么样的结果。这些事例包括代码审查、研究报告、设计原型、 项目规划和自定义编辑器等。随后, simon wilson 也对这个话题进行了评论,他过去一直倾向于使用 markdown, 但这篇文章让他开始重新思考 agent 的 默认输出策略。同时, 哈克儿 new 社区也围绕这个问题展开了讨论。争论的重点并不是 h t m l。 能不能写文档,而是 ai 输出到底应该是方便编辑的文本,还是方便阅读和使用的界面。 这篇文章最核心的地方不是简单地说 h t m l。 比 mark 导更先进,而是指出 agent 输出的目标已经发生了变化。 markdown 更像是一种文档格式,它适合写说明、做笔记、写莉亚蜜,也适合程序员长期维护。它的优势是清亮、清楚,容易编辑。但 html 不 只是文档, 它更像一个页面,甚至可以是一个小工具。它可以有分栏、有卡片、有颜色、有导航,也可以有图标和交互。当 age 你 输出的是一份很长的计划,一次代码审查、一份实验报告或者一个设计方案时,单纯的 mark 港很容易变成一大段文字, 内容虽然完整,但读起来会比较累。 html 的 意义就在于,它可以把复杂信息重新组织成更容易看的形式。 文章中提到的 html 优势主要体现在复杂信息表达上。比如代码审查,如果用 mark, 通常是一条一条的问题列表。 但如果用 html, 就 可以按照严重程度分区,把高风险问题标红,把文件路径做成导航,把修改建议做成卡片,这样读者可以更快看到重点。 再比如实验分析, mark 可以 写结论,也可以放简单表格,但 h t n l 可以 同时展示数据表、图表,对比卡片和折叠细节。对于需要快速理解结果的人来说,这种方式更直观。还有设计原型, mark 只能描述一个界面大概是什么样子, 而 html 可以 直接生成一个能打开的页面。也就是说, html 不 只是让内容变好看,而是让 html 的 输出更接近一个可以交付、可以使用的结果。 不过,这个话题也不能简单理解成 html 会完全取代。 markdown 仍然有很明确的位置。 它更清亮,写起来简单,人工修改也方便。尤其是在程序员的工作流里, markdown 更适合做版本管理, ddf 也更清楚。所以长期维护文档时, markdown 仍然很有优势。 html 的 问题也比较明显,它生成出来的效果更丰富,但源码会更复杂,如果后续需要人工修改,成本会比 markdown 高。 还有一个很现实的问题是 token 消耗,因为 html 需要标签、结构和样式,同样表达一段内容往往会比 mark 党占用更多 token。 对 于 agent 来说,这意味着生成成本,上下文长度和响应速度都可能受到影响。 所以这场讨论更合理的结论不是 html 替代 mark 党,而是两者分工。 mark 党更适合写和改, html 更适合看和用。 从这篇文章和社区讨论来看,未来更可能出现的是一种分工模式, markdown 写 html 展示。 在前期整理思路、记录内容、多人协助时, markdown 仍然很合适。它足够简单,也方便修改。但当内容需要交给别人阅读、汇报、审查或者决策时, html 会更有优势, 因为它可以把信息变成页面,把长文本变成结构化内容,把静态报告变成可以交互的工具。这也意味着 gigini 的 输出会越来越不像单纯的聊天回答,而更像是临时生成的信息产品。用户提出一个需求, gigini 不 只是给出文字, 而是可能直接生成一个报告页面、一个数据面板,或者一个可点击的分析工具。最后总结一下,这篇文章真正值得关注的地方不只是 h t m l 和 mark 党的选择, 而是 ai agent 输出形态的变化。过去使用 ai 更多关注他能不能回答正确,现在随着 agent 处理的任务越来越复杂,只回答正确还不够,他还需要把复杂信息组织得清楚,让人愿意读、读得懂,并且能够直接拿来使用。 所以这场讨论背后的核心变化是, ai 的 输出正在从答案变成交付物。它不再只是聊天框里的一段文字,而可能是一份报告、一个页面、一个原型,甚至是一个小型工具。因此,真正变化的不是格式本身, 而是 ai 正在参与信息产品的生成。 mark 党仍然适合写作和维护,但 html 可能会在展示、交互和交付场景中变得越来越重要。

agent 在 使用过程中的错误率从百分之四十一降低到百分之三,这是三十个代码库连续测了六周得出来的结果。而做到这些,他只改了一份文件。这些数据是一个叫 mindless 的 工程师自测出来的, 它不是论文数据,而是真正的工程实践得来的。但让我停下来的不是这个数字,是我后来 fananthropic 文档发现了一句话,原文说 cloud md 是 以用户消息的形式传递的。他把 cloud md 这件事彻底重新定义了。 刚开始出 agent 的 概念的时候,都以为 cloud md 写得越狠,模型就越听话,你觉得是这样吗?实际上我之前的视频也讲到了 cloud md 的 用法,答案完全不是文档原文说 cloud md 是 作为用户消息传递的,不是系统指令。什么意思呢?就是跟你平时打字聊天一样, 不是写死的硬性规定,是开工前最后跟他聊的一句话,懂了这点,你踩的坑能少一半。比如那个五百零三重试的例子, 让 cloud 自己判要不要重试,前两周很稳,后来模型把请求内容也算进去了,策略就抖了,把逻辑写成提示词迟早要还。再比如错误处理,代码库已经有两套模式, cloud 没挑一种,写了个两边都照顾的版本,错误被吞了两次。模型不是不听话,他只是在听你说,既然是聊天,那就不是越多越好。 shopify ceo toby 说过,他更喜欢用 context engineering, 而不是 prompt engineering, 因为核心技能其实是给模型足够的上下文,让任务变得可解。提示词是管当下的对话,而 cloud md 不是 一次性的指令,而是项目气约, 不是让你堆技巧,是让你讲清楚你这个代码库的上下文。那讲多少合适呢?文档里写了,目标是每份不超过两百行, 超过两百行可能就不会遵守规则。注意,不是建议,而是数据还没完。还有一个点,如果两条规则打架,当 agent 会随机选一条,不是按顺序,而是随机。你写四百行跟写两行小改动效果差不多。那位工程师给了十二个规则, carpass 的 四条规则,之后他又加了后八条, 在这里就不列出来了,感兴趣的可以搜索一下。他的文章我会放在评论区,可以自行搜索。从哈尼斯视角看,可以把它们重新分成四类问题。那十二条规则是怎么来的呢?一开始是四条,每发现一个问题就追加一条。到十二条时,他们发现其实还是四类问题。 控制改动半径,把确定性的内容交给代码长、任务加检查点和失败,要险性化。这四类你现在回去就能用,知道病在哪,药就好开了。 cloud md 不是 写出来的,是摔出来的。你看这个对比,左边写要小心,右边写遇到危险操作前 必须让我确认。你觉得模型听哪个这种句子能改变行为。那么最少要写哪些内容呢?五块最小股价、行为约定、验证规则、项目命令、项目约定和安全边界。后面三块全是土著,要花时间填的。不是前面的提醒,是这些项目级事实。 我自己分三层,放规则跟 cloud md, 只放高频行为控制在八十到一百二十行项目实时文件,单独一份,放命令,放目录边界,放错误处理模式。不过讲了这么多,最后还有一句话挺重要, cloud md 再好也只是提醒, 真要拦住危险动作,还得靠钩子把它拦下,全线收紧, c i 和代码审查都最后一道,这三层保护你现在就能用上。哈西摩托说过一句话, agent 犯错后不能只修这一次,要顺手补一个机制,让同类错误以后更难发生。 最后还有三种写法我会绕开。第一种是身份提示,你是资深工程师,这种模型本来就装得很懂。第二种是空泛提醒注意安全,保持优雅,人看着舒服,模型不知道做什么。第三种永不过期,规则文件不是组训, 每隔一段时间删一轮,比不断追加更重要。把昨天 agent 犯过的错写成他明天能读懂的约定,那这一行就够值。你的 cloud md 现在多少行,评论区告诉我。

最近我发现了一个工具,百度文库的 office agent 看好了,我只演示一次。比如我要做一个学术汇报,打开百度文库的智能 ppt, 左下角选择专业模式,输入指令,要做心肌缺血再灌注损伤研究现状主题的学术报告 ppt 动 ai 其实最怕瞎编文献,但这个 ai 直接去百度文库资料库搜资料,还去百度学术爬文献,数据表达都有出处,表述也更规范。比如你看这里, 图表也不是随便放的,都是真实研究成果的数据对比,连数据来源都标注好了。再看结构背景、研究方法、结果讨论,标准的科研汇报结构,专业度拉满。还有我最想夸的一点就是它的视觉风格 不是那种花里胡哨的模板,而是比较克制的学术工排版,图表比例很高,排版也很干净。科研实验数据分析也挺花时间的,现在你可以直接在这个对话框把实验数据丢进去,让文库的 ai 帮你分组统计,求均值 生成分组对比分析,输出这张图,轴线图、雷达图,把时间留给科研判断,而非重复约好时的整理材料。

挑战只用抠代码上班办公的一天,比如像这样全自动生成出数据报表这样的 ppt, 还可以把写好的文件做成这种视频演示动画, 同时还可以接入飞书,实现自动做表格修改内容总结,群聊消息,还可以用手机端一键部署任务,发文件等等操作。最后我还打造了一个网站,并且成功上线。以上的几个实际案例呢, 看似没有关联,实际这是模拟真实工作的一天,并且全部用 q 代码完成。故事是这样的, 早上你接到老板发给你的一堆数据报表,老板让你做成直观大气的数据报表,然后又让你把这些报告结合企业情况做成一个 ppt, 最后还要求你把这些内容做成网页,并且今天就要做完,你听到后立马就开干 了。那我们现在先完成第一项任务,就是让 codex 帮我们把这个数据表格转化为更加好看的格式化数据报表。这里我写好要求后, 把权限设置为自动审查,这样在他执行任务的时候,我们几乎不需要操作,只需要等待他完成就可以。模型思考程度我们可以选择中或者高, 如果选择高,他的运行时间会更长,而且消耗的额度会更大。如果是简单一些的任务,我一般推荐使用中等就可以。现在他已经为我们生成好了这个网页,我们看到这里他一共用时了六分钟零三秒。 现在我们打开这个网页看一下,我们可以选择这里,点击直接打开扣代码中直接内置了浏览器,我们打开后就可以预览, 我们可以看到这里它已经把我们的数据做成一个详细的网页了,并且这些按钮是可以点击的,因为我们后续是要做 ppt 的, 我们想把这些表格数据呢插入到 ppt 当中,那我现在让 codex 重新修改一下,把每一个数据报表做成一页 ppt 的 形式。现在我们看到 codex 已经帮我生成好了,并且他告诉我他已经生成好了五个报表的独立网页。我们可以打开我们的项目文件夹来看一下这五个文件。现在他把每个报表都做成了一个独立网页。 考虑到那个万恶的资本家观看的便捷性,我们可以让 ai 把这五个报表都转化为 pdf 文件。我们看到 现在 codex 正在帮我们把网页转换成 pdf, 他 在努力的工作下载各种插件。那现在我们可以不用等他,我们可以继续工作来创建 ppt。 我 们点击这里的创建新对话,这时就会重新打开一个对话窗口,而且之前的任务还会继续运行。 在制作 ppt 之前,我们可以问 codex, 我 想做一个 ppt, 有 哪些 skill 或者插件可以帮助我们提高 ppt 制作的美观和专业度。这时我们可以看到两个任务在同时运行, 也就是你的工作效率现在就是翻倍了。如果你还有其他工作任务,可以继续添加,如果十个任务一起执行,相当于你的工作效率就翻了十倍。我们可以点击这个设置,再点击这个剩余额度, 可以看到当前我们剩余的额度有多少。我个人使用下来基本上 plus 额度就够用了。现在我们看到这个网页报表任务右侧已经变为了蓝色,代表它已经执行完成, 我们点击看一下,这时我们看到这个 pdf 已经完全编辑完成了,如果哪里需要略微调整, 我们可以用其他的软件来手动调整一下。现在我们看到这个安装 ppt 插件的对话也已经显示任务完成,我们点击查看,它告诉我们 已经安装好了五个 skill, 然后它提示我们需要重启 codex 后才能被识别重启。打开 codex 后,我们还是点击这个对话,现在让它帮我们 继续完成这个 ppt 制作。在对话框中我们可以艾特我们想编辑的文件,输入文件名后,它会自动提示我们,然后我告诉他 根据这几个文件内容和刚才你安装的 skill 来帮我制作一个 ppt。 当然我们有其他针对性的要求,也可以直接告诉他。现在我们看到他经历了十三分钟后, 终于生成出来了这个 ppt, 那 我们现在打开看一下,我们点击这个打开按钮, 然后可以选择用哪个程序来打开,现在就可以看到他为我们制作的 ppt。 我 们看后面这几页制作的比较单调,而且格式不太统一, 那我们现在再让它修改一下。又经过了十三分钟的调整后,现在 codex 帮我们调整好了, 我们再打开看一下,现在看到虽然排版还有一些问题,但是已经比刚才好很多了。那这个视频我们不是主要讲如何优化 ppt 的, 我们先忽略掉 目前的一些小瑕疵,如果想调整局部呢?我们可以用这个 office 软件进行细节调整。经过了 codex 一小时的工作,我们现在得到了 ppt 和 pdf 这两个制作好的文件,那我们现在就利用 codex 让它直接把这个 ppt 还有制作好的 pdf 数据表格 发到非输的群聊当中。我们先安装非输的 c l i 终端命令,这个插件的好处就是可以让 agent 在 终端 直接调用飞书的各种功能,比如写表格,上传文件,下载文件。 我们打开飞书的 c l i 网站,我们可以通过手动安装和 agent 安装,如果想要 codex 安装,我们就复制这个提示词。打开 codex 后,我们可以点这个对话, 新建对话,然后将提示词粘贴到对话框,这时它提示我们配置命令已经生成授权入口,我们点击这个链接,在这里我们点击创建,创建好后返回 codex, 这时它提醒我们还需要打开这个网址进行授权, 我们复制这个网址,这里会提示一些权限,我们选择授权。现在它提示我们飞出 c l i 已经安装并配置完成,我们返回到刚才的这个项目,点击创建新对话。现在我让 codex 把刚才制作好的 ppt 和五个 pdf 图标一起发到飞书的工作群聊中,现在 codex 告诉我们他已经找到了这个群聊,让我们确认一下就可以,我们回复确认, 如果在这个过程中,他需要我们授权,我们按照他的提示操作就可以。 现在我们看了一下时间,完成上面两个任务仅仅花了一小时,那我们现在可以潇洒的到公司楼下点咖啡摸鱼了。不一会群里万恶的资本家给了一些反馈意见,但这对咱们来说是小意思, 为了以防万一,我们早就通过手机连通了 codex, 现在根本就不用回公司喝着咖啡,简单一条指令, codex 将继续为我们干活。那如何在 codex 中连接手机端呢?点击左上角的设置, 在这里点击 codex, 然后我们点击连接,在这里提示我们登录的话,我们点击登录就可以, 我们点击授权,这时我们在手机上就可以看到电脑上的项目,点击对应的项目后,我们就可以让 codex 在 电脑端帮我们工作。我现在让 codex 直接把这份 ppt 变为一个网站,我们可以看到在手机端它已经开始执行任务了,并且在电脑端我们也可以看到这个任务。 为了方便演示,我之后还是在电脑端给大家演示功能。如果在执行任务的过程中,我们突然想起来还有一些指令当时没有写完,这时也不需要终止指令, 这时我们提出修改意见后,正常新的命令是需要等上一个命令执行完成后他才开始执行的,这时如果我们点击引导,他就会把这条新的指令注入正在执行的任务中,来,参考你新的指令,重新思考。经过了十二分钟, 这个网页已经制作完成了,我们打开看一下,我们看到整体的排版布局 和色调还是非常不错的, codex 软件内置了一个简易版的浏览器,并且如果我们想修改这个网页,可以给这个网页添加注视, 我们点击注视,如果想修改哪里就在鼠标点击哪里,比如我想修改这个区域,点击后输入想修改的具体内容,我们可以点击发送直接修改, 也可以按住 ctrl 加回车继续添加注视,点击直接发送后,它就会立刻给我们修改。修改好后我们再点击看一下,这时的历史记录已经按照我们的提示修改为时间线的形式。如果我们还想修改其他内容, 也用这种添加注式修改的方法会比较便捷。那现在我感觉这个页面整体都是静态的,比较单调,我想做成一个有动画演示的效果。现在我们开始使用 codex 中的插件,借助插件来达到我们想要的效果。 那我们今天就用 remote 这个插件来演示,这里我已经安装了,如果没安装呢?这里会显示一个加号,这样我们在跟 ai 对 话的时候,可以直接让它调用这个插件。比如现在我新建一个对话,这里我输入斜杠, 再输入插件的名称。现在我让 codex 用 remotion 这个插件来给我们的网页中增加一些视频,让它在合适的地方插入,增加整体网页的动态效果。 现在它已经生成好了,我们来看一下效果。我们可以点击这里,直接使用电脑中的默认浏览器打开我们看它在这里给我们加了一个视频。这种制作视频的方法 不需要任何的剪辑,只需要提供文案和你的想法。这个 remote 插件完全是由代码生成的,那现在我们的这个网站 已经全部制作好了,现在我们只剩下把网站上传发布,任何人都可以访问。那具体需要怎么操作?如果我们不会,还是先问 codex。 在 使用 codex 时,我们要养成一个习惯,每一个新的任务 我们都需要新建一个对话框,如果把所有的任务都集中在一个对话框内处理,随着对话越来越多,他的上下文会逐渐累积,模型的执行能力会下降非常多。比如在当前这个我让他制作动画视频的界面, 我们看对话框中这个圆圈,我们把鼠标移动到这里,它就会显示当前上下文已经使用了百分之二十。那日常使用中, 我建议只要上下文达到百分之五十,我们就需要重新新建一个对话框了,或者我们还可以使用斜杠压缩的命令,这样也可以进行上下文压缩。那我们现在新建一个对话框,那我们现在就问 codex 如何能让所有人都访问到这个网页,并且告诉他如何能免费的部署。我是小白用户,他就会在网上给我们搜索符合我们要求的一些解决方案,现在他给了我们一个解决方案,我们按照他的步骤来执行。 经过简单的几个拖拽之后,我们可以看到网站现在已经可以被任何人访问到了,任何人打开这个网址都可以看到我的网页。 我们现在一看时间才下午两点,现在就把整个项目发给那个万恶的资本家,他肯定还会改改改。那我们再用 codex 的 另一个功能就是自动化,我们可以设置一个定时任务,我们还是在这个项目下新建一个对话框,我们让 codex 帮我们设置一个定时任务,让他在今晚的四点五十九分给我的飞书工作群发一条消息,内容是告诉这个万恶的资本家网站已经上线了, 如果有修改可以给我留言。创建好定时任务后,我们看在自动化这里有一个数字,一代表已经有一个出发任务,我们点开这个任务后,会看到具体的执行命令和出发时间,我们还可以点立即运行, 他就会立刻执行这个任务。在以上的五个实践案例中,已经包含了大多数 codex 的 使用功能,并且我们把这五个案例串成了一条主线。我们总结一下以上几个案例中的知识点。我们把表格数据做成网页, 在对话框以艾特的形式添加文件,设置思考强度,建立项目文件夹。第二, 制作 ppt。 我 们使用了添加 skills, 帮助我们制作出更好看的 ppt, 同时让 agent 调用生成功能插入到 ppt 当中。第三个是安装飞书的 c l i 命令,然后把飞书的 skills 安装到 codex 中,让 codex 可以 调用飞书,实现上传、下载、发消息、回复等操作。 第四个,我们构建了网页使用批注功能,对网页进行了修改,并且使用 remote 插件在网页中添加视频。第五个,我们询问 codex, 让它帮助我们把网页上线,让所有人都能访问。 如果你对这期视频的形式满意,请给一个一键三连,我将继续分享更多 ai 领域的落地实操。我是留言,我们下个视频见。

太炸裂了,家人们这个仓库把顶尖研究机构在用的 prompt 模板和 agent skills 全部开源出来了,大家看一下这个目录应该就知道它的含金量了吧,然后它还手把手教我们如何去配置 skills, 这个作者也说明了自己为什么要做这个项目,然后留给了大家一句话,不要在提示词调试上浪费时间,把精力留给真正的科研。

好,我们同步看一下嗯, a 件的实践。然后首先也是先看一下 a 件的概述,讲一下从怎么从基础的对话模型到一步步的实现到这个 a 件。 a 件呢,也是目前 ai 应用的一个主流,而且是目前几乎所有的公司都在推的一个事情,因为 a 镜的它 真正的把 ai 大 模型从仅仅的聊天对话变成了能够帮助我们去做事的一个跨越, 所以它是真正的代表着实实在在的生产力的。嗯,然后接下来我们就来看一下整个 a 帧它的一个嗯, 基本的一个使用吧。然后 首先我们来看一下基本概念,嗯, agent 中文翻译那是智能体,他这个概念如果没没记错的话,应该最早是从强化学习那边就已经出现了一个概念, 它最大的一个特点就是自主性,能够通过传感器自主地感知周围的环境,然后自主地做出决策,并且自主地去执行 决策相应的动作这样的一个实体。而且像 a 镜的本身也好, a 镜的它的组成、原件、传感器、执行机构等概念也好, 不仅仅局限于物理实体,也包括软件程序、虚拟角色等实体,这也是 a d 呢?在 软件行业,其实相对来说应用的目前来说是比较广泛的,而真正的实体领域,像或者说智能这一块其实还是有待提升的。 嗯,可以看到感知周围环境,做出决策,然后去执行动作,这就是一个 a 境的与环境的基本的交互循环,因此它最大的特点就是其自主性。我们和 熟悉的普通程序来去做一下对比,普通程序它只能是被动的响应, 只能按照人类预设的固定指令去执行。比如说一个嗯室内的温度控制器,那么只能他在监测到温度小于,比如我们给他设定一个预值,小于二十度他会启动, 那么他只能按照这个定义好的指令去执行。但是 a 级的呢?他就可以主动的感知周围环境,比如说他可以根据周围的一些嗯气压,然后湿度,还有个人的一个 状态等等来据综合的判断调整是否去开取空调这样的一个动作。这是 a 镜的最大的一个特点,其自主性, 嗯 a 镜的基本组成,这个是我自己给它更大的一点,因为我在我看来,嗯 最近的可能,他相当于从这里边总结出来有三个比较核心的部件,像其他的像,比如说工具了,还有一些嗯传感器,这些都可以归纳到这三个里边。第一个就是感知模块, 感知模块就是智能体获取信息的一个入口,像硬件传感器,嗯摄像头、麦克风,还有软件接口, 比如说一些 api, 还有人际交互设备这些东西等等。这些感知模块所有的作用都是为了感知获取信息,包括物理环境,还有这个软件环境、虚拟环境所有的信息, 然后感知到这些信息之后,可以进进一步的数据的预处理,比如说图像降噪,语音增强,嗯多模态信息的整合等等, 这些都是感知模块做的事情。第二大部分就是决策模块,有了那么多信息之后,那就要去分析这些信息,然后做出决策,然后决策模块就是推进他的大脑, 他负责处理感知信息,然后基于这些信息进行推理和规划,并生成要行动的指令。嗯, 主要是传统的 a 境的可能是一些规则,嗯,决策,而目前大模型出来之后,这个决策大脑基本上就完全由大模型取代了, 同时这个决策模块还可以通过学习算法,不断的更新知识库,还有决策的策略,进行不断的学习和优化。 嗯,第三套模块就是知行模块,做出完决策之后,智能体需要将决策转化为实际行动的部分,这也是智能体和 传统的对话大模型最大的区别,它可以执行动作,可以与外界环境去进行交互。 嗯,包括硬件的。硬件呢?像电机 a、 b 显示屏软件,硬件呢,就相当于推送通知,嗯,下载指令,执行一些函数调用 a、 p、 r 等等。 现来说主要是这上面的三大模块,而 a 镜的与大模型的关系就是 a 镜的,它不是 a 大 模型出来之后才有的概念,传统的智能体 a 镜的 也在很早之前也已经有了。那么与大模型的关系怎么定义,怎么判断呢? 还是从这三方面来去。嗯,简单的了解一下。感知方面 就是可以利用大模型更好的理解感知到的信息,而且也可以进行利用大模型去处理这些信息,比如说图像的处理, 嗯,然后自然语言的语义理解等等。角色方面,刚说了,基本上,嗯,大魔镜出现之后 就取代了,或者说就完全使用大魔镜作为 a 型的一个角色大脑,因为它可以进行复杂的推理分段,尤其是有这个推理链嘛,然后将复杂的任务拆解为一系列的子任务 执行方面,嗯,也可以主动地调用外部工具,这方面也是大模型,尤其是现在的软件,软件呢,可以比如说利用 function calling 工具调用,然后比如说用一些读具,一些 skills, 这些都是大模型里,可能会更方便地去主动地去调用这些外部的工具。 嗯,这边是传统智能体与 lm 驱动智能的一些对比啊,当然了,理解它其实就是最核心的就是有了 lm 之后更聪明了,然后那个任务能够解决的任务更复杂了, 这就是它的一些最核心的特点,当然这是一些对比维度,可以去了解一下。 嗯,智能体那么自然就是建立一步分类,常见的分类方式一般是按照自主性程度可以分为反应式智能体,就是对当前感知信息做出一次性的直接的反应,没有内部的状态,也没有记忆。 嗯,再聪明一点,那就是认知式的智能体,有了内部状态和记忆,能够进行多轮次的纠护。 再聪明再自主一点,那就是完全自主的智能体了,就是在没有人类干预的情况下,完全自主运行设计和适应环境,这是按照自主性程度来分类的。 然后还有一种是按照体系结构分类的,包括单个智能体,然后以及多智能体系统。嗯,第二部分就是 结合一些实力来去简单的概括一下 a g 的 一个演经过程,嗯,然后从这些过程中我们来逐步的去, 嗯,深入的了解一下最近的它的一些运作原理,还有它的核心组建。 然后首先我们是第一看的就是常用的对话 r m, 比如说我们和 deepsea 去对话,在网页端去对话,或者说调查的 api 去对话,这种是 大模型最基本的一些使用方式,但是这种方式最大的一个特点就是不能够与外界环境交互, 而真正突破了,或者说让大模型能够成为真正的生产力的存在的,就是它能够调用外部的工具, 调用工具他就可以去与外界环境交互,能够获取最新的信息,而且能够对外界环境嗯执行动作产生影响。嗯, 三个就是基于这个,其实就相当于循环多次调用工具,因为每一次任务可能不是调一个工具就能够完成的。 然后再进一步就是多了有状态与记忆管理了,这样的话他就可以根据嗯之前运行的状态,还有一些记忆去不断的去优化。 这个是简单的这些演习过程,但是后面可能还有更多的,我们就因为概数呢,就先不讲这么多,我要先从这四个方面来来去认识一下 a 级的。 嗯,第一个就是对话 m, 这个就是我们常用的刚刚说的 type c, 在 网页端去和它对话,调 api 去对话,但是它的核心是 嗯接受了这样这样一组对话消息,输出了一段回复,而且这个回复可以解释问答总结、改写推理的能力,但是本质上仍然是停留在语言空间上, 只是在去语言的一个回复,而没有去调用工具与外界环境产生交互。 因此这一阶段更准确的就是嗯对话模型不是严格以上的共同化原理的,因为它不能够与外部环境进行交互。然后我们简单看一下这个代码演示, 嗯,这里面是一使用的模拟的 m 嘛,因为现在没有调一片,呃,当然这个调用 m 这些回答,这些东西是在那个大模型入门里边,后面会再更新的, 嗯,大模型部署调用,这个还没有更新,但是后面会去详细的去介绍一下大模型他的,嗯,部署调用的方式,这里我们只简单的介绍一下,就是,当然这里简单说一句,其实大模型的调用本质就是 可以把一个大模型看作一个类,比如说这里边是 mock 模拟的一个大模型,然后这里面可以是 deep seek, 可以 是嵌在 gpt 等等。然后这些类呢提供了一些方法,就是最常见的 invoke, 这个方法就是接收了我们的输入,通过各种组合把我们的输入信息,嗯作为参数传递进来,然后去给出一些输出, 这个就是简单的来说,就是打磨性的工作原理。然后有一个类,有一个方法,方法接受输入的参数,然后给出回答,这是最简单的一个理解吧。后面我们会再去详细的讲怎么去部署,怎么去调用。 让我们来看一下这个地方,就模拟了他的一个回复,就告诉他如果用户问了这些信息,然后回复什么,当然这个是真正的大模型,他最是有智能的,还是根据你的回复,根据你的那个询问 进行思考,进行剪辑之后做出更好的一个回答。然后我们看一下如果, 嗯去问他,比如说我问他天气,因为这个就是直接模拟他这个规则了,然后大魔镜根据我们的这个询问, 然后他会给出嗯,相应的这个回答,然后我问他你好, 然后他也可以回答出来,这是我们最简单的一个调用。嗯,对话大模型的一个方法, 让他的一个演示。嗯,另外一种就是 a 镜呢,他的一个可以说是阅兵, 就是真正的实现了基本的 a 镜的,那就是他能够调用工具了。 嗯,后面我们会详细讲工具的这个概念,还有原理,还有使用方法。那我们现在简单说一句,工具到底是啥?一直说调用工具是啥,其实现在目前来说,当然后面可能会去扩展,但是目前来说 工具就是一个函数,或者说是类方法,然后 a 的 调用工具就相当于是人类去调用函数, 只不过是现在是用大模型自主分析角色,他自主去调用这些工具调用这个函数,而这个阅变就说明了模型不再只输出纯粹的文本了,他是可以输出 我或者说这大墨镜,它能够调用想要调用哪个工具,传什么参数。当然了注意点这个它的输出也是文本类型,只不过是一个特特殊的这个格式,但是它就可以去 输出这个信息了,就是我要调用哪个函数,传什么参数。然后呢?在运行的时候就可以去执行这个工具, 再把这个工具执行完的结果返回给模型,让模型根据这个结果再继续决定下一步是否还去执行,还是说给出最终的回复了,这就是所谓的 function call 令机制,可以看一下 function 就是 函数的意思,所以调用工具本身就是调用函数, 嗯,然后我们这次看的是一次调用一个工具,但是他只要能够调用工具,那他就引用了外部的力量,就可以访问外环,外部环境,比如说文件的读取了命令的执行, 那就可以与外部世界进行交互,去获取外部世界的最新信息,然后对外部世界产生影响。然后我们来看一下简单的一个代码演示, 就是首先可以看到在这里面是用类封装的,其实你最简单的就是写一个函数,这就是一个工具了, 当然在不同的框架里边会对这个嗯函数进行不同的分装,这个我们后面会讲,然后这里我们就简单的就把它理解为是一个函数,然后这里面获取天气信息,这里面进行一个简单的计算, 嗯,然后这里这个是执行这些输入的这个命令。然后同样的这也是一个模拟知识工具调用的大模型,就是大模型,要想知识工具调用,他是需要特殊训练的, 需要给出他很多的这种调用的数据参考,然后去训练出来他能够有这样一个方阵考虑的能力, 嗯,然后这里面是他可以比如说我们现在模拟他是有调用工具的能力的,嗯,然后模拟的角色就是如果他这里面有天气的话,那就可以调用天气的工具, 然后我们来看一下怎么去调用,首先就实力化这个,嗯,模型类,然后一下要告诉他有哪些工具可以用。 这个地方就是说要是把工具的名称描述参数告诉他,这是 必要的三个东西,三个条件告诉他工具的参数描述,呃,在这个名称, 然后我们来看一下,嗯,如果告诉他,呃就是现在用户,用户这个信息有这个天气的话,那么他就会返回这样一个东西,他返回的这个 结果可以看到是有 tocos 这个关键字的,然后如果判断有关键字在这个返回响应里边,那么我们就开始执行这个工具, 把它的这些返回的这个工具的名称还有参数提取出来,然后去执行它,我们来可以看一下,然后再去把这个信息给到 r m 看一下,如果用用户告诉他听记,那么他就决定调用这个工具,然后把这个工具的名称还有参数传回来,然后工具返回的结果, 然后再去分析用户的这个数,这个就是调用工具的一个演示,嗯, 这是调用了一个天气嘛?然后你可以看一下,我是调用的这个计算工具,它就调用了这个 calculator 这个工具,然后这部分就是 一定的去调用工具它的一个质变。另外一点就是,嗯,循环调用工具,循环调用工具就是说嗯,刚刚说了吗?因为你不可能一次调用工具就把一个任务完成了,你需要根据你返回的这个结果多次的调用工具。 然后还有一个像,比如说,嗯,进行复杂任务规划的话,你需要拆解出这个 不同的步骤,这个时候你需要多次的去每一步骤可能调不同的工具,然后每一个工具,嗯,反复的结果来去判断是否再去调工具。 那我们也简单看一下,这里面我们就最简单的话演示,这里面还是定义了一个计算机工具,这里面告诉他 什么时候去调用,嗯,然后我们来看一下 怎么循环呢?循环其实很简单,就是用一个 y 除以一个 s 循环,然后一直去去根据,去让这个呃模拟的这个 l m 去。嗯,回答,根据用户的这个输入进行回答。 好,如果他回答的这个类型,如果是有最终回答的话,那你就返回,然后就终止跳出这个循环。如果没有得到这个最终回答的话,那你就一直执行这个工具调用。可以可以。 然后当他计算一加二的结果,然后将结果乘以三的时候,可以看到他首先要先去嗯计算一加二,然后再去调用一次计算三加三,呃,一加等于三,三乘以三, 可以看到他是调用两次我们的这个结果,嗯,然后给出了最终的答案。 这是简单的一个模拟啊,调用了两次,但是这种他的一个很存在的突出的问题是, 就是一方面是没有任何状态的管理,就不知道之前到底做了什么。第二个就是没有错误重置机制,然后公平失败的时候可能会乱试,或者说直接就放弃了, 然后就给出最终的答案了。另外一个就是没有中断,会可能出现死循环,或者说超时。然后接下来我们再来看一下这个有状态,就是说 前面我们一直依赖的都是 messages 这个参数,这个变量去传递这些信息,但是嗯,后面更重要的是要 添加一些参数,比如说 memory, 比如说 state 这些状态这些记忆,然后去告诉他嗯 已经做了什么,然后出现的结果是什么?这些之前的对话是什么?这也是 嗯, lm 就是 对话 lm 的 一个之前已经做到的事情,就是记忆的管理,这样的话我们在多轮对话的时候用大冒险,他会根据你之前的一些行为去相应的做出一些嗯,更好的一个回答, 然后把这个机制也引入到了这个 a 帧的里边,然后这个 a 帧呢?就如果有了记忆机制之后,就可以真正的去实现去 嗯任务执行,去执行一些复杂的任务了,因为他可以显示任务状态,可以去记录。 嗯,当前任务已经做到哪一步了?让魔镜做到心中有数。第二个可以中断后恢复,我们可以用状态去记录当前执行的一些嗯洁面信息, 然后不同的阶段应用不同的规则,然后去进进线化的系统化的积累,进线系统化的积累以及跨轮子跨对话可以保持状态和记忆。 然后我们来看一下简单的一个嗯演示,嗯,首先也是这样一个模拟的 这个 a t 的 类,然后我们可以看到它的这个抽象方法里边就多了一点。一个是 memory, 最简单的我们就用一个列表去乘除,后面我们也会详细的讲一下记忆的一些分类,还有它的一些管理方式。 最简单的我们用一个列表去存储这一集,然后用的嗯,内存直接去嗯,是一个字典吧,然后去存储多轮的状态变量, 然后这个也是相当于是大魔性的响应函数返回函数,我们这里就最简单的告诉他, 嗯,这个地方是来记,根据他的这个状态来去记录用户问候的次数, 然后如果就是现在是简单的模式匹配,嗯,来去记录这个状态的这个打招呼的问候的次数,然后就可以看出来是第几次问候了, 然后点击状态,这个是重置,重置的话就相当于是嗯状态重置,但是不清除记忆,然后如果询问记忆的话,就返回最近三条的记忆。 嗯,我们来看一下。然后每一次交互就直接用列表的 app 的 这个方法去把每次交互的信息去记录下来,这里面就是记忆,那么可以看到第一次输入,如果是你好, 他就会说你好,很高兴见到你,然后你问他天气怎么样,然后会天气晴吗?然后你再问他你好的时候,他就知道是第二次问了, 然后问他状态的时候,他就告诉你现在的 d m, 然后已经问了两次,呃,你好了, 然后如果你再问他你好,他就记住了,是第三次,然后问他记忆的话,他就可以 把这些对话过程全都记录下来。 a d 的 里面就是相当于是把执行任务的步骤什么的都可以记录下来,这些都是记忆的管理嘛,可以去选择记忆的,重置的话可以去重置状态,然后相当于现在规则零 这部分就是 a g 的 一个状态。还有记忆的管理,这个也是 a g 的 真正落到实地进行执行复杂任务的一个必不可少的东西。 嗯,后面的 a g 的 眼镜概述只简单的说几句啊,因为目前 a g 的 也是在不断的 发展,然后不断的在研进中的概念也是层出不穷啊,就像你说只要学的完,很多东西就不用学了,但是我觉得你这些基础的东西还是有必要去好好的熟悉的,因为你发现很多新概念其实都是在这些基础的概念中 衍生,或者甚至可能说就是换了个词而已。嗯嗯,说回来就是一个方面,就是更强的工具治理,因为 把这些函数这些工具增加,比如说能力标签、风险分级、预算控制等等。还有一个就是自反思,是毕竟他在执行的时候怎么去, 嗯,不断地去优化任务的完成状态。嗯,还有一个就是多 a 技能的一个 编排,因为可能一个 a 技能他的能力有限,然后就让每一个 a 技能去让他专长于某一个领域,然后让不同的 a 技能去写作。 嗯,当然呢,后面还有很多,后面也会根据最新的一些发展进行一些介绍吧。嗯,这部分就是 a 镜的一个整体的概述,还有他的一些基本的,嗯,眼镜的一些, 嗯,阶段的一个介绍吧。然后后面我们会再详细的去介绍,毕竟呢,他的一些组建,他的一些范式,还有一些常用的框架。行,先。

一份万能的 agent 的 任务说明书推荐给你啊,这份来自卡巴塞和 x 上爆火的 corner 点 m d 文档,不管你用的什么模型,都可以直接复制使用。包含 agent 的 整体的约束,工作流编排和任务管理。这些准则啊,倾向于谨慎。真实项目中,稳定是最重要的。 对于琐碎的项目啊,你自行判断。首先,编码前的思考第一,不要假设。不要隐藏困惑。呈现均衡实现之前呢?明确说明你的假设,如果不确定,请询问。 如果存在多种解释呈现糖,不要盲目选择。如果存在,更简单的方法说出来事实,提出意义。如果有不清楚的地方呢?停下来指出困惑点。询问一定要简洁,优先用最少的代码解决问题。不要过度猜测。 不要添加要求之外的功能。不要为一次性代码创建抽象,也不要添加未要求的灵活性或可配置性。不要为不可能发生的场景做错误的处理。如果你写了两百行代码,而七十五十行就够了,请重写它。 精准修改。这是第三个只碰必须碰的,只清理自己造成的混乱。编辑现有代码时,不要改及相邻的代码注视或者格式。不要成功没坏的环节匹配现有风格。即使你更倾向于不同的写法。 如果注意到无关的死代码时,删除因你的改动而变得无用的导入变量函数。 不要删除预先存在的 style。 除非被要求调研标准。每一行修改啊,都应该能直接追溯到用户的请求。目标驱动执行定义成功标准循环验证,直到达成。 将任务转化为可验证的目标。添加验证呃,为无效输入编辑测试。然后呢,让它们通过修改 bug 编辑重现 bug 的 测试。然后呢,让它通过 从供,确保从供前后测试都能通过。对于多步骤的任务呢,说明一个减档的计划,比如说步骤验证、步骤验证,步骤验证等等。就按照这个呃环节来, 就会有工作流编排啊。计划模式呢,为默认对任何非琐碎任务进入计划模式啊。这个计划模式非常重要,一旦事情走偏,立刻停下并重新规划,不要硬推。不仅在构建时用计划模式,验证环节,也要用 前期写详尽的规格说明,降低后续的歧义。子代理策略,大胆使用子代理,保持主上下文窗口的整洁, 研究、探索并分并并行分析复杂问题。一定要用更多子代里去对上例,一个子代里只做一件事,保持聚焦。 第三,自我改进并还用户每一次纠正之后啊,把该模式更新到太词 d r m d 文件里或者 license d r m d 文件里,为自己写下防止同一错误再次发生的规则,反复迭代这些 lesson, 直到错误率下降。每次绘画呢,开始时回顾与项目相关的 lesson, 完成前必须验证任务没有被证明可运行之前,绝不标记。为完成。必要时对比骨干和你的改动之间的行为差异,一定要质问高级工程师会批准这段改动吗?跑测试看日子,用事实证明正确性。 第五,追求优雅,对非所欲改动,先停下来,问有没有更优雅的方式。如果某个修复显得老套,用以我现在所知的一切实现一个优雅方案的心态,重写简单显而易见的修复,跳过这一步,不要过度设计。 在交付之前,先挑战一下自己的成果,自主修 bug, 接到 bug 报告直接修。不要等用户牵着手走,每一步错误失败的测试,然后足以解决, 不让用户承担上下维切换的负担。发现测试失败时,不用被告诉怎么做,直接去修改。 最后一个任务管理,第一,先计划,把计划写入这个 task 点 m d 文件,每一项做成可勾选的条目。第二,确认,计划实施前与用户确认一次。第三,跟跟踪进度,每一项 做一项勾一项。第四,解释改动,每一步都给出高层次摘要。第五,一定要记住结果,在 text 点 m d 末尾补上 review。 第六,沉淀经验,被纠正后更新 text 或 license 点 m d 文件里。

嗯,最近一段时间啊,在本地部署运行这个语言大模型是非常火的,然后我个人认为的话,可能在未来的两三年、三五年的这样的时间里,所有的这个创业者,包括上班的啊,上班族 都会需要去具备这样一个能力,就是去理解大模型的使用,然后去熟练的运用大模型。 所以说今天我就跟大家分享一下在本地部署语言大模型的话的一些经验,然后我不会去讲具体的一些安装的过程,就是怎么安装的啊?这个模型怎么安装的,这个平台怎么安装的 这样一些东西。在抖音上面很多,今天跟大家分享的话,主要就是说什么样的模型,它能够在你的电脑上跑起来,能够流畅的跑起来,它能够帮你去解决什么问题?这个是今天跟大家分享的,然后 简单说一下,就是在本地部署大模型的意思,就是把这些语言大模型安装到你的电脑上,这样子不管是你有网络还是没有网络,你都可以跟他去进行一个问答,然后让他帮你去干活,或者是让他去解答你的问题。呃, 和传统的像我们像豆包或者是 deep deepsea 啊这种语言大模型的话,那它的区别就在于说,呃,豆包这样的语言大模型,它是运行在云端的,没有在你的本地,然后 嗯,如果没有网络的话,你是没办法使用。第二个就是你跟他的聊天的记录,包括你上传给他的文件啊,嗯,他是会上传到云端服务器的,没有私密性。然后对于很多的一些企业来说,包括个人来说,我想保证我自己的一些客户资料或者是自己的私密信息 不上传到这个云端服务区的话,那么这个时候就不建议我们去用这个云端的这些啊模型, 嗯,这个时候我们就会用到在本地部署这个语言大模型,然后目前本地能够部署语言大模型也是非常的多啊,也是非常多。然后我经常根据我的电脑情况的话,我现在目前话主要是用这三个啊, 一个是千万三点六、二十七 b 的 这样一个模型,还有千万三点六、三十五 b 的 专家型的一个模型,还有一个佳马仕啊,佳马仕是谷歌的, 这三个模型是在我的电脑上,我觉得速度和质量都还是比较好的。然后目前整个这三个模型啊,他的实际的一个评测也是在本地模型里面靠前的。 当然这里有一个概念,大家一定要知道啊,就是说对一个大模型来讲,他前面代表是他的名称啊,千万三点六,这个是千万公司的,然后三点六是阿里出的这个模型啊,杰尔玛是谷歌出出的,这个是他前面的这个名字,然后这中间这个就很关键了啊, 呃,三点六和四十他的版本哈,这个不用去管他。然后最中间的就是这个带 b 的 啊,二十七 b、 三十五 b、 三十一 b, 这个表示这个模型他的一个大小,也就是说这个模型的呃,他那个规模什么意思呢? 举个例子就说他如果是人的话,这个就表示了,就表示了你的一个脑容量越大的话,你可能就会更聪明,如果你的脑容量越小的话,那可能你就 不那么聪明一点,然后能够回答的问题就有限。所以说一个越大的模型,那么它的智能程度是非常高的啊。 像我们家用的话,部署的话有啊,四 b 的, 有八 b 的, 有十 b 的, 有十六 b 的, 然后有二十多 b 的, 也有三十多 b 的, 还有七十 b 的, 这样一些模型都是可以在家用电脑上进行一个配置的。 如果你要追求啊,像很多的一些大公司,像阿里啊、腾讯啊、百度啊这些公司,他们在服务器部署的这个模型,那我们在本地电脑上是肯定跑不了的,他们都是千亿级的这样一个参数,在本地是跑不了的啊。 嗯,所以说我们能够跑的基本是在七十 b 以下的,如果说你是非常顶尖的一些专业的工作站,那你可能会跑到七十 b 的, 然后普通家用电脑的话,基本上能跑到三十五 b, 二十七 b, 就 就基本上是一个天花板了,所以说大家可以一定要去注意看。然后 第二个需要注意,就是说啊,模型还有一些后缀啊,后一个后缀的话,主要是它的一个量化的参数,比如说像杰尔玛这个模型,它这个 i q 四,这个表示它是以四比特去量化的,这个参数会非常重要。我们看这个模型文件,它也会有 像三问千问三点六二七比特的话,它是写的 q 六 k, 也就说它是按六比特进行量化的,量化的程度越高,量化它表示一个模型的压缩率, 如果说压缩的越狠,那他的数字就会越低,比如说四比特,那就是压缩的非常厉害的六比特,压缩中等的巴比特就基本上轻微压缩,十六比特就是完全没有压缩, 完全没有压缩的模型,它质量是最高的,然后稍微压缩一点啊,也是可以使用的,精度没有太多的影响。但是如果是四比特以下的这个压缩率的话, q 二 q 一 啊这种, 嗯,我建议大家就不要用了,这种压缩率太低的话,他会失真啊,就会产生模型的一个幻觉,说这也就是这个意思啊。 q 二 q 六 q 四, 但是不是说越大就越好,这个要看你的电脑能不能装,嗯,至于这个模型能不能在你电脑上去部署,能不能流畅的跑起来,有个很重要参数,非常的简单,我教给大家就是什么呀?就是你去看这个模型文件的一个大小 啊,这个模型的话它是二十二个 g 的, 然后我还装了一个千万三点三点六三十五 b 的 这样一个 q 四的模型,它的大小也是二十二 g 的, 然后这个 g 码三十一 b 的 模型的话,是大概是十六个 g 啊,十六个 g, 对, 然后 这个什么意思呢?如果你的显存是三十二级的显存,或者是你的显存是十六级的显存,你一定要记到一点,就是这个模型文件它的大小绝对不能够超过你的显存,如果说它超过你的显存,也就意味着这个模型不能够完全的加载到你的这个 这个显卡的呃显存里面去,如果不能够加载进去的话的话,然后他就会通过这个内存和 cpu 去进行计算。我们都知道啊, cpu 它是一个多任务的啊,多现成的这样一个处理器,它是干很多活的,但是 gpu 它是 专门去干一件事情的,所以说它的计算速度会非常高,而且这个显存的宽带比内存的宽带是要快很多的, 所以说当你的模型全部加载到你的显存里面的时候,它的进行计算就是通过显卡去计算,那么速度就会非常快。如果说你把它放到内存里面去,通过 cpu 去进行计算的话,那么这个速度就会非常非常的慢啊,所以说大家一定要记住这一点,就是你的这个模型的尺寸, 它的容量大小绝对不能够超过你的显存啊,这里我是配置了两张显卡,呃, rtx 的 五零八零和 rtx 的 五零六零钛都是十六 gb 显存的,加起来就是三十二 g 显存,那么这个显存叠加的话,是在这种语言类大模型是可以去进行一个呃, 叠加的,使用的就是平台会进行拆分,但是你去跑一些像 comfyui 这样的一些生图生视频的软件,它就没办法啊。好,这个我就不讲太多了,大家一定要记住,就是说这个模型能不能在你的本地部署,首先第一点去看它的大小,大小不能够超过你的显存。 第二个很多朋友可能会问,那我是十六 g 的 显存,我去下载一个十五 g 的 一个模型没问题吧?当然没问题,你可以装进去,但是你一旦和他对话说成两句话, 你就会变得非常慢,为什么呢?就是在本地部署模型,还有一个很重要的概念,叫做上下文的一个大小,什么意思?就是你每跟他对对一次话,你,你告诉他的问题,他就会占用一定的容量, 随着你在一个窗口里面跟它对话的次数越多,这个容量就会越大。如果这个容量加上它本身的模型的这个容量,最后超过你的显存,它就会加载到你的内存里面去,加载到你的内存里面去的话,然后这个时候速度就会变得非常慢了。 所以说我们要确保就是说一个模型在自己的显存里面去,不能够到内存里面去,不能够让 cpu 去运行它,不然速度就会非常慢。 所以说大家现在知道了啊,就是你去装一个本地模型,第一要素是它的大小不能够超过你的显存,第二要留足够的空间去给它运行上下文,这个空间大概是多少呢?嗯, 大概一万啊,字节的这个上下文的话,需要的显存,嗯,应该是在一 g b 左右,所以说我们普通的对话的话,基本上你设个嗯三万吧左右的上下文,如果你 用这个电脑的 ai 的 a 检测去帮你干活的话,三万的上下文一般足够用啊,那么三万的上下文的话,然后 呃就需要大概三 g b 左右显存。如果你是去除处理这种长的上下文,比如说几十万这个小说啊,怎么怎么样,那你就需要设置非常长的上下长长的上下文,比如说六十四 k 的 或者一百二十八 k 的, 那么就会需要占到七八个 g b, 甚至包括十多个 gb 的 一个显存容量,那么这个时候你在显存里面一定要留够这个容量,如果没有的话,要么你就去压缩你的上下温,把它这个容量变小一点,要么就是下载更小一点的模型啊, 所以说我的三十二 gb 的 一个显存的容量,呃,那么我去跑一个二十二 g 的 这样一个模型, 我的空间容量还有十 g 左右,十 g 左右当然也还需要减掉两个两到三个 g, 这个是系统需要用的啊,就是你加载这块显卡,系统会用到 的,所以说,嗯,可能我能够用到的容量就是八个 g, 八个 g 的 话我就八个 g 的 话,我就大概能够设置三万到啊,六万这样一个一个上下文的一个长度吧。 好,这个知识大家清楚之后,然后我讲第二点非常关键的什么呢?就是说你下载一个模型,嗯, 它能够装到你的显卡里面去,就是我刚刚讲的就是它的容量绝对它的大小不能超过你的显存。第二,你要留够足够的上下文的空间,然后第二这个模型在你的电脑上跑得快不快,这取决于什么呢? 嗯,首先第一当然是你的硬件啊, cpu 这个型号越高,它的这个扩大啊,不要去选择 amd 或者是英特尔的这个这个 gpu 啊,英英特尔和 呃,这个 amd 的 显卡,它们目前在进行这个大模型的计算的时候,没有没办法去开这个扩大加速啊,它的速度会非常的慢, 所以说现在恩威达的这个显卡,它的市场占有率已经达到百分之九十多,就是因为它不光是它的库达啊,还有大力水手啊, d l s s 这个在游戏方面表现很好,它的库达在这个大模型计算方面也是非常的有用, 所以说,嗯,建议大家如果真的是想去学 ai, 然后去跑大模型的话,一定要选择这个 omega 的 显卡,然后,嗯,型号越高的啊,就是像四零九零或者五零九零,然后五零八零、四零七零啊,四零八零这种型号的话都是可以的,就是型号高一点。 嗯,但是最重要是什么?就是我刚才想跟大家分享,就是说,嗯,显卡要用 n 卡。第二就是你去跑个大模型的时候,嗯,他的一个平台会非常重要,我现在跑的大模型的话,这个平台是用的这个立马点 c p p。 呃,什么意思?就是说立马点 c p p, 就是 他去跑这个大模型的一个原生的一个环境啊,就是一个环境去跑它, 嗯,但是这个立马点 c p p 的 话,它会复杂一点,你需要在这个命令行 c i i 里面去进行一个部署。如果说很多啊,新进入这个这个领域的小伙伴 啊,想简单一点也有办法,就是去下载一些像 l m studio 啊之类的这样一个呃平台,这样平台它是直接可以在文档上面进行一个安装的,就不需要去输命令,然后安装好打开这个界面就可以加载这个模型,就非常方便。 那么但是有一个问题,什么为什么我现在不用这他们这些平台,就是因为这个 lm studio 啊,我测试过之后,它的速度比原声的立马的话是,呃,每秒钟升升升成那个托肯的,这个速度是会慢慢很多的。 呃,所以说我基本上就是用原声的立马啊。怎么样去装这个东西我也就不讲了,大家可以去了解一下,我今天给大家实际跑一下吧,跑一下这个 好,需要打开一个命令行,然后去输入到我们的一些启动的命令啊,输入到我们的启动一些命令,这些命令的话也不是很复杂,嗯,基本上在在这个在网上都有。 然后这个命令加载的命令的话,主要是就是加载你模型的这个位置,然后一些启动的参数我就不展开讲,现在我去启动一个这个二七 b 的 千文的一个 q 六的这样一个模型啊,把这个命令输进去,然后回车就可以了,然后它现在就是一个加载模型的一个时间, 然后我的两张显卡的话,因为有一张的这个贷款比较低,是 pcie 的 一点零啊,我现在还没有去改它,所以在加载的时候会速度会比较慢,但是跑起来的时候完全不影响啊,就生成这个托肯的这个速度还是非常快, 然后加载的时候可以稍微慢一点,但是已经完成了啊。在加载完磨成模型之后,就会生成这样一个地址,在本地的一个访问的一个端口啊, 幺二七点零点零点一八零八零在一个端口,然后我们在浏览器里面去打开它就可以了。然后这个因为我本身我是已经啊把它收藏起来,现在我就直接打开它,这是立马点 c p p 的 一个基本的界面,我们就可以跟它对话了,你是什么大魔 模型,这样对话的话,他就已经用这个千万三点六二十七 b 的 q 六 k 来进行一个回答,然后速度大概是在三十 to 肯斯每秒左右啊,有时候会快一点,比如说来到四十 这个时候呢,注意看一下,就是我的两张显卡的显存啊,基本上十六个 g 用了十三点六,然后另外一张的话是十六 g, 用了十五个 g 啊,这里面我做了一个权重调配, 然后我的 cpu 啊,它的运算率是非常低的,就基本上它是靠显卡和显存在进行计算,这个就是非常好的,所以它能够保证它的一个速度啊。现在这个大模型的,呃, 评分比较比较高的有哪些 好?然后提些问题,他就可以去跟你进行一个一个解答,然后 我们就可以在本地去使用它,然后本地使用这个大模型的话,好处就在于说,第一如果你没有网络, 你没办法去使用豆包或者 deepsea 的 情况下,你是可以在自己的电脑上去跑这个本地模型的,一样的话是非常智能,像千万这个二点,嗯嗯,千万这个,嗯,三点六,二十七 b 这个模型啊,我实际测过,他比豆包的这个快速的这个模型 是要聪明很多的,和豆包的这个思考模型的话差不多,当然专家模型就没有办法更详细的去进行一个测试了啊, 他也他也的自然程度也是非常高的,所以说你如果没有网络的话,你就需要去部署一个自己本地的模型。第二点就是对于很多的企业或者个人来说, 嗯,因为云端的模型向豆包我提一些问题啊,把我的企业的财务数据我需要去发给他看,然后把我企业的员工的一些信息,或者是我的一些核心商业机密中标的一些东西,我需要发给他去看, 那么这个他会把这个文件上传到一个云端服务器,这样确实私密性不太强啊。但是在本地的话,比如说我上传啊,他现在已经生成完了,我上传给他一张图片啊,上传随便啊,上传给他一张图片我让他看,呃,你看一下我的电脑 配置啊,这样图片给他的话,他在本地进行处理,那么这个,这个你的这个资料,你的呃所有的资料不需要去上传到云端啊,私密性非常强。所以说很多企业 和个人,然后包括一些商家,他的不需要自己的这个客服资料的流失的话,建议都是去做这个本地的部署,然后他在跑的时候大家可以看到啊。 嗯,显存啊,两个显存还没有用完,十六 gb 的 十五点一,然后十六 gb 的 十三点六,也就是说我现在还有大概呃三个 g 左右的一个空间去跑这个上下文,然后不会报显存,不会报显存的话,一个代表就是一个,一个一个表现就是你的 cpu, 你 看 我这个 cpu 的 话,它的一个运行的一个,嗯,占用率的话是比较低的,这样呢不会去影响模型的速度,主要是靠显卡啊,靠你的显卡进行一个计算 好,然后这个就是在本地跑模型的话,嗯,在平台选择的问题,建议大家如果确实不太熟悉这个命令行的话,就可以去选择这个像啊, 然后 a m m studio 之类的这样一些啊,非常简单的桌面平台,然后下载即安装,安装就可以使用。如果说你懂一些电脑的这个呃操作,然后又想去体验这个大模型的一个速度的快速的话,那么就建议大家像我一样去下载一些啊,这个纯底层的, 呃,跑模型的平台,像立马点 c p p, 还有 v l l e m 之类的啊。然后这个就是影响模型速度运这个计算速度的一个很关键的地方。那么第二个点就是什么呀?就是在大模型上,嗯, 下载大模型的话,像你用这个,嗯,像我用这个,立马 c p p, 它比我用这个 l m studio 最好的一点就在于什么?就在于它可以去支持这个这三个字。大家看到没有,这个叫 m t p 啊, 去支持这种 m t p 的 一个模型,但是像 l m studio 它现在还支持不了,这什么意思呢? m t p 的 话是一种加速的方式, 一种加速的方式,有 m t p 的 模型的话,它的速度会非常的快,没有 m t p 的 模型的话,速度会慢一点啊。这个具体的原理和机制我就不跟大家讲太多,大家可以在网上去了解一下。所以说你想去跑这种 m t p 的 模型的话,建议最好就是用呃,里马,包括这个 v l m 之类的 这个原生的平台去跑,像一些,有一些啊,像这个 l m 丢丢之类的,它现在还用不了这个 m t p 的 模型, 呃,这个也是对模型速度影响非常关键的。然后最后跟大家分享一点,就是说,嗯,我目前啊经常在用的话,主要是有三个,这个人工智能这个智能体啊, 第一个豆包我会也会经常用,有些简单的问题我会问他,因为第一他是纯中文的一个环境,第二在用他用到国内的这个搜索网络的话,去搜索一些东西,速度也是非常快的, 那么我要去学习大模型,要去掌握大模型,要去用本地的一些搭建知识库的人之类的事情的话,让本地模型去不消耗托克的情况下啊,啊不,不是不消耗托克,就是免费,有托克用的情况下 只消耗算力,你的电力的情况下去去用大模型的话就可以用本地的啊,这样一个部署的。呃,还有呢,就会用到这个,像这个 谷歌的这个啊,机密里啊机密里,然后这个是我觉得我用到的这个,呃,怎么说?这个智能体验 非常聪明的一个,非常聪明的一个,然后建议大家如果有这种条件就是科学上网的环境的话,大家可以去试一下啊,这个机密里我觉得是非常聪明的,然后,嗯, 所以说就是本地部署模型的话就是这样一些知识点,当然还有很多很多的一些知识点,然后我希望大家都慢慢去学习,比如说在本地模型的话会加很多参数,这些参数里面最重要的我觉得就什么呢?就是有一个这个参数叫做 f a, 嗯,这么个参数啊, f a 什么意思?就是你在本地去跑大模型的时候,在那个语言环境里面,你一定要去装两个东西,一个叫做 flash attention, 一个叫做 sega attention 这样的东西,然后 flash attention 的 话它主要是去加速这个本地的语言大模型的,你打开它之后啊,你的量化模型会跑得更快 啊。嗯,我在这我在这边再给大家演示一下,我跑这个千问三十五 b 的 a, 三 b 的 这个模型大家可以看一下啊, 哦,我这个模型都是去开启了这个 flash attention 的, 然后,所以说,呃,再加上我用的是 m t p 的 模型啊, m t p 的 模型,然后开启了 flash attention, 所以 说我这个,呃模型生成的速度,这个这个吐字的速度 还是非常的快, 大家可以看一下这个纤维三点五啊,纤维三点六,三十五 b 啊,这个模型是个 mo 模型, mo 是 个专家型的模型,它每次加载到你显存里面的计算量 会小很多,所以说速度会更快,非常的快啊。然后,但是我实测过它和二十七 b 的 模型比起来确实有一点, 怎么说不严谨,或者说有一点傻啊,同样一件事干出来,嗯,它的智能程度,比如说我写了一个围棋的游戏,我用二十七 b 写出来的话啊,我觉得是 ok 的 啊。 除了有一些这个嗯嗯对战的 ai 还需要调整之外,我觉得这个围棋游戏是 ok 的。 但三十五 b 写出来之后,它那个棋盘首先就是非常小的啊,它就不是那种标准的围棋棋盘,是一个可能九乘九的一个棋盘,然后 ai 的 话也是没有反应,需要你自己再去调试, 但是它作为市场的问答是没问题的,我们现在已经打开它了,这个千万啊,我们先去再去试一下,再去试一下,然后 看一下这个三十五 b 的 一个啊,大家可以看到它是千万三零六三十五 b a 三 b, 然后呃一个 q 四 k, 然后杠叉 l 的 这样一个模型也是有量化加速的。我们先问他一个问题,呃,中国从小学到高中的数学教学教育体系 好,我们来设这个问题啊,我们现在看到的,嗯,他的预思考时间会稍微长一点点,这个是因为我显卡插槽的问题啊,是我显卡插槽的问题,我有个显卡的话,他插在那个 pci 一 点零上面,所以说这个加就是预思考的这个速率会稍微慢一点, 如果调整过过后之后,他是是非常快的啊。然后现在他已经在进行一个思考和深层了,然后大家可以看到这个数据大概是在六十四左右。我,嗯,我觉得现在有点不对啊,我平时跑这个数据应该是在 一百左右吧,啊?一百左右吧,所以说九十多一百,所以说这个这个三点六三十五,比这个是很快的啊,是很快的。 然后一些常见的问答,日常问答的话,这个模型是非常推荐大家用的啊。嗯,我说的傻傻的是在做一些非常专业的这个数学,或者是一些啊这个领域的一些计算的话,他可能会比二十七币啊,因为二十七币那么多。专家吗?他毕竟 这个三十五币,毕竟只选了几个专家来回答你的问题,可能说没有那么全面,没有那么深入,但这个模型日常用是非常好用的,非常好用的。嗯, 所以说就是我们现在可以看到我刚才加载这个模型的时候,它会有一些基础的信息,里面有一个很关键的就是在于这个 flesh attention, 我 给大家找一下这个,这个,这个在哪里啊? flesh attention 没,没看到,这个在命令行里面,有时候你会看到它,然后加载的话是在这个, 我现我现在有点找不到啊,有点找不到。呃,我是没有开启吗?应该是开启了,开启了也可以让看一下这个命令行,也可以让。 对,嗯,我是开启了,但是在这个里面好像没有看到啊,没有看到,现在我也,我也不再去找它了。然后我想告诉大家,就是说 这两个东西啊,一个是 flash attention, 一个 sega attention, 它都是这个本地的一个平台,你必须要去跑本地模型,必须要去装到两个插件啊,这两个插件会让你模型的速度升的速度会非常的快。然后 flash attention 的 话,主要是在跑本地语言大模型的时候加进行一个加速, 还有一个叫做 sega extension 的, 那么主要就是在跑这个,呃, comfy y, 也就是说我们说的这个, 嗯,生成图片或者生成视频的这样一个平台啊。嗯,这样这样的一个模型,一些图上视频,纹身视频,然后嗯嗯,这样一些模型呢,他就会去用到这个 sega extension, 说这两个东西你是必须要去装的,然后还有一些环境, 嗯,像拍缝啊,然后库达这些东西,基本上,嗯比较适合一些老手啊。我们去部署它,在用这个 c u a 这个命令行去部署它的话, 都必须要这样去装,如果确实新人入门的时候你觉得太难了,没关系,你就用这个 l o m studio, 这个也是可以的,它除了就是稍微慢一点点,然后不能去加载 m t p 的 量化模型之外的话,它还是非常好用的。 然后当我们部署这些语言大模型之后,我们还可以去跑一些 ai 的 agent, 然后这这些 agent 的 话,他就可以去帮你干活。像我现在用的这个 anything l l m 这个 agent 的 话,然后 他能够帮我生做什么呢啊?嗯?能帮我做什么?我现在已经连到这个三点五啊,纤维三三点五,这个纤维三点六三十五 b 这个模型上面了,然后就可以直接问他啊,我是配置好的,然后 他就告诉我他能够做做哪些事情。但实际上啊,这个 a 剪子的话,他的这个功能还是比较多的,我们可以看到他的一些这个代理的技能啊,比如说去 进行一个呃资料库的搭建啊,就是我们说解锁生成,然后长期记忆,这个是 ok 的。 然后文档的总结没问题,去网站上抓取一些数据没问题,然后访问你电脑的文件系统,然后能够在你的电脑上去创建一些文文档 图标,包括 ppt, 然后能够去进行联网的搜索,然后还可以连接你本地的这个 呃 s q l 的 这个数据库啊,然后去调取一些,比如说你做商家的,对吧?你的你的数据库里面有很多你的商品的价格,你每次在改动的时候,它可以自动的去进行一个连接帮你调整,然后它还具备了一些什么邮件啊、日历啊,然后呃 outlook 这样一些连接的一些功能去,就就能够去帮你做一些 用 ai 的 这个本地模型去帮你干一些事啊。如果你不是用本地模型,比如说你用到这个他们养龙虾或者是跑这个爱马仕的话,呃去用到这个呃 deepsea, 或者是这个 呃谷歌的这个经理的话,他就会按 talk 给你收费啊,这个费用就比较高,所以说如果你只只是做一些简单的日常工作的话,你就可以在 自己的电脑上去部署这样一个本地的模型,然后用自己的 a 技能去跑,就没有一分钱的花费,他只会消耗你的电费啊,以及你刚开始前期的一个硬件投入成本啊。嗯,这边给大家再看一下啊,就是说,嗯,举个例吧, 嗯嗯,比如说我用,哎用 用浏览器去亚马逊网站帮我 查一下二零二六年,嗯,二零二零二六年四月的热销, 热销电子产品啊,这样一件事情,我生成给他之后,然后这个 agent 他 就会调用你本地的模型进行计算, 然后你可以看到他他的一个计算过程,然后他同时会用到他的 agent 的 功能,就去用他的一个内置的或者是你自己电脑上安装的一些浏览器去搜索这个网站,然后去 找寻这个结果,然后反馈给你,反馈给你之后,你还可以让他去生成一个什么 excel, 威尔,威尔的这样之类的一个表格,储存到你的电脑上,就相当于帮你干一些简单的活,这个是没问题的, 所以今天跟大家分享一下,就是说本地这些模型啊,我不讲安装,我就给大家分享一些经验,就是他怎么样跑你电脑上,大家一定要记住这个模型的大小不能够超过你的显存,而且你要留一一一定容量的这个上下纹, 然后同时的话去选择模型的话,呃,最好选择量化模型啊,量化模型,然后带 m t p 加速的那样些量吗?量化模型,然后平台的话,如果你呃 比较精通电脑,就去用这个 c u i 的 命令行去部署一些这个底层的一些跑模型的平台。嗯,如果你不太精通的话,如果是一个电脑小白的话,就直接去网上去当了这个 l m studio 之类的,这些啊,一个桌面版的模型平台就会非常简单。 然后,嗯,今天就跟大家分享这么多吧。然后如果后面会有一些教程的话,也是把我以后在跑模型方面的一些经验给大家分享一下, ok, 拜拜。

我新换的本地大模型已经准备好了,然后我给他准备了三个问题来考一考。他现在就来测一下我新部署这个大模型的聪明程度和他吐字的速度怎么样。好点完回车之后,那他就已经开始思考了,这个是他思考的后台运算过程。 下面这个是我我台式机硬件的使用情况。那它现在的吐字速度是七点六, to 肯每秒也就是每秒钟五到六个字。那现在 cpu 是 使用率是百分之 百分之八十左右,内存使用率是百分之七十三, gpu 使用率是不到百分之五十,明显就能看出来 gpu 跑得快,要等着 cpu 和内存。他现在已经思考了将近四分钟了,前两个问题已经思考完了,就是最后一个写词,这个会慢很多。 好的,经过了七分钟的等待时间,他终于回答完了那第一个问题,他回答总共是十个人。这个 回答错误,因为喜羊羊不是人,总共是九个人。第二个问题是第二名是没有问题的,你超过第二名还是第二名, 那第三个它生成一些文字符合我的要求,那么它总的生成速度是七点三。一,偷看每秒每秒钟五到六个字我都能接受。那第一个问题我再让他重新回答一遍。 好,那,那第二次又问完了,他回答的依然是十个人,这让我很失望啊,我这次准备和他硬刚,我看看问多少次他能回答正确,应该有戏啊。这人说了,喜羊羊是 actually, 一个卡通的羊,不是一个人。我原本很失望,因为他算出来的还是十个人。 不过后来你看他说的原因啊,就是说这个。呃,如果严格按人类计算确实是九个人,可是这道题的命题意图明显是考察是否记得加自己,因此十仍是公认的正确答案。 我觉得他这个回答吧有自己的态度,然后这个逻辑能自洽也不能说他错了是吧。就是他这个狡辩吧。我觉得 还挺聪明的回答确实是没回答对我心中答案啊,但是这个狡辩还是可以了,还是给他赞一个啊。我之前部署是千万二点五千零币, 这次是千万三点六最新版本的三十五币。上次那个模型呢是你问他一个问题,他每产生一个字就要把他四十个 g 的 数据库都扫一遍,扫一遍产生一个字,扫一遍产生一个字,然后这个混合模型呢总共是二十二个 g。 就是说你问他一个问题他只他是先确定你问的问题属于哪类的数据库先定位定位以后这个数据库也就是一到两 g 他 每产生一个字就扫描这一到两 g 就 可以了。所以呢他这个是一个很聪明的一种工作方法,那也就是说在你的老旧电脑上,在相同硬件上他能既聪明又快的回答出你的问题,这就是他的聪明所在。然后呢也通过一些方法去增加我的大模型的短期记忆力, 也就是通过量化缓存的方式让我大模型的记忆力又上一个档次。那下一步呢那就是把我本地的文件夹或者文件去和这个大模型去绑定,让大模型先去理解我的日记啊和工作方法,然后我再去问他问题看他回答怎么样,有兴趣的朋友呢,也可以从评论区来一起探讨一下。

使用 ai 插件阅读左跳中的文献,无法进行多篇文献对比阅读怎么办?这个插件非常完美的解决了这个问题。安装并设置好插件后,我们打开一篇感兴趣的文献,该插件就在阅读器界面的右侧栏,我们可以对当前文献进行提问理解。 除此之外,我们还可以从文件夹中或者导入 pdf 文献,选择多篇其他文献进行对比阅读或者综述。 托管使用的话,可以用 api 密钥接入自己的,然后在这里可以选择自己接入的模型,亲测好用。