粉丝7025获赞14.8万

最近玩智能体啊,实在太消耗 token 了,所以我们今天要来讨论说啊,哪里能搞到便宜的甚至是免费的大模型 token 呢?首先我们来看一下,如果正常使用 token, 大 概是个什么价格呢?像我们日常最常用的这个网页版的聊天机器人啊,类似于豆包、 jammy 这些网页的服务, 一问一答,大概每一次呢会消耗几千到几万的 token。 一个月下来呢,大概可能就是三百万的 token, 数量也就是几块钱。但 agent 就 完全不一样了,它要自己规划,自己执行,自己反思,一个任务跑下来呢,可能会调用几十上百次模型。像我们最常使用的 cloud code, open code、 open cloud 这些智能体啊,每一次跑起来都要消耗几万甚至上百万数量级的 token。 我 也翻了一下我自己的使用日志啊,然后大概估算了一下,我每个月的使用量呢,大概是三亿个 token 左右。然后我们来算笔账,如果你使用的是 cloud sum 的 四点五这个模型, 它的价格呢,大概是每一百万的 token, 输入呢是三美元,输出呢是十五美元。考虑上一些这个缓存啊,折扣啊,平均价格呢,你可以认为是每一百万的 token 五美元左右。那这么一算啊,其实你跑一个 agent, 每个月其实要烧掉一千五百美元左右, 就算是换成便宜的多的国产模型啊,一个月也要用到两百到三百美元,这个价格呢,我觉得还是蛮离谱的。所以这期视频啊,我就来跟大家聊聊,怎么才能搞到便宜的甚至是免费的大模型接口。先说好,这期视频呢,是没有任何的广告的,全是我自己实测 实际使用的经验。在正式开始之前啊,我想先给你一个这个思考框架,省钱这件事情呢,本质上其实就在做三个维度的取舍,价格、稳定性、模 的能力。你不可能三个都要,如果你想要最强的模型并且稳定,那肯定就会稍微贵一点,如果你想要便宜,那肯定就要牺牲一些模型的能力或者是稳定性。我们带着这个框架呢,然后再来逐个看各家的方案。先来说这个 cloud 买套餐到底能省多少钱呢?官方没有公布套餐的实际使用量,但有人测过了数据呢,放在这个网址里面,我给大家总结了一下,如果你订阅一百刀的这个套餐,用到极限的话,就能用掉价值一千三百五十刀的这个额度, 相当于打了不到一折,换成人民币算的话,差不多就是零点五元的人民币就能买到一美元的这个使用量。但 cloud 的 官方有两个大坑啊,大家也都知道,第一呢就是国内的用户特别容易封号。第二个呢就是不允许介入其他第三方的服务, 只能在这个 cloudco 的 这些官方应用里面使用,没有办法拿它去接入 opencloud 或者是其他第三方的这个智能体。如果你又想要这个按量付费的这个灵活性,又想要这个套餐的折扣价,那怎么办呢?我觉得唯一的选择啊,就是中转站,中转站呢,你可以把它理解成为这个零售商,就他们会去批量的向 cloudco 的 官方购买 这个套餐,然后呢在中间加一些价格再卖给你刚才说的,比如说零点五元的人民币兑换一美元以上, 市面上有上百家的这个中软站,那怎么挑呢?有人做了一个中软站稳定性的监测,大家想要购买,想要具体了解的,其实可以看这个网站,上面呢监控了几家比较大的这个中软站的稳定性。不过说实话,这个中软站呢,基本上还是一门比较灰色地带的生意, 所以呢,建议大家每次别充太多,这里呢就不具体展开了。然后我们来说第二家那个 check gpt, 相比较那个 cloud code 的, 动不动就封号啊,然后不让接其他的这个工具 open i 呢,其实就大方了很多, 它不仅能接自家的这个 codex, 还允许你去接 open code, 允许你去接 open cloud 这些第三方的项目,而且额度啊,要比 cloud 的 要给的多,大概是零点三元人民币就能买到一美元的使用量。更香的是啊, open i 的 活动特别多,比如说像那个 gpt 开通团队套餐,首月免费,你可以去某鱼搜这个 team, 新车几块钱呢,就能用上价值二十五刀一个月的会员。如果你拿这个会员去跑 codex 啊 token, 相当于说完全白嫖。 codex 的 缺点呢,就是它写代码的速度啊,会相对来说比较慢一点,不过呢,你可以开多个 agent, 让它并行去跑 数量去换取速度。然后下面一个是这个谷歌 gemini gemini 系列模型写代码的综合能力啊,普遍来说稍微比这个 cloud 和 gpt 弱一点,但有个骚操作啊,就是可以通过教育活动拿到免费一年的谷歌 ai 会员,然后用这个谷歌的编程 i d e anti gravity 来跑这个 cloud 模型,然后还有一个更狠一点的玩法,就 使用这个项目 cloud proxy api, 它可以把 antigravity 里面 cloud 的 模型转接出来给 cloud code, open cloud 这些工具去用。因为谷歌会员啊,几乎都能白嫖,所以它对应的这个 token 啊,也约等于免费。不 过这么玩的人啊太多了。谷歌最近呢,在频繁调整这个 anti gravity 的 额度,所以这个方法我也不是太推荐,因为它可能之后就不太稳定了。聊完了预三家之后啊,我们来聊一聊国产的这些模型。国产的模型呢,本来零售价就只有海外模型的一到两折,购买套餐之后呢,就会更便宜了。在国产模型里面啊,我觉得当下最强的可能就是最近推出的这个 kimi k 二点五,我实际用下来它的能力其实跟 cloudsonic 四点五几乎没有什么差别。有兴趣的朋友啊,可以去 kimi 的 海外版看一看, 有个首月零点九九美元的活动,能拿到原价九十九元的套餐,还可以支持这个接入第三方的 cloud code open cloud。 国内版 kimi 的 活动呢,就稍微差点意思了, 每周大概五元左右。但是 kimi 我 觉得最大的问题啊,就是套餐额度给的比较抠,控制台里呢,只显示了使用的百分比,看不到具体的 token 使用量。我实际测下来呢,比下面两家我要介绍的这个国产模型啊,给的量都要少得多。 gim 呢,应该是国内三家里面我觉得最大方的, 然后套餐的额度给的非常的足,最低档的套餐呢,是每个月二十元,每年两百四十元,但价格是真的香,我自己也买了。接口方面呢,也很开放,可以支持接入各种的工具。缺点呢,就是现在 g i m 四点七啊,它的模型效果暂时不如 kimi, 而且高峰时间段呢,因为顾忌它 套餐卖得太多了, token 的 吐字呢,我觉得巨慢。另外一个 mini max 呢,我觉得它的套餐跟 g l m 很 像,然后这里也不跟大家重复了。然后还有一家呢,大家可能没想到,就比较小众,就是英伟达。英伟达呢,其实它也提供这个完全免费,额度不限的这个开源模型, 包括前面说的 kimi k 二点五,然后 jimmy 四点七, mini max m 二点一。但是呢,因为可能门槛太低了,然后用的人实在太多,热门模型的速度呢,慢得离谱。所以这个呢,我就更不推荐了,只是跟大家介绍一下,英伟达,它其实也有这个免费的接口。最后啊,来再帮大家整理一下思路,如果你想追求最强的效果, pro 的 中转站呢,是目前性价比最高的选择。如果你的预算有限啊,那国产模型里面 g i m 的 套餐最实惠。 timi k 二点五的效果最好,但是有传闻呢,说这个月会有大批的这个模型,会推出新一代的模型,到时候呢,我再跟大家更新。然后如果你想白嫖呢? openai 的 这个 timi 拼车几乎是完全零门槛的, 效果也不错。这期盘点里面当然肯定没有包括说这个百分之一百所有的方案,市面上还有很多我没发现,或者是我没有测过的这个方案。如果你有更好的渠道,欢迎在评论区补充,大家一起交流。好了,今天视频就到这里了,我是迪总,黑心李超,我们下次见。

hello, 大家好,今天我教大家一个免费的拿到 token 数去练习 open call 的 一个方法。呃,阿里的百炼大模型里面,它有一个对新用户有一个一百万个 token 的 这样的一个优惠,后面我的视频给大家讲清楚,为什么。呃,百炼大模型,它的 token 数远远不止一百万。呃,每一个子模型使用的这样的一个 token 数是一百万。阿里云百炼 模型这样的一个列表给大家看一下啊,这个附送的列表里面这是第一页的啊,第一页的有天文三点五 plus, 天文三点五 plus, 二零二六年的版本,天文三点五的这个什么什么什么版本,然后有这个天文 plus 的 版本,然后还有这个天文 turbo, 这个我已经用完了啊的版本,什么什么什么,就我们看光天文的版本就这么多啊。然后还有第二页,我们再看一下 第二页天文啊, q v q, 天文三 v l v 一, deep seek 啊, deep seek 版本, deep seek v 三点二的版本, 这些都是免费的啊,都给了一百万,然后第三页还有还没完呢。天文 v 一, 天文,天文 deep reach 啊,天文 m t, 天文 next, 天文 m t 三十 b, 再往下看到吗?有多少页?到第九页 再往下,第十页有吗?第十页还有。 ok, 听了二点五,九十十一,呃,已经二十页了,我看二十页还有二十页还有,那么每页假设是,假设是十个吧,那就是两百了,两百乘上一百万 多少?两亿 tok 是 吧?我没算错吧,那么每个客户呢?用这个一百万优惠呢?它的注册时间是九十天,其实呢就是白练刀模型的,它是对每一个 这个子的模型是一百万,你可以想一想看,比如说呃千万的很多的,什么三点二,三点四,三点五,那么都给你一百万的这样的一个 token 数,你想想看,那么你拥有多少个 token 数呢?呃, open call 刚开始用完全可以用这个千问的百变大模型,他们免费开源的这样的一个呃资源去练习啊,没必要去花钱呃,而且就是呃也没必要去去花那么多 呃贵的这样的一个 token, 因为我们开始的话都是用的是 open core 的 一个基础的这样的一个功能,完全就是可以用比较简单的模型或者说很老的模型去做啊,这是一个我们要注意的, 当然在使用过程中大家要注意就是这个 token 数呢,它每个 token 数呢就有一百万,所以我们在每一个 token 数都要去 给他设定好这个权限啊,不能就是让他默认的会,比如说我托管数不足,让他默认的会自动加托管数, 那么在这个天问天问百炼大模型,他就有一个这样的一个小小的陷阱,就是如果超过一百万这样的 免费体验的投币数,他会自动给你默认就是要钱的这样的一个投币,这样的话你就开始要涨费用了啊,要收费了, 这个就是,当然如果你的账户里面钱没有,也许他就是,反正就是最多啊,他会让你这个要交费,如果是里面有充了一些钱,那么就是这些钱就要被扣掉了,这个是要一定要注意的。 技术巴顿最近关注于 opencloud 的 使用应用和分享,欢迎大家关注,如果有帮助别忘了点赞,我们下期见。

怎么算力?鬼故事又来了!加拿大一家只有二十四个人的公司,叫 talus, 不是 tesla。 他 们发了一款芯片,推理速度是英伟达最新 gpu 的 五十倍,成本降低二十倍,功耗再降低十倍。只因这款模型,它是叫做 model based chip。 这块芯片只能跑一个模型,这个模型的所有训练痕迹,他放在这块芯片里,如果要用别的模型,那就训练别的芯片,这事绝对敢为天下先。因为没有做芯片的公司这么着想过,把大模型的参数,所有的训练结果得出的东西,他焊在了芯片的晶体管里边,一妈的啪啪。 也就是说,他甚至不是加载到内存里去运行,是物理层面的写死在硅片上,他们的那个网站我已经登上去用了一下,是这样的啊,因为他目前只写死了拉玛三点一八 b 这个模型。也就是说,这块芯片物理上回复这个模型的问题的答案能达到一万七千个 toc 每秒。 这个拉玛三点一的话,如果放到英伟达 h, 二百是大概两百三十个 token 每秒。 sirius, 就是 那个超大精元的片,是两千个每秒,差距不是一点点。这个模型我刚试用了一下,体验就是你刚跟他说完话,他直接啪两千个字的回复,秒出,没有蹦字的过程,但是回复的质量很拉胯,这是目前最大的问题。 可是你想想,那大模型迭代呢?在放慢,用户对固定模型的粘性在增强,也就是说以后会不会就会出现针对每个模型的专门芯片? what the fiori? 以后你出差就带上这块芯片,你就永远拥有了这块模型,那如果在训练和推理的硬件上边彻底怎么样触顶了, 那么最终就是把训练结果物理挂钩在模型上。完了,扎克伯格还有现金吗?新的要买的东西出来了,快去买,他们 buy that metaphor bro。

mac 安装 openclaw 教程?首先我们来到官网,安装 openclaw 之前需要先安装 no 点 gs, 来到 no 点 gs 官网,在终端输入这些指令,可以完成安装,这里就不再赘述。 回到官网复制这行指令,通过 command 加空格,然后输入 terminal, 可以 打开终端,然后把指令复制到,这就可以进行安装了。这里需要等待一下, 由于 openclaw 会将你电脑的一部分权限交给 ai, 所以 它这里有风险提示,接着我们就按照它的提示往下走就行了。这里主要是通过方向键和回车键来进行选择的。 这里面列出来的是它需要依赖的一些大模型。我们这里选择 mini max。 mini max 是 国产大模型,可以按月进行订阅,价格还算优惠,适合我们进行简单的折腾,不用担心头肯花费过多的问题。如果说后续有更专业的需求,可以换更好的模型。 好,我们继续进行配置。这里它会有一个网页的跳转,它会让你应该是需要进行注册的。我这边是注册过了, coding plan 是 它的月订阅套餐,新用户会有七天的试用版。 这里是它的 api key, 我 们接着进行配置。 这里的 channel 指的是我们可以通过其他 app 与 openclaw 建立连接,可以通过 app 在 别的电脑或者手机给这个 openclaw 发送指令。 我们这里计划使用飞书,但是新版的 openclaw 已经内置了飞书,所以这里就不需要进行额外的安装,后续再进行激活配置。 这里 skills 指的是 openclock 可以 额外配置的强大功能。网上有许多开源的 skills, 可以 后续根据需求额外单独配置,简单使用的话不需要进行配置。 然后我们这里的话就简单的选择其中一个进行安装,后续的这些配置都选 no 就 行了。 嗯,这里的话也选择其中一个进行安装 好。嗯,接下来的话你可以选择用终端打开还是用网页打开,我们这里用的是终端,打开这里你就可以跟他对话了, 比如说我这边问他你是用的什么模型, 那他就回复你他用的是 mini max 模型。然后他还可以帮我们看我们电脑当前的状态,你比如说我们问他我们当前电脑的状态是什么样的, 然后他就会把我们系统的一些信息,比如 cpu 啊,内存还有显卡的一些容量都能给我们展示出来。 然后到这儿的话 openclaw 就 按算安装好了。然后接下来我们就把 openclaw 与飞书的对话小机器人联系到一起。然后接下来我们来看一下飞书插件现在的状态,输入这个指令可以查看它的状态, 可以看到现在的状态是 disabled 的, 也就是说并没有启动,然后输入这个指令是可以让它启动的,然后再输入查看指令,就可以看到这个插件现在是可用状态了。 接下来进入飞书的开放平台,登录自己的账号,然后进入开发的后台,这里我已经创了两个了,我之前创的,我这里再新建一个,然后这里应用的名称和应用的描述都可以随便取,不影响, 然后点击创建就可以了。 然后这里的话是添加机器人功能,接着设置一些权限, 这里我们通过用接收来导入的方式来设置权限,我这里的配置是让豆包帮我生成的,然后复制这里的内容,给它粘贴到当前位置就可以,然后这里面可以看到它有哪些权限性质,申请开通就可以了, 这里点确定即可。 接下来需要把创建的版本发布出去,点击创建版本,填写对应的版本号,随便填写就可以了, 然后点击保存确认发布, 这样来一个基础的小机器人就发布了,这里面我们打开飞书应用就可以看到这个刚创建的小机器人了,但是现在这里面没有对话框, 接下来就要创建对话框,在飞书开放平台点击事件与回调,然后订阅方式,这里选择长连接的接受事件,然后在这里目前显示应用未建立长连接, 它的原因是因为当前的 openclaw 和飞书还没有建立起关系。 接着来到凭证与基础信息这一栏, openclaw 与飞书建立关系需要用到这个 app id 和 app secret, 我 们把这个 id 和这个 secret 复制到命令行的指定位置,然后在终端执行就可以了。 这里面把这个命令行复制到终端,先执行第一条,再执行第二条,注意这里一定要用自己的 key 和 secret, 不 然是无效的。 执行完之后需要重启一下这个 openclot 的 服务 好,输入这个指令,然后就可以完成重启了。 然后再进入到事件已回调,这里选择订阅方式,采用长连接接收事件, 然后再添加事件,这里选择消息群组。嗯,我建议这里把所有的都选上,然后确认添加 创建版本,然后输入版本号,这里也是随便填写就可以了。 保存,然后确认发布, 我们再回到飞书这个窗口,就可以和 openclaw 对 话了, 然后发现虽然有了对话框,但是还是没有跟飞书建立起完整的连接,然后我们这里复制这个配对码,然后再通过配对指令,最终将飞书和 openclaw 联系到一起。 执行完毕,飞叔和 openclaw 正式地建立起了连接,然后输入,你好,我们可以看到 openclaw 能够进行答复了, 我们接着让飞书实现一个整理文件的功能,然后下载路径下面有一些比较杂乱的文件,这里我们通过飞书向 openclaw 发送让他整理文件的指令。 同时我们在终端也打开一下 openclaw 的 窗口,看一下嗯,它对应的答复,嗯,这里可以看到,嗯,在终端上也有相应的答复,它正在进行处理。 好了,处理完毕,然后我们可以看一下这个文件夹中的这些文件, 嗯,可以看到这里的文件已经被分门别类的整理好了, 那至此本教程就到此结束了。


如果你是 openai 的 拆 gpt 会员,现在我要告诉你一个好消息,我们可以在 opencloud 里不使用任何的 api key, 就 能够部署拆 gpt 最新的五点三模型进行推理了。 我知道这可能听起来有点不可思议,但事实是,现在这种方式确实处在一个 openai 末许的一个状态。 大家好,这里是熊仔学长。 codex 是 openai 的 一个 agent 代理式编程工具,类似于 antropic 的 cloud code。 open cloud 就是 借用了 openai 给 codex 设计的 oofflow 来调用你的叉 gpt 模型的。 那么你可能会说,我也可以用同样的方法,或者是使用 cloud wallet 来调用 google 的 gemini, 国内的 deep sync, 还有豆包千文这些。 那么问题就来了,这些公司实际上是不希望用户绕过他们的 api 接口的,因为 open cloud 这种使用方式对 token 的 消耗量非常大,对企业来说也是一笔非常大的电力开销。 所以在过去的一段时间,很多以这种方式使用 opencloud 的 用户在陆续地被搬掉。那为什么叉 gpt 没事? 这件事就巧在 opencloud 的 创始人被 openai 招去做个人智能体部门负责人了,这事就很有意思了哈。 但不管怎么说,目前这可能就是性价比最高的唯一的 opencloud 的 部署方案了。 部署过程也非常简单。首先我们需要以下三种安装方式来安装 openclaw, 详情可以参考我的上期视频。 然后我们在命令行输入 openclaw on board off choice open ai codex, 然后我们选择 yes, quick start, use existing values。 然后你的浏览器会弹出来,让我们登录叉 g p g 的 账户, 如果浏览器没有弹出,我们也只需要复制 terminal 里面的这段 url, 再粘贴进浏览器就可以了。 登录 openai 账户之后,我们会看到一个报错的页面,实际上走到这一步是完全正确的。我们复制这个网址,然后粘贴进 terminal 里的这个位置。接着我们继续 on board 的 过程,跳过 channel skills 和 hoax 的 配置步骤, 然后选择 restart gateway。 这一步非常关键,重启 gateway 会让我们刚刚配置生效。 然后我们先不加载模型,选择 do this later, 接着输入以下的代码, opencloud model set open ai codex, gpt 五点三 codex 来把 opencloud 的 默认模型设置成我们刚才配置好的 gpt 模型。 接下来我们输入 opencloud dashboard, 去到它的 web ui 界面,我们在 agent 这个选项卡里面可以看到叉 gpt 五点三已经成功显示了,然后我们测试一下也是正确的输出的内容。 ok, 那 么这期视频就到这里了,欢迎大家在评论区和弹幕上讨论,在 ai 飞速发展的今天,我们普通人的未来究竟在哪里? 最后求大家一键相连,收藏转发小心心,这里是熊仔学长,让我们一起成长!

教你使用 overclock 想要使用大龙虾 overclock 啊,也就是可欧德布切,但又担心消耗的饕餮太多,花费太多钱, 同时呢也担心一些安全性的问题。那我接下来这个视频教你使用 overclock 连接本地的大波形,这样咱们就可以免费无忧地去使用你的 ai 助手了。好的,我接下来它怎么用啊?一个视频给你讲清楚它这个实现呢,其实比较简单啊,总共分为 三步。第一步呢,首先咱们先去安装一个本地大模型平台,然后安装完成之后呢,在本地大平台里面去安装你想装的大模型,然后装完大模型之后呢,第三步,使用特殊的命令 来启动 open curl 就 可以了,仅有三步,非常简单啊。好,那么接下来呢,我就带大家一步一步的实操一下。咱们首先先给本地的电脑去安装本地大模型平台欧拉玛,也就是这只可爱的羊驼啊,那为什么我本地的大模型需要去安装欧拉玛呀?欧拉玛就相当于一个平台, 比如说啊,我需要在网上买东西,那这时候我先要去下载一个某宝某多多,类似于这种电商平台,那么这些电商平台呢,其实就和欧拉玛是一样的,然后在欧拉玛里面有各种各样的毛豆啊,各种各样的本地模型, 我们是可以安装的,这时候呢,我们点击毛豆啊,就可以看到像最近比较火的 k 二点五,智普的四点七啊,以及某问的模型啊,这些模型都是有的, 那我们可以去选择相应的模型安装到本地。好,那么首先呢,咱们点击 download 啊,然后下载一个文件,根据不同的电脑下载相应的文件,然后下载完文件呢,它长得就是这样啊,咱们双击一路下一步就行了。 然后安装完成之后呢,它会打开这样的一个界面,然后在这个界面里面,你可以在右下角去选择相应的模型。您下载啊这块呢就给大家去说一下啊,模型的参数越小,那么它占用的空间也就越小,对于你电脑配置的要求也就更低,但是 它回答的质量可能相对来说就不会很好,所以大家要根据自己的情况来选择合适的模型进行使用就可以了啊。当然它其实还有比四 b 模型更小的,有个零点五 b 的 模型,那我这一块呢,你是搜索不到的,但是咱们在它的平台网页上是可以去找到的, 然后咱们可以使用这个命令去安装也是可以的啊。 no, 这时候去复制这个命令,好,然后去打开咱们的命令窗口,然后使用欧拉玛 raw 啊,然后这个时候呢,就加上咱们的这个更小的模型,零点六 b 的 啊,然后把 value 值进行一个替换好撬回舍,这时候他就会去下载咱们指定的模型,并且进行安装,等他的安装完成之后呢,咱们本地的模型就有了。好, ok, 那 么等待一段时间之后呢,等他出现这个 success 啊,安装成功就说明他已经安装完了,安装完了,这时候咱们可以去问他,你是什么大模型? 好,敲回去。 ok, 那 这时候他就会一些思考,思考完之后呢去回复啊,我是,呃,谁?什么什么大模型啊?我拥有什么什么样的能力,对吧?好,那到这儿咱们已经安装好了,安装好了之后呢,接下来咱们就可以使用 open call 大 楼加了。啊,那么怎么使用啊?这个时候非常简单啊,我们只需要使用 olama launch open call 这个命令就行了。 啊,那我复制这个命令,打开一个窗口,它意思是啥呀?就是使用 olama 来启动 open call 啊,你启动的时候呢,自然而然它就帮咱们会进行部署的啊,你,你不需要使用 open call getv 来启动了,你就使用欧拉玛 launch open call 启动就行了。好,咱们来启动了。 好,然后启动的时候呢,它让你去选择本地的模型,那我本地的模型呢?撞的就是某问三啊,这时候咱们敲回车,敲完回车之后呢,那么是否继续啊?这时候要按 t 把键的,所以咱们按 t 把键啊,旋中,然后再回车,这时候它让你选择是否去保存一个存储的路径啊,那我们选择 继续啊 y 就 行了。好,选择完成之后呢,这时候大家可以看到了,他就开始去打开 open core 的 一个服务,并且给他设置本地的某问三的模型了。 好,那么这时候选择完成之后,咱们稍等片刻之后,咱们就可以使用 web ui 的 这种方式来访问了。好,这时候咱们来试一下啊,在 web ui 里面啊,可以看到他目前是在线的。那我这时候问他,你是 你是什么大模型,然后点击 send 发送。好啊,这时候, ok, 他 说了我是大模型。这时候呢,虽然他没有告诉咱们他是什么大模型啊,但我这时候可以继续问他,你是本地大模型吗? 好,然后点击发送。 ok, 他 说了我是本地大模型,对吧?啊?他没有告诉你这个名称啊,然后,但是呢,我后面问他是不是本地大模型的时候,他就说他是本地大模型。那 那么咱们其实从日制里面也能够看得出来,它的这个模型以及像 agent 的 调用都使用的是本地欧拉玛千问的这个模型啊,这个时候如果你把欧拉玛的这个服务你给它关掉啊,你给它服务给它停掉,停掉之后这个时候你再和它对话,问它在吗? 这块是没有任何信息的,这块就说明你的模型是有问题的。那这也从侧面上去证明了,咱们现在调研就查本地的这大模型,那么使用本地大模型有什么优点和缺点呢? 它的优点就是我在本地调用的,所以我不需要花费任何的费用,消耗再多的 top 我 也不怕。然后其次呢,是使用本地的大模型的隐私性相对来说是比较好的,因为我用的都是本地的嘛。但是它的缺点是本地大模型回答的质量,它可能比商用大模型 执行任务的能力要差一些,回答的质量要低一些。另外呢,本地大模型它对于电脑的配置是有一定的要求的,所以呢,大家就根据自己的需求来选择,到底是要调用线上的大王。

嗨,大家好,今天给大家分享下基于 openclo 搭建本地 ai 员工的部署教程,不用花一分钱托肯, 这次我们基于汪派能用为面板来搭建搭建完全本地化的 ai 员工助理,核心是部署欧拉曼本地服务以及 gpt 模型,再搭配 openclo 作为交互入口, 数据全程保存在自己的服务器,既省钱又安全,不管是日常办公还是个人使用都超方便。话不多说,咱们直接上实操。整个实操过程分为六步, 第一,准备 gpu 服务器。第二,运维面板万帕诺安装。第三, gpu 资源配置。第四,奥尔玛模型平台安装。第五,完成 gpt 模型加载。第六, open club 个人员工构建。 我们先来完成第一步,基于腾讯云申请一台带 gpu 的 云服务器,这里选择创建一个竞价实力进行操作演示。首先我们保证服务器为 gpu 架构,为本地模型提供算力。其次,磁盘记得设置为一百 g, 方便大模型下载到本地 并开通公网 ip, 方便后续访问。最后记得提前开通应用的默认访问端口,欧乐玛应用端口、 one panel 应用端口、 openquad 应用端口。服务器创建好以后,我们直接登录腾讯云服务器,默认会享 gpu 相关驱动。安装好首次登录需要耐心等待下,登录后,首先我们通过 sudio 命令切换到 root 用户下, 然后到 one panel 在 线文档中获取一键安装命令,直接复制执行即可。进入安装过程时,先检测完成 dawk 的 安装,需要确认安装目录并下载安装 dawk, 安装完成后,开始设置镜像加速器和面板访问参数,其中输入 yes, 完成镜像加速器配置, 面板端口号输入我们已开通的端口号,最后获取面板账号及面板密码即可。登录 one panel, 登录后我们确认下 gpu 卡的驱动情况,紧接着配置好面板访问地址,方便应用直接跳转访问。配置完成后,我们进入终端开始 gpu 资源配置,首先再次输入命令行,确认英伟达显卡驱动,然后逐个输入命令,完成英伟达容器镜像安装 配置 dolphin 镜像使用英伟达的 gpu 资源配置完成后重启 dolphin 镜像,这样我们就完成了 gpu 资源使用的配置。 到这里我们基本准备好了我们的资源,接下来我们开始欧拉玛的安装,我们进入应用商店,选择 ai 就 可以快速看到欧拉玛应用,点击安装输入相关参数即可。 这里我们需要确认好版本,零点一五点四当前最新版本端口号一一四三四开启端口外部访问,最后一定记得勾选开启 gpu 支持,其他保持默认,点击确认开始安装。这里安装包含镜像拉取以及应用安装两部分,大概需要一分钟左右, 这里我们快记下。安装完成后我们到已安装应用中确认欧拉玛已经正常运行, 点击链接地址页面显示欧莱玛 is running 即可。到这里我们就完成了欧莱美开源模型管理平台安装。下面我们急于欧莱玛完成开源模型 g p t 杠 o s 二零 b 模型的加载, 大家跟上节奏,在 one panel 中找到 ai 管理,进入模型管理,点击创建模型,在模型配置页面点击快速跳转进入欧莱玛官网, 输入 gpt 杠 o s 快 速搜索到模型,点击获取模型 id。 然后我们再回到 one pan 面板,输入获取到模型 id, 点击确认开始模型下载,该模型下载大概需要十到二十分钟,这里我们快速跳过模型,加载完成后,我们就为我们的个人 ai 员工准备好大脑了,我们通过模型先验证下能否正常对话,太棒了,可以对话哦, 这样我们就为 ai 员工准备好了大脑。下面我们同样基于 one panel 来安装我们最近特别火爆的 openclaw, 进入应用商店找到 openclaw 应用,点击安装完成参数配置确认,默认端口号已经开通,下拉选择欧拉曼模型供应商并输入相关参数,具体参见如图所示。其中 gptos 二零 b 对 应我们下载的本地模型 a p i t 输入任意字母 base u r i o 对 应我们部署的欧拉姆地址。最后同样记得开通端口外部访问, 其他参数保持默认,点击确认即开始安装。安装大概一分钟左右,我们同样快速跳过,安装完成后通过安装目录获取 opencloud 访问 token, 获取后与 ip 端口 token 等于 token 值,拼接后输入 web 访问地址中, 最后点击跳转,直接选择带 token 的 访问地址就可以体验啦。让 ai 助手帮忙创建一个文件清单,到服务器对应目录查看,完成操作啦。 接着我们让他网上查询一些信息,他也可以轻松帮我们搞定。到这里我们就完整构建了一个本地的 ai 员工啦,大家速来体验呀!完全可以用 one panel 作为 ai 员工的管理员,本地,重点是本地!本地就等于安全! 同时再也不用为 token 着急上火啦!小伙伴们快来快速构建,抓紧体验啦!

我们在 opencloud 里面实测了一下,为什么发送一句你好就可以消耗一个一万五千多 tokens 呢?我们从这个问题出发,然后给出我的一个解决方案。 然后我们借鉴的是 openwaking 的 一个分层缩影的一个思路,整合了一下它的一个上下文的一个加载机制。我们实测在这几个案例中,它减少了百分之八十七的一个消耗,平均的话也在百分之八十。 呃,这意味着什么?这意味着我们会用更少的一个金钱的消耗,然后进行使用我们的这个 open cloud, 它会让开源的本地模型有了一个可能性,因为开源的模型它的能力并不是很好。 open cloud 现在在 github 上已经有了二百 k 的 一个 star, 它是一个开源的 agent, 可以 操纵系统发消息,抛脚本,比如说像我们可以执行自定义的一个 skills 等等,可以实现各种各样的一个内容。然后接下来我们从这个问题出发, 首先就是一个 api 的 一个费用失控的一个问题,两个字的一个提示词,他竟然消耗了一个上下文到一万五。然后接下来就是一个本地模型,他跑不动,也就是说我们必须使用一些商业的模型。然后接下来我们看一下 它的一个构成,这是我们十次得到的。首先就是它的一个最高的,就是这个 jason sigma, 它会把所有工具的一个要求,它的一个标准发送给 ai, 然后进行让它理解,其实我们用不到这么多工具。 接下来就是七个这个文件,他比如说是他的一个 a 证的一个定义,他的一个身份的确认等等,接下来是他的一个基础指令,这个咱们可以先忽略不计。 然后接下来我们看一下我们的核心,发现百分之接近百分之五十就是这个一个核心的工具。然后我们接下来看一下什么是 open working。 openwriting 是 一月份开源的一个上下文的一个数据库,它的核心理念是不是把所有的内容塞给模型,而是像图书馆一样,先看目录再读书。 然后它是有个三个层级,第一个是它的一个摘药层,就是一句话的定位,每个目录生成一个摘药,然后 便于筛选。然后接下来是它的一个盖栏层,一个结构的导航,包含它的一个大纲子目录以及关键的节点。然后接着是我们的一个详情层,就是我们最终的一个按需加载, 然后我们看一下这是它的一个结构,这是我们修改的一个结构,我们参考着 open working 进行修改了一个自己的一个上下文, 然后我们看一下他的一个基本的架构,然后本期视频的所有的修改,我会放在我们视频的仓库,如果说需要的话,我们可以三零关注,然后自动发送。然后接下来我们看一下一个演示, 比如说用户问帮我配置一下返代理,然后我们可以分析意图,然后我们在摘药层可以定位一下我们的一个 向量总,然后我们概览,然后接着按需加载,也就是说我们可以总共,比如说我们举个例子是大概是一千五百头根,全量的注入的话,大概是一万五千多头根,我们节省了将近百分之八十多。 然后接下来我们看一下 open vacuum 的 局限性。 open vacuum 的 话,这个由于它的核心组建并没有开源,因此我在这里的话是借鉴了它的思路进行的一个开发。 然后我们看一下 vacuum 的 一个分层路由,给 open cloud 装上了一个目录的,所以我们看一下它的一个流程图, 用户我们发送一个你好,然后进行了一个分层的一个路由器,然后分为了一个工具的缩影,技能的缩影,还有文件的缩影,然后我们会把这个基本的一个缩影,然后发给一个呃 ai 进行一个判断,然后他需要哪些模型,然后我们进行再次拿取,然后是精简后的一个 东西,然后我们看一下这个实测,这个是我们实测的结果,接下来给大家演示一下。我们首先测试的是第一个问题看一下,帮我看一下这个当前的目录有哪些文件。打开我们的网址, 现在的话我们看到的是第一个,第一个是在我本地已经使用 open working 的 思路改好的一个,我们可以看到我们发送你好,然后这里面的话使使用了大概两千个 token, 这个的话是我在服务器里之前部署的一个原版,我们看一下它消耗了九千五百个 token, 这个是我在本地部署的一个原版。第一个我们发送一下,然后我们再发送一下在服务器里的一个原版, 我们看一下这个就是我在本地修改的,我们看一下它的一个消耗, 我们可以看到它总体消耗了三千三百一十九的一个图标。然后我们接下来看一下它的这个它的原版, 我们可以看到它的原版消耗了一万一千个头壳,我们可以清晰的看到这个差距,然后接下来我们下一个问题, 我们再测试它的工具调用,首先是我修改之后的, 然后是我在服务器运行的一个原版,给大家看一下它的一个原版,这是服务器内的, 我们可以看到这个欢迎来财已经正确的处理了,我们看一下本地,本地也正确了,我们现在使用的基础模型是 gpd 的 四欧迷你同样的一个模型。然后接下来我们继续看一下, 我们看一下第一个使用了四千二百多个 token, 然后接下来我们看一下它的一个原版, 它的原版使用了一万两千多个,接下来我们进行下一个问题, 前两个的话都是测试它的一个读写,然后我们继续一个比较难的问题,让它总结一下 open working 的 一个概览。 首先是我们本地的一个,然后接着是原版, 我们可以看到后台的一个输出, 可以看到原版的已经出现了,然后这是我们的一个修改,之后的可以看到 看一下它的一个消耗,它消耗了五千六百个头啃,这是一个工具调用哦。然后接着我们看一下它的一个原版, 我们可以看到它用了接近一万五千的头啃, 而这个是五千三倍的差距,本地模型有了跑 open call 的 一个可能,之前的话是因为上下文,我给大家介绍一下,只是他的一个上下文的长度增长, 他的一个显存的使用量就会更大,因此的话这种方案会让我们的本地部署更加的有了可能。 uma 是 最近比较火的一个东西,然后我们介绍一下它是什么, 它是一个 agent 的 一个经验的共享平台, agent 的 在实战中有很多的一个策略,然后以前的话我们是手动的进行打包分享,然后现在的话我们可以进行上传一下 ebay 的 一个网络,让全球的一个 agent 的 可以进行解锁和复印,它大概率是一个 agent 的 一个经验的市场。 然后我们看一下如何接入免运行,这个就可以使用了。然后我们接下来分别在它的我的修改版,还有我的一个原版里面进行一个操作,我们看一下它的一个流程, 我们可以看到这上面已经可以正确的识别出来了。 e o map 它作为一个写作进化的市场,允许 ai 代理通过贡献的解决方案,然后赚取积分,然后可以通过这个分享, 它让我们可以使用 e o map, 我 们可以进行自行的测试。我们接下来回到我们的汇报界面,主要的给大家全面的客观的 说一下 evo map 和 mcp 和 skills 的 关系。 mcp 是 agent 的 一个调用工具, skills 是 做好某件事, evo map 是 把 agent 的 经验传递给其他的 agent, 三个是不是在一个维度里面, mcp 和 skills 是 聚焦单个 agent 的 一个能力, evo map 共向于一个生态 agent 之间的一个经验的一个沟通。然后我们看一下它的项目背景, 他的琴身的是一个插件,然后在十分钟登顶,然后被勒索下架,然后发生了很多的一个故事,所以说他进行了一个早期的测试阶段,然后我们需要进行测试才知道他的一个进一步的实践。