哎,帮我订饭店,我还以为是真人在打电话,哎,你好,我要订个位置,明天晚上七点半,五个人,有位置吗?有位置,需要留个预定电话。好的,那我这边就订了,客户姓李,您记下电话。 好的,明天晚上七点半啊,一共是一共是多少位?五个人,五位。 ok 啊,好的,那我这边再跟客户确认一下,感谢你的回复,我是千问 ai 助手,祝您生意兴隆。是不是和真人一模一样?这个就是刚刚接入了超多阿里系产品的千问, 无论是用淘宝闪购点外卖、飞猪买机票还是支付宝办事儿,都能在千问里用一句话让 ai 来帮我们解决了。刚听说这个说法的时候我还有点怀疑,所以就亲自试了一下,让他帮我啊,要点一个适合健身人群的外卖。 他先是确定了我的位置,然后追问我呢有哪些要求,我说需要营养均衡,蔬菜蛋白质都要很快呢,他就给我列出了三个方案, 从青菜碎肉粥、中式青食到西式青食,还真挺符合我的要求。我选了第二个方案,不需要跳转,直接下单。翻到了我一看,鸡胸肉、糙米饭、豆芽,确实营养均衡,而且热量不高,选的还挺到位的。其实呢,之前也有很多的 ai 产品能帮忙点餐购物,但是效果并不好, 因为呢,用户需要的并不只是一个程序来代替人们动手,而是不想的在一堆产品里做选择。那咱们就看看 ai 在 购物时能不能弄懂我们到底想要啥 要求,让他挑一款两千到四千的扫地机器人给老人用,家里呢还有一只猫, ai 在 分析这个问题的时候,就考虑到了老人用和养猫两个核心的诉求,所以呢, 就重点搜索了扫地机,是不是能防猫毛缠绕和维护起来呢?麻不麻烦这两个重点的产品信息,看看他给出的三款产品,价格呢,都在预算之内,每个还有专属的推荐理由和核心的优势。点一下产品呢,就能直接跳转 app 下单,还是挺省心的。 如果你的需求呢,很宽泛,比如说安排一套登山装备,他还能给你做装备的规划,从头到脚把户外装备一次性都推荐出来,甚至呢,会根据你要去登山这些事做额外的补充提示,告诉你啊,得聘请向导,确保安全。如果说订餐购物这些功能啊,千万做的还是不错,那下一个功能他就是独一份了。 千万联动支付宝,直接介入了政务服务的能力,这对 ai 的 要求啊,就更高了。因为呢,办护照弄社保,它不像旅游吃饭,大差不差就行,少一个材料跑错一个部门,任务呢,根本就完不成啊。 所以呢,过去大家不爱看这种长篇的官方指导啊,更爱去小某书搜过来人的攻略。现在呢,千万就把办事的难度给再次降低了,连查攻略都不需要了。 比如说,咱们想办个护照,他就根据用户的身份和所在地,给出了一份相当清晰的指引,办理流程、材料清单和注意事项,连办理预约的入口也都放在这个回答里了。你点开就是移民局的服务平台, 咱们常用的办护照、身份证、居住证、签社保,弄灵活就业这些需求,让 ai 给指导,咱们照着做就解决了,重要的是, ai 完成的不是简单的去查政策,而是帮咱们的判断,能不能办,怎么办,去哪办?这些呢?过去 ai 根本就解决不了的核心痛点。 刚刚说的这些啊,都是咱们 ai 在 生活当中帮我们办事,那在工作当中,他能不能也帮我们弄点杂活,搞点活动呢? 马上就年底了,肯定有不少人还攒着报销没报吧,整理发票确实是一件花时间又让人头疼的事情。那现在呢,只要把发票都统统上传给 ai, 再告诉他咱们需要的金额、日期,发票号码这些类目,他就能直接汇总成表格。你看看这个抓取的速度,一百张发票两分钟就搞定了。 不过呢,做报销啊,可不是速度快就行,重点是不能出错。所以呢,它还有一个核查的功能,点一下,系统就会让另一个程序来做二次的核验。这个逻辑就很合理,同一个事交给两个 ai 来完成,防止其中的一个啊出现纰漏。 除了我上面说的千万还能做年会的抽奖软件,做研究报告,还有辅导孩子写作业。可以说啊,这次的升级,让 ai 助手摆脱了只会回答但是不会办事的问题。 二零二四年呢,阿里的 ceo 吴永明就提出了要用户为先, ai 驱动。那现在呢,长出手和脚的 ai 确实解决了很多执行的问题,成了咱们普通人的好帮手了。
粉丝1.4万获赞4.6万

好,我们现在开始讲对接阿里千万的模型啊,我们先来到阿里云百链,然后点击 coding plan, 接下来呢,我们就能看到有两个套餐,一个是基础套餐,一个高级套餐,那么你就按照自己的需要去开通一个,开通完了之后,鼠标下滑,找到专属, 创建专属 api k, 然后点进去创建,那么你就能够看到你自己套餐的 api k 了。这个 api k 怎么用呢?我们看阿里云的官方文档,哎,他说添加百炼配置啊,复制一下信息,替换到 agents, 然后这个部分,并将 这个替换为百炼 api k 的 这个 k 就 可以了, 那么我们先来呢复制他,复制到他之后,然后粘贴进来,看看我们怎么改呢?就是来到我们的套餐,选择复制套餐的 k, 复制到哪里呢?复制到这里, 然后上边的这个 base url 呢?我们也要同步改一下,我们改成哪个呢?改成这个兼容 open ai 接口协议工具啊这个, 然后把这个哎给替换掉啊,注意这些括号不要删掉。替换完成之后呢,我们就再来 ctrl a 啊, ctrl c, 然后去到我们的 open cloud, 然后找到左侧有一个配置,点击配置之后呢下滑, 然后默认呢它是第一个,你要点到第二个,第二个之后呢,你就找到,哎,这边我已经替换上了啊,看到找到这个 agent agents, 哎,就是这个,然后把这个大括号呢给删掉, 删掉之后呢,就把我们刚刚复制的给粘贴上,哎,就可以了, 粘贴上之后呢,你就再点这个,比如说我们保存一下啊,再点这保存,然后再点这个更新,然后点完更新再来到聊天页面,然后我们就可以测试一下了啊,说你在吗? 他就会回复我啊?这就代表我们的阿里千万的模型就已经对接好了啊。

阿里的千问 ai 现在可以直接点外卖了,你肯定好奇啊,怎么才能让你的店铺啊蹭上这波千问的推荐曝光。打开千问啊,然后呢,帮我点一杯时赋在十一块钱标准冰少糖的奶茶, 然后呢,千问就会给你推荐附近的一些单品的一些商品奶茶。所以说千问接入淘宝闪购之后呢,也就说你的外卖店铺啊,会有新的渠道推荐流量, 这两天我们测试下来啊,千问推荐商品,商家的核心逻辑还是近距离高销量高评分。所以说外卖店的出餐核心,出餐效率一定要快,评分呢,要高,品质要好,才会大概率的抓取推荐。 在价格跟距离的前提下,他会保证顾客的体验,会优先推荐这些销量高的,口碑评分高的。简单来说就是优先抓取那些距离 消费者较劲的门店。高峰期的时候呢,系统会倾向于推荐那些出餐快,评分高的店来确保三十分钟能够送达到顾客的手里。 所以说,你想蹭上这波流量转化你的店,出餐一定要快。第二个呢,店铺评分一定要高,有单店的爆品,品质好的更好,才会被千万优先推荐。

大家好啊,现在市面上企业接入国内大模型 a p i 的 渠道特别多,那我今天就和大家汇报总结一下不同渠道的特点。首先呢是火山引擎的豆包系列和 deepsea 系列产品, 那他们的特点是限流的额度最高,基本上不会打满他们的 tpm 和 rpm。 原因是因为火山之前囤了很多英伟达的卡, 所以它背后的推理集群资源特别充足。那价格上呢,它的折扣力度相对比较小,如果不是特别大的客户的话,官方渠道最多是给七折,火山销售的业绩压力也很大,基本上每个人单单大模型都要背至少一千万的业绩。 其次呢是阿里云的千位系列和 deepsea 系列产品,那它的优点是单价最低,而且阿里云内部最近在打大模型战役, 千万系列模型的折扣根据用量呢,从五折到三折不等。但是缺点呢是背后的集群资源相对来说没有那么充足,如果遇到大客户重保的话,比如说 b 站跨年晚会,那资源就会更紧俏一些。 百度的大模型呢,目前基本上是卖三方的 deepsea 和其他模型为主,他们自己家的文心妍用的客户相对少一些,但是百度的折扣政策一般来说是还不错的。然后就是各种各样的大模型中转站了,比如说三零二点、 ai 云雾、 api 等等的平台, 这些平台的价格浮动会比较大,而且折扣普遍会比原厂高一些。但是有些厂商的模型可以做到特别低的价格,这种情况下呢,一般是做了逆向账号之类的方式,他们能够保证低价,但是不保证可用性。最后呢,如果您希望低价进入国内主流的大模型 api, 可以 后台私信我,我有靠谱的渠道。

之前我出了一系列实操视频,分享怎么把各类 ai 大 模型接入自己的网站。不管是国内常用的 deep seek、 豆包、通易、千问,还是国外主流的 chat gpt、 gemini, 以及最近热度拉满的 minimax, 只要你手里有对应的 api key, 都是可以接入的。 还是有小伙伴私信说想要的模型不知道怎么接入。这个视频我给大家安利一个超级实用的 ai 模型聚合平台 open router, 如果觉得好用,记得给个一键三连,让更多人能够知道它。 我们知道这两年 ai 模型的更新迭代非常快,如果你想用上最新的 ai 模型,或者说想让你的客户在你的网站上体验到最新的 ai, 又不想在各种平台之间来回切换,只要有 open router, 就 可以直接调用市面上几乎所有的 ai 大 模型。 先给大家说说它的三大核心优点,也是我最推荐大家用的原因。第一个优点是不需要科学上网,不用到处找梯子,直接就可以打开 open router, 这点对国内用户是非常友好的。 第二个优点是 ai 模型库很齐全,几乎每个模型的每个版本都有,而且更新非常快。今天是三月十一号,可以看到三月份上线的有七种模型,二月份有二十多种,这样就不用自己到处找资源了。第三个优点是提供免费试用额度 字节的 seeddream、 阿里的通用千问、 gpt 的 基础模型等等,都可以免费试用。 进入自己网站很简单,在 open router 的 首页点击 get api key, 然后复制它,打开 wordpress 后台,在模型的下拉列表里选择 open router, 然后粘贴 key, 就 可以调用 open router 提供的几百种 ai 模型了。 需要注意的是,如果你的网站部署在国内服务器上,选择 chat、 gpt、 gemini 等中国内地禁用的 ai 模型是会报错的。 如果是部署在海外服务器上的外贸网站,就没有这个限制。我自己的网站上模型选的是目前最火爆的 mini max 网站。接入 ai 模型之后,我们可以做很多事情,这个 chatbot 聊天机器人算是最基础最常用的功能,也可以用它来生成 seo 文章,具体的操作方法可以看我们之前分享的视频教程。 另外我们还可以设置自动化程序,创建 form 表单生成、图片导入 knowledge base 知识库等等, 这些内容会在后续的视频更新,感兴趣的朋友可以点个关注。我的网站用这个表单功能增加了一个 ai 页面,用来提高客户建站的效率。我还基于网站内容创建了专属的向量知识库, 当访客在 ai 客服这里提问的时候, minimax 会解锁向量知识库,然后基于 ib 网站的内容去精准回复,而不是用全网通用的资料去回复。 欢迎大家来体验。在给网站接入 ai 的 时候,遇到困难的可以在视频下面留言,我看到都会回复的,不要吝啬你的三连,我们下期视频再见!

我给大家免费送一百万的千问 token, 帮助大家跑通 opencloud, 构建自己的数字员工。 其实 opencloud 的 配置并没有大家想象中的那么复杂,我们首先打开 opencloud 的 中文官网,点击安装,我们这里能看到两个命令,我这里以 windows 命令为令,打开 power shell, 输入这行指令,它会自动配置环境并安装。首先我们需要选择模型供应商,这有很多的模型,比如说 mini max, 智普,我们这里选择自定义模型供应商,因为这是我自己建的一个, 然后复制一下,然后把这个 key 复制进去,把密钥复制进去,然后选择第一个 open ai, 最后配置一下使用哪个模型,我们这里使用千问三点五 plus 模型, 然后它会自动的去验证是否有效,我们问它是什么模型好,我们看到它已经回答出来它的是千问三点五 plus, 那 么我们这配置就完成了。接下来大家就可以自由的发挥自己的想象力,养自己的龙虾。 大家如果想要更进一步的配置你的龙虾机器人,需要用到其他的大模型的 api, 我 提供的 api 只是用来测试的。 我现在已经开始用龙虾机器人搭建自己的一人公司。我会在接下来的视频里分享我的进展,欢迎大家关注。

用户可以从消费场景直接发起买东西,而不是从商品来发起。同样用户也可以直接说自己的出行需求,而不再需要自己来自行组织路程规划、机票啊、景点等等一系列内容。 那我们觉得这是 ai 时代的一个非常典型的特点,那所有在 ai 时代面向用户提供的服务都会离用户需求的远点更近,直接来承接用户的需求,用户也不需要自行拆解需求,在各大 app 之间来回切换。 我拿一下手机,帮我点四十杯霸王茶几的薄牙绝学, 对,卡片已经跳出来了。选择 好,我输一下支付密码。 好,可以看到已经付款完成,待会咖啡就会送过来。好,谢谢大家。

我已经不期待有 gemini 的 siri 了,我的手机现在就是 agent 下需求到确认闪购方案并支付一气呵成。都不用来回切换软件,只要打开千问 app, 点击任务助理,全新的强大功能就一览无遗。 它现在就是一个能调动阿里全家桶的超级入口,你看,我想喝奶茶点生活办事,批量闪购下需求给千问模糊指令,也能识别并提供外卖方案。 千问先调高德,看你在哪,再帮你选最近的店,然后接入闪购并下单,再接入支付宝功能确认付款,过一会外卖就送过来了。 千万 app 还接入了支付宝 a f 和政务服务,只要我们输入一句话,就能够查询签证、户口、公积金等五十项民生服务事项,而且能够直达办理入口。之前要办事 总是需要在不同部门网站间反复查找,现在在千万 app 下指令如何给新生儿办医保,千万就能够帮你判断能不能办,需要准备什么。除了生活中能用上千万 app 的 新功能,工作中千万 app 还能够化身效率神器,外部端最多能同时处理一百个文件 财务。做梦都想要的功能来了,只要点到生活办事,选择 office 办公,就能够批量处理表格复杂的报表和数据。终于有救了! 还在上学的朋友更是能用千问 app 讲解题目的时候,千问能像真人老师一样边画图边推导你还能够随时说话打断 ai, 让他重新讲一遍你没有听清楚的地方这几件事。说实话,在 ai 如此强大的今天,放眼全球也只有阿里能全干 open ai 模型强, 没有外卖,没有地图,没有支付,只能在聊天框里跟你聊聊咖啡豆的历史。 google 呢,什么都有,但大厂并严重,各业务线各为其正,谁也不听谁的。再看阿里 高德,有时是地图数据,淘宝闪购有商家库存和配送网络,淘宝有商品供给,支付宝有支付能力。这些本来都是独立的 app, 现在被千万打通了,变成了随时可以调用的技能模块。你看某包的那个工程机,用着用着就被弹窗,被报错,被卡脖子。毕竟用的是别人家的服务,人家不让你用, 你就没辙。阿里这套都是自家的生态,就没有那些问题。任务处理功能,支持四百多项办事能力,从点外卖、买东西,到订机票、酒店、写报告、做网页,甚至打电话订餐厅,都能够一句话完成。而我们用户,终于也不用在几个 app 里来回接了,终于不用担心报错了,这才是 a 件该有的样。

昨天呢,我发布了一个呃避雷部署 opencloud 的 啊视频,大家在评论区呢,还有私信呢,也问了我很多的问题。 那今天呢,我特意录制了一个更加详细的一步一步带领大家安装的一个部署的一个视频。首先呢,我们可以打开这个网页,我们来安装一下必备的一些软件。呃,先搜索 node 点 gs 啊,这个软件的话,它是运行 openclaw 核心程序的一个基础的运行环境,嗯,我们直接点这个安装就可以了。然后呢,再搜 git, git 这个软件的话是我们未来要使用 npm 命令安装 openclaw 的 时候会用到的一个呃,从 github 代码仓库拉取原代码的一个必备的 软件。那么我们打开这个网页之后,直接呃点击下载就可以安装就可以了。然后的话呢,我们还需要一个呃命令行工具,也就是终端 power shell 或者是 sim 都可以,然后要以管理员身份运行。 接下来呢,我们来呃在终端里输入命令,来查看一下 node 呃点 gs 和这个 get 是 否安装成功。我们直接用杠 v 这个软件,呃命令的话就直接用我输入的这行就可以了 啊,因为我之前安装过,所以我就直接 ctrl c 结束终止了。那安装成功之后,用 open log on v 这条命令也可以来查看一下是否已经存在。然后的话, 我们使用这个交互式配置向导来自动设置后台的一个服务。嗯,我们在终端数这个命令,跟随向导一步一步完成各项配置。那第一步的话,它是一个安全警告,我们直接选择 yes 哎就可以了。然后的话呢,会出来一个选择配置模式,我们就直接点击快速开始快速 start, 嗯,下来会让我们选择模型, ai 模型提供商,那这里的话,它是已经检测到我已经部署过一个模型了,那我就可以点这个了。那大家第一次安装配置的话,没有就可以按照自己需求的模型来选择它的一个供应商,比如说 kimi, 我 们就还有谦问啊啊,都可以选择相应的, 但是千万的话千万不要选错了,我们要选 custom provider, 然后我们依次来输入它的一个啊 u r l 啊,然后还有它的一个你的 a p r k, 然后还有嗯,千万的一个模型啊,选好了之后呢,就点击回车就可以了。那我这里的话直接就使用当前这个 current 的 一配炒的就可以, 然后再选择一个通信通道,在这里呢,我们直接点击跳过就可以了,我们先让它成功的跑起来,嗯,可以跟它进行简单的一个对话,之后呢,我们再来呃配置它的一些通信通道, 然后呢配置一个技能模块,这个的话也可以直接呃选择 no, 我 们后面还可以再继续在那个呃通讯通道安装好之后呢,再对他进行命令的方式让他进行配置,然后钩子的话呢,我们也是可以呃全选中那个那三项,或者是直接跳过也可以。 嗯,网关。呃,自启动配置,我们就可以直接点击回车,回车之后就会自己启动了,那我这一步呢?呃,就不重新启动了,因为他已经运行着了,所以我就跳过。嗯, 那他启动,启动之后他就会自动打开外部 u i 这个界面啊,在这里的话呢,我们要给他问问题啊,比如说问一些你好呀之类的问题,他就可以对跟我们进行一个对话了。然后的话呢,嗯,我们来接下来来接入飞书的一个通行通道啊,那我们在浏览器打开飞书开放平台注册登录之后,点击这个开发者后台,然后创建自建的一个应用, 首先我们先给他把这个机器人添加上这个应用,呃,然后呢我们可以回到这个凭证与基础信息啊,这里有两个很重要的信息,就是啊应用凭证和这个密码,我们直接复制这一段指令,然后把这个 id 和这个密码改成自己相应的啊,直接给他输入给这个 open call, 让他帮助我们完成这一项飞速的接入。 那等待一段时间之后呢,他就会提示接入成功,我们可以问一下他是否已经成功了,那他 显示已经成功接入,那么现在的话呢,我们回到这个事件与回调,我们点击事件配置,在界面方式这里点击这个呃长链接接收后保存,然后呢我们再点点击添加事件按钮,我们呃进入一些必要的一些事事件,输入 i m 点啊选择一些接收用户发送的消息啊,然后用户已读消息通知啊这些必要的事件,然后点击确认添加, 然后再回到这个回调设置里,使用长链接接收回调保存配置,这个就会呃上面发布一个创建版本的一个文字提示,我们就给它起个一点零点, 零点按照你自己的来就行了。然后点击保存啊,提交发布申请确认发布之后呢,在飞书单我们就可以打开我们的聊天助手。呃,这个助手的话目前只是有聊天的功能。那后续他,呃你想让他帮我们帮你完成一些。嗯呃,读取网页啊,然后来,呃呃整理你的桌面的那些 任务的话呢?需要安装一些 skill。 那 这个的话后期我们会再做一个视频。非常感谢大家啊对这种视频的支持,如果你觉得对你有帮助的话,可以点击我的头像下方的加号关注我,谢谢。

现在去面试 ai 应用开发,如果你只会最基本的发模型对接智能对话是不够的,面试官会问你有没有做过 agent? 随着 agent 的 发展,越来越多的企业会将 ai agent 去接入他们的核心业务,比如自动化工作流来提升效率,或者数据的实时分析,经过推理之后进行告警等等。那现在市面上这么多 ai 应用产品和 agent 的 开发框架,比如 minus, open close five spring ai, 阿里巴巴 agent from work lan graph, lanchang。 那 哪些技术可以写在你的简历当中呢?有必要给大家说一下。首先很多人其实连 agent 是 什么都不知道,在早期,如果你能对接大模型,完成最基本的智能对话,就可以称为 agent。 但是随着 agent 的 发展,它现在呢,已经有了一个明确的标准, agent 呢,它会根据用户的任务进行感知,然后进行规划和拆分,再调用具体的工具执行行动。然后将反馈的信息再交给大模型,看任务是否完成, 如果没有完成呢?再进行反思,循环往复这个过程,直至任务最终完成。举个例子,比如我有一个帮我去百度搜索徐树,并且总结一百个字的任务。那么首先呢,大模型它会经过感知推理,看它已有的信息是否能够完成这个任务, 如果无法完成,它会进行规划拆分。拆分成几步,比如说第一步,打开浏览器,第二步,输入三 w 点百度,第三步,搜索徐树。第四步,总结一百个字。然后每一步呢,去掉,用具体的 to 来执行行动,然后将执行的结果 反馈给大模型,再经过感知和反思,看任务是否完成,没有完成,执行下一步,循环往复的执行这个流程,直至最终任务完成。那我们虽然知道了 agent 它的边界,但是市面上这么多产品和技术,我们应该如何划分呢?其实所有的 ai agent 的 技术都可以从两个维度来进行划分, 第一个维度呢,是站在产品经理的角度,从产品业务的维度来进行区分。第二个维度呢,是站在架构师的角度, 从底层技术的维度来进行区分。那首先按照产品的维度,可以分为通用型和垂直性。那通用型它通常是用来处理那些发散的边界模糊的任意任务,所以它是全能型的,你像 manis, open, close 它们都可以处理任意的任务。那么像这种通用型的产品,我们作为开发人员啊,可能就很难 包装到简历当中了。当然你也可以手录一个写在简历当中,比如在我们的课程当中呢,就会带着大家去开发一个简版的 miniso。 那 么从产品角度的第二个维度就是垂直型的,它通常呢会聚焦某一个单一的业务流程,比如说专门用于代码辅助的 coser, 专门用于复杂机票组合优化的 deep trip, 专门用于解决企业内部自动化流程的 a 卷的流程。那其实你会发现啊, 垂直型的产品,它可以说占据了百分之八九十的企业真实落地和盈利的场景,也是 ai 应用需求开发最大的一个方向。所以大家可以重点从 从这个角度去包装一个垂直型的 a 证的项目到你的简历当中,比如你是金融行业,可以开发一个替代客户经理的公信贷风险审批 a 证。比如说你是制造行业,可以开发一个替代设备工程师的设备预测故 障原因的诊断 a 证。比如说你可以开发一个替代 hr 招聘专员自动化人才智能匹配的 a 证等等。那么再来说一下,站在架构师的角度,根据技术底层,我们可以分为 what flow 流派和 agency 流派。那么 what flow 呢?通常是由程序员去制定一个严格的执行流程,比如说我们做一个自动编码的 agent, 我 们可以制定。 第一步,做需求分析,如果需求无法实现,直接跳出流程。如果需求可以实现呢,去做架构设计,然后根据架构设计做具体的代码实施。所以它的每一步流程都是确定性的,都是可控的。所以在需要可控的业务 环境下, walk flow 它是唯一解,因为业务呢,它绝对不允许大模型因为幻觉偏离既定的业务流程。那再来说一下 agent 的 流派,那这种方式呢,不会预设固定的步骤,而是提供一个总目标和一组工具库,让大模型呢自主决策去调用哪一个工具,然后呢,评估执行结果,遇到问题呢,自我反思,然后再重复执行这个过程,直至任务的完成。那这种方式呢,你会发现它极度的灵活,是由于整个执行过程呢,是属于一个黑盒的状态,比较不可控,所以 可能会陷入一些死循环或者拖延过度消耗的问题。所以我们极少会直接通过 agent 接入核心的生产库啊,因为它不可控,所以你会发现 agent 由于它的灵活性呢,更适合做这种通用型的 agent 的 应用。因为通用型的 agent 呢,它是全能的任务,我们不可能为每一种任务去定制一个 sop 流程,这是不现实。那 workflow 呢?由于它的确定性啊,就更适合做企业内部的垂直型的应用,我们需要它按照既定的流程来进行执行。不管是 agent 还是 workflow, 现在主流的框架 laguar, free ai, 阿里巴巴都可以去实现,所以用它们也可以完成混合的 agent 加 work flow 架构,既能保证确定性,又能引入 ai 的 灵活性。那在 java 技术栈当中呢,我主要会给大家去讲解 free ai 阿里巴巴 agent 的 framework。 那么当业务和底层架构清晰之后,技术团队通常就会面临技术选型的问题。那要开发 agent 又有哪些方式呢?首先第一种方式,我们可以基于你像扣子, defyfast, gpt 这种 agent 清代码 sas 平台。通过这种方式,我们可以使用这种拖拉拽的方式来去配置节点和插件,挂载支库调用 mcp 等等。这种清代码平台呢,他们通常更适合作为 自己的个人助手,提升你自己的工作效率,或者你需要快速上线一些非核心业务的 ai 辅助能力,这种方式呢,就会比较高效。所以作为开发人员呢,这几种 agent 新代码 sata 平台,建议大家也掌握一下。但是呢,这种方式它难以应对已有系统的业务深度集成,比如说你的 agent 需要跨微服务来完成分布式事务,比如你的 agent 需要 去接入已有系统的用户权限,比如你还需要更精细的并发控制或者接入已有架构的服务组件,比如说 nacles, reddit, mq 等等。那么这种 agent 的 新代码平台呢?将无能为力。那这个时候呢,我们就需要手动地 去开发 agent 的 应用,才能更好地和我们已有的业务系统进行集成。那目前我们通过 supreme 阿里巴巴呢,就可以去开发 agent 的 应用,它可以通过这种 graph 流的方式来进行变异,可以轻松地去开发 agent 的 多 agent 和 workflow 流程编排。并且阿里现在已经全面的支持 agent 的 生态,你可以看到他提供了很多 agent 的 开源框架 和开源的产品供我们进行使用。那如果你是 java 开发 spring 阿里巴巴 agent 的 workflow, spring 阿里巴巴 graph, 我 建议可以加入到你的进入站当中,再结合公司特定的垂直业务包装对应的项目到你的简历当中。接下来我会给大家去讲解 spring 阿里巴巴,并且首撸一个简版 manage 项目到你学习阿里巴巴 agent 的 workflow 下的 有多 agent 的 workflow 工作流, a to a 人工介入,完整的进行讲解。所以你不用怀疑啊,现在 java 技术栈完全有能力去开发各种流派的 ai 智能体应用, 那我们既然要学习 java 的 ai 的 开发,那我先来给大家介绍一下 java 技术栈下有哪些 ai 的 框架,那随着深层式 ai 技术的逐步成熟, ai ai 已经越过了技术炒作周期的峰值,进入了大规模的探索和 行业落地的阶段。那越来越多的企业呢,开始将 ai agent 应用于你像智能客服啊,自动化运营啊,辅助决策啊等等这些核心的业务场景。那在 java 技术这样下呢,有这几个框架可以用于快速构建 agent 的 应用,包括 spring ai 阿里巴巴,同样是阿里系的 agent scope 干 java 以及 spring 支付领衔开发的 enigma agent。 那 么我们在本系列课程当中呢,主要会给大家去讲解 spring ai 阿里巴巴,他会觉得 spring ai 阿里巴巴他不就比 spring ai 多了一点东西吗? 然后可以直接接入千问平台吗?那我告诉你,它其实在二五年啊,做了一个很大的更新,它现在是一个叫做 angelic ai for more, 它是一个智能体的 ai 框架,可以轻松地去构建单智能体,多智能体,还有 workflow 流程编排,它 底层基于这种 d a g graph 的 方式来进行变异。所以其实 java 程序员你要学 ai 的 话,就跟着阿里走就行了,毕竟阿里它百分之八九十的信息化内容都是用 java 来去做的,那 目前它对 ai 的 支持,不管是大模型还是整个 ai 应用的开发生态体系,都支持的非常的完善啊,你可以看到它提供了很多构建 agent 的 框架,还有成熟的产品。那我们呢,主要就会使用这个 spring 阿里巴巴 agent from work 来去开发 agent 的 应用,那它可以构建 agent 还有 workflow 以及多 agent 的 应用,所以能力非常的全面。那另外呢,就是阿里系的另外一个 agent 的 框架 agent scope 跟 java。 那 agent scope 呢?它本身是一个 python 框架,然后阿里发现这框架呢,非常的受欢迎,所以又构建了一个 java 下的解决方案。 那么官方呢,也明确表示 agile scope 啊,它比较侧重于 magic 为核心设计理念的应用架构,所以如果你打算构建侧重 magic 为核心设计理念的 ai 应用呢?呃,推荐使用 agile scope 这样架构。如果打算构建 侧重 workflow 流派的 agent 的 应用,推荐使用 supreme ai 阿里巴巴。当然啊,呃,虽然它们各自有优势,其实我们也不需要面临两难的选择,因为在未来呢,官方也明确表示, supreme ai 阿里巴巴生态呢,将会全面支持 agent scope, 它会集成 agent scope java。 以后呢,我们只需要通过一个 sata 就 能去集成 edge scope 了。所以这也是为什么我去选择 supreme a r 阿里巴巴的原因,一旦它集成 edge scope, 可以 说是双剑合并啊。那最后呢,就是 in bamboo edent, 它是由 spring 之初领先开发的,它主要呢是基于 coteline 语言来构建的,所以可能上手成本呢比较大,我试了一下,还必须要通过 idea 二零零五 才能更好地去运行。呃,所以,目前似乎市场呢,还没有特别的流行。呃,所以目前似乎市场呢,还没有特别的去运行。呃,所以目前似乎市场,所以我们首选 spring ai 阿里巴巴。毕竟呢,不管从现在已有的这个生态,还是对未来的这个发展,它会集成 agent scope, 我 们都是比较看好的。那接下来呢,我们就来进入 spring ai 阿里巴巴 agent workflow 框架的学习。我们先来看一下 spring 阿里巴巴 agent workflow 它的整体结构啊, 那首先你必须要知道的是, spring ai 阿里巴巴它的底座呢,依然用的是 spring ai, 由 spring ai 呢,去构建了对接大模型的标准纹身图模型的抽象标准,纹身视频的 图像标准,还有你像酷我对话记忆 m c p red 下的向量化向量数据库存储就是这些功能呢? spring ai 阿里巴巴它并没有重复地造轮子,而是将 spring ai 作为它的底座来进行基础的 支持。那基于 spring ai 之上呢?提供了一个运行时的 graph 框架,不知道大家有没有了解过 python 下的 lan graph 啊? spring ai 阿里巴巴也是基于 lan graph 构建了一个可以实现复杂编排的编辑的应用,它同样的具备了你像 graph 下的节点啊,状态啊,面啊,但这些概念呢,可能初学者使用难度会比较大,所以 spring a 阿里巴巴它非常贴心的基于 graph 的 上面构建了 graph, 它隐藏了 graph 的 复杂实现,可以让我们开发人员呢,更加简单地去构建 a 整个应 用。所以 a 整个阿里巴巴 graph 框架也包含了 spring ai 框架。那同学可能会问啊,他说我不懂 spring ai, 或者说 不学 supreme ai, 直接学 supreme ai 阿里巴巴行不行呢?其实从理论上来说是可以的,因为毕竟 supreme ai 阿里巴巴它是基于 supreme ai 之上 封装了一套新的 api 出来,所以我们其实可以面向这一套新的 api 来进行学习,没有太大的影响。但是啊,其实我还是建议大家能够 先从 supreme ai 来进行封装,进行扩展的。我给你举个例子啊,就 比如说,我们能不能说我学完 super mvc 就 可以不用学 servlet 呢?因为毕竟它们俩也是基于封装来进行扩展。虽然我基于这种 mvc 框架确实好像不太会用到 servlet 的 一些 api, 但是它的一些核心基础思想,包括一些特殊的场景,其实还是会用到。所以 哪怕你直接用 supreme ai、 阿里巴巴,其实它的一些核心的 a p i, 包括 two, 我 们刚才说的 m c p 叉的 model 等等,它其实都是基于 supreme ai 来的。一些特殊的场景,比如说你需要基于底层来进行扩展,或者你只需要实现简单的大模型的对话,其实 supreme ai 依然还是会用到。 所以一个正常的健康的学习路线应该是先从 spring ai 开始,然后再学 spring ai 阿里巴巴。当然,你说我现在时间比较紧,我之前没有接触过 spring ai, 我 就想直接从 action 的 开发开始学,行不行呢?不是不行好吧,只不过到时候你涉及到的 spring ai 的 一些基础核心知识你还 还是得去了解,你可以用到再去学。好吧,那这三个框架呢,也是可以单独的去使用的。那为了让大家更好地去理解他们各自的优劣势,我通过一个简单的 agent 的 应用,从 spring ai 再到 agent framework, 再到 graph, 带领你通过一个视力速通这三个框架。 好,接下来我们分别用 spring ai、 阿里巴巴 agent framework、 阿里巴巴 graph 来实现一个 chair workflow 模式的 agent 流程。那么这里呢,会有四个专家角色啊。那每一个专家角色呢,其实就是一次大模型的对话。首先呢,会有一个需求分析师,它会根据我的 需求内容来去做分析,看是否能够实现,如果实现不了呢?呃,直接返回 fill 终止流程,如果能实现呢?将需求拆分成几点,然后再交给架构设计师,然后再交给开发进行实施,最后呢进行交付。那这个事例呢,其实是我之前讲 spring ai 系列课程 agent 五种开发模式当中的 change workflow 模式,在之前就已经带着大家通过 spring ai 来完成了这个模式,所以我希望大家知道一点,即使我不用任何的 agent 框架, 我单纯只用 spring ai, 其实也是可以做 iphone 的 开发的,只不过呢,没有那么灵活拓展性,没有那么好使用的代码量呢,可能会比较多,来我们看一下 spring ai 对 应的代码,那么我这里呢,会有四个角色,对吧?这四个角色那么就有四份提示词。第一个是需求分析师,它会根据 用户传进来的对话信息来进行需求分析,如果需求无法实现,直接返回 for, 然后呢是系统架构师,呃,项目经理实施。然后呢交付经理,那我这里呢有一个启动方法,这就是我需要实现的需求实现一个每秒一千 订单的电商平台。然后我们来看一下这里的助力代码,那么首先呢,我会由第一个 chat client, 那 么 chat client 我 相信呃,学过 spring ai 的 非常熟悉,它就是我们需要跟大模型进行智能对话, spring ai 提供的一个非常核心的组建,通过它呢, 这样扩方法我们就可以直接来去请求大模型了。好吧,在这里我不去再详细的介绍 spring ai 的 一些基本的课程,好吧,那么首先呢,会通过 这个需求分析师将传进来的用户的这一段需求来进行分析,分析出来之后呢会返回一个内容, 那么在下面呢,我们会通过 if 来进行判断,如果返回的内容里面包含了 file, 那 么流程直接终止,否则的话会将需求分析的内容再交给系统架构师,那么系统架构师呢?它会根据需求分析的内容 来进行架构的设计,所以你可以看到这四个角色呢,他们都依赖之前这个角色所返回的内容,然后呢每一个角色会进行信息的一个上下文传递,所以经过这个架构设计师 设计完之后,然后再把它返回的内容交给实施工程师,实施工程师再将它返回的内容交给交付工程师,最终完成整个流程。那么大家看完这一段视屏, ai 虽然可以实现, 但是有哪些痛点呢?首先第一个问题啊,如果我们的流程变成了二十步,虽然我们现在只有四步,你想象一下,后面如果变成了二十步,整个流程代码将变得非常的臃肿, 不可维护,包括我们流程的整个流转,都需要自己通过 if else 来进行控制。假如说我们的整个流程不是顺序执行, 而是错综复杂的,比如说需求分析师,他可能直接到第三步,也有可能直接到第四步,是一个非常错综复杂的栈的流程,我们如果完全自己用 excel 去控制,那么整个逻辑将会变得非常的错综复杂,后期我们代码可能直接就变成了史商,根本就 维护不动。那另外还有就是我们每一个流程都需要依赖上一个角色返回的内容,所以每一个角色的信息传递呢,我们都需要手动的,对不对?上一个角色返回的内容,我们需要手动的 给它传递到下一个角色,那么这种由程序员显示传递的方式其实也是可以有待优化的,那接下来我们就用 spring ai 阿里巴巴 agent framework 来实现一下,看它能否解决我们之前单独用 spring ai 出现的这些痛点问题。当然我们现在还没有正式进入到阿里巴巴 agent framework 课程讲解,但是我希望大家给我记住一个对象叫做 react agent, 它可以说是阿里巴巴 agent framework 当中最重要的一个对象。你看名字应该能看出来啊, 一个 react agent 它就体现了一个当 agent, 通过它我们就可以进行大模型的对话,包括 full 的 指定,包括对话的记忆的指定,包括我们后续要讲解更多高级的内容,比如说多 agent, 多智能体,包括 skill, 什么 hoax in the seventh, 我 们都需要围绕这个对象来进行。那么在我们这个事例当中呢,一个 reactaction 它就等于一个专家角色,那我们这里呢,就有四部对不对?那对应的我就有四个 reactaction, 第一个呢是需求分析师 对吧?要个系统架构师,我就每步每一个介绍了。那关键是我们看首先用这种方式,如果流程多了代码,他的维护性会更好吗?来你看啊,首先我们这里只是创建了这四个专家角色,我们并没有去决定他们的执行流程是什么样的。那么执行流程呢?我们会在下面 由一个多 agent 的 编排对象,我们这里呢是用的这个 suggestion agent, 它是顺序执行的 agent 流程。那么除了顺序执行以外,我们后面还会讲解你像并行执行,路由监督者,包括自定义,还有混合模式。 所以哪怕我们在上面定义了二十个步骤,我们也只需要在下面统一地来进行编排, 那么这个 special adjend 它是顺序执行的 for adjend, 那 么我们在下面你可以看到我就进行了编排,对吧?参与的每一个 adjend 的 专家角色,也就是上面我们创建的这四个步骤,那么他们就会根据这个顺序呢 一一地进行执行,从而呢我们的代码维护性,包括代码的可读性会得到改善。那另外啊,就是每一个步骤它们的上下文传递还需要我们代码的可读性会得到改善。那另外啊,就是每一个步骤它们的上下文传递还需要我们的可读性会得到改善。那另外啊,就是每一个步骤它们的宏观 我们其实不需要再手动的传递了。你看,当我们要获取用户传入的这个需求信息,我们只需要加一个 input 占位符,这是第一个步骤得到用户传入的 需求信息,那么第二个步骤,我如果要获取第一个步骤返回的信息,你看我也只需要加一个占位符,那么这个占位符呢?它由上面第一个角色 这个 out put key 这个名字来决定,也就是你这个 out put key 你 返回的是什么 key 的 名字,那么你下一个步骤如果要获取, 那么你就可以对应的来使用这个占位符了,这是不是非常简单,我们可以在任何一个专家角色当中呢 去使用,所以我们这四个流程都是通过这种方式来去传递上下文的,也就是上一个流程声明 autobot key, 下一个流程我就可以直接通过这个占位符来去使用,这样呢就不需要我们程序员手动地去声明变量, 然后去传递,通过这种方式来进行上下文的传递和引用,将变得更加的方便。那么最后呢,就是这个,我们在流程当中如果出现了流转,我们之前呢是通过 if 的 方式这种应变码来去判断的。那我们通过阿里巴巴 ide 的 workflow, 首先我们可以通过不同的 多 adjut 的 模式来去决定它们整体的执行流程。那另外呢,我们还可以通过一个叫做 hoax 或者 intercept 来去增强或者终止 adjut 的 流程。那么什么是 hoax? 我 们后续会详细地去给大家讲解 hoax 和 intercept, 你现在只需要暂时地去知道它会在我们 agent 执行前和执行后,我们可以进行增强或者终止。那你可以看到我在这里呢就指定了一个 hogs, 然后创建了一个匿名对象,那你可以呢 重写 add and after, 也就是之后执行。那么相应的你肯定能猜到它也有一个 before, 也就是 add and 之前你可以进行增强。那么我们这里呢,就是在 add and 执行之后,判断返回的内容是不是包含 fail, 如果包含直接抛出异常 终止流程,所以通过这种方式呢,它会比我们之前要单独地去写 if 这种硬编码,它的维护性更。 那当然你现在可能会觉得感觉挺麻烦的,还需要什么通过 hux。 但是其实如果你后面用习惯了,并且你的流程非常的错综复杂,用这种方式绝对要比你单独的在代码当中去写 if, 后期的维护性绝对会更高。所以通过阿里巴巴 action 的 宏观,你会发现 每一个步骤,也就是每一个专家角色,他们就像流水线当中的一个包裹,你可以通过多爱症的模式来去组装,他们是顺序执行,或者以其他的模式来进行执行,包括我们要去做一些流程的增强,或者流程的终止。 我们通过这种面向专家角色的方式来进行编码,比我们之前这种面向过程的方式来进行编码要更加的优雅。当然,虽然阿里巴巴爱症的宏观,它似乎把我们 之前的几个痛点都解决了,但是他如果要去实现一些动态编排的那种流程,依然力不从心,因为他的执行流程是通过预设好的固定拓扑,也就是他只提供对应的这几种执行模式,包括顺序啊,并行啊,路由啊。如果你的流程 是像扣子一样,那就应该用过扣子吧,也就是我们可以通过 ui 的 方式去拖动一些主键,进行动态的编排整个流程,那阿里巴巴 and from work 就 力不从心了,我们必须要用更底层的阿里巴巴 graph, 它会更加的灵活。 那我们要用阿里巴巴 graph 来完成动态编排能力的话,首先我们要了解几个重要的概念,泛态节点编什么意思呢?来给大家举个例子来,你看,假如说我们现在开发的就是一个扣子啊,我现在就通过 ui 的 方式编排了一个这样的流程,也就是我们之前 看到的需求分析师,然后需求分析如果错误终止,然后交给架构师,交给实施,一步一步去执行。 我们现在呢,是通过足的方式来去体现,那么状态节点边其实他就决定着这个足 怎么走,那你看,那么这里我们就加入了边状态节点,那么首先节点这个概念非常好理解,他就是 直执行具体逻辑的单元,那么我们的逻辑呢,就是去和大模型进行对话,对不对?所以你可以看到我们这里的代码充当节点的依然是之前的 react agent, 它可以直接跟大模型进行对话,对吧?你可以看到我们这里 其中的一个 reactaction, 我 们就通过 add nod 去给它添加成了一个节点,那么每个节点呢,他们就拥有了具体的代码逻辑, 应该怎么执行?那节点跟节点之间的数据传递靠什么呢?靠这个状态。那么在需求分析里面,我可以通过 input 状态来获取用户提交的信息,在这个架构设计里面,我可以通过 上一个提交的状态来获取上下文传递的信息,所以状态呢,它其实就是 agent 负责上下文传递数据的一个主体。那么我们这里呢,依然是通过 output key 来充当着状态。由于我们这里呢是通过 react agent 来充当节点,所以没有直接去体现状态,它内部直接就帮我们封装好了。那么我们后续如果详细地去讲解呃自定义节点,你就能具体地看得到好不好? 现在你只需要暂时知道状态,它就是在每个节点传递数据的一个主体,那么另外非常重要的就是这个边,由这个边决定为一个节点到另外一个节点 是怎么流转的。那就比如说从 start 到我们的需求分析节点,那我们在代码当中你就可以看到,就定义了一个普通边,从 start 到需求分析,对吧?然后呢,从架构设计 到实施计划,是不是从架构设计到实施计划,从实施到交付,最后交付到结束?那么除此以外呢,还有一个条件编,也就是编呢,它分 普通编和条件编,条件编应该能猜到它是可以通过条件判断,然后进行流程的分支。那我们看一下,我这里同样的有个条件编, 用来判断需求分析返回的是不是 for, 如果是直接结束,如果不是流转到架构设计节点,我们看在这里呢,我添加了一个条件边,然后 你看这里其实就体现了状态,它其实就是数据的载体,你看我获得的是需求分析的 output key, 对 不对?我获得的是需求分析的 output key, 也就是我看需求分析返回的内容是不是包含 for, 如果是,那么它的状态标记为 end, 否则标记为粗架构设计。当然这里不是具体的节点名称啊,这里只是一个标识,最终呢还需要靠这个 map 来决定这个标识它对应的是哪一个节点。比如说这个返回的 end, 它对应的就是 end 节点,这个返回的是粗架构设计,它对应的就是架构设计的这个节点。所以通过 graph 你 会发现啊,它完全就是流程图的一比一精确映射,我们只要画好了流程图, 又可以通过前端 ui 的 流程图来进行动态的解析,然后呢,来完成动态编排 edit 的 流程。当然这里没有这么简单啊,还涉及到前端的 edit、 流程、 ui 交互以及动态解析,我们在这里呢只是给你实现了这样的一个简单的写死的动态流程, 其实从代码失利当中,你完全可以看出来,我们阿里巴巴 graph 它完全有能力可以通过你保存的编排信息,就比如说你之前保存了 ui 的 编排信息到数据库里面,对吧? 我们完全可以从数据库里面取出来,然后动态的去给它进行解析好不好?当然这里面涉及到的东西非常多,我们先不去纠结这一块内容,所以说通过 graph, 无论你的节点,它的流程有多么的复杂,图引擎 们都可以通过编来轻松地承载,只要你画得出图,就能写得出 time, 因为它是跟图一一映射的,所以你完全可以看出来,我们如果单纯地用 spring ai, 虽然也可以实现 症的,但是它的灵活性,它的可维护性,它的数据上下文的传递都是不行的。但是如果我们只是要实现简单的大模型智能对话,用 spring ai 完全足够。那另外呢,就是我们用 spring ai 阿里巴巴 elegant framework, 它的灵活性呢?其实够用,只要你没有那种动态编排的需求。 其实 spring 阿里巴巴 angel 的 官方,它更推荐我们基于上层的 angel framework 来进行使用,因为它不管是可维护性,还是包括它的上下文传递,包括它的易用性,都更加的友好。但是如果我们有动态编排的需求, 你想要绝对的灵活性,那么基于阿里巴巴 graph 才能满足我们的需求。但是不管你基于哪一种方式,没关系, supreme ai, 阿里巴巴它都包含了,它既包含了 supreme ai, 又包含了 supreme ai 阿里巴巴 graph, 我 都能慎用。然后那希望大家能通过这个简单的 editor 流程是力能够对 supreme ai 阿里巴巴整个整体结构有一个清晰的认识,并且知道 supreme ai, supreme ai 阿里巴巴 adn 的 宏观和阿里巴巴 graph 它们三者的一个区别以及应对的场景。 哈喽大家好,我是徐树本视频将会给大家讲解什么是 skill, skill 的 原理,以及怎么通过 supreme ai 阿里巴巴对接任意大模型来实现 skill。 那 首先呢,我希望大家知道一点 skill 它的本质呢,其实也离不开 function, 也就是 tools, 所以 我们就先从 tools 开始给大家进行讲解,比如 我让大模型呢帮我查询北京的天气,那由于大模型呢,它本身欠缺这种实时信息的获取,所以它就会看有没有哪一个工具,也就是 to 能去处理当前这次对话。那经过它的推理之后呢,它会发现有一个专门用于查询天气的 to, 那 么它就会返回一段调用 tool 的 交互信息,里面包含了 to 对 应的方法名称以及方法需要的参数,比如需要查询天气的位置,北京也携带过来。那么我们的应用程序识别到这段交互信息之后呢,就会通过反射的方式找到这个方法来进行调用。所以 to 的 本质其实就是将这种 非结构化的自然语言转化为可处理的结构化的交互信息。这样呢就可以让大模型间接的 调用我们自己应用程序当中的方法。所以通过 tools 解决的是怎么调用的问题。那么接下来呢,我们会面临一个调哪里的问题?比如我们现在呢,想让大模型去查询一些第三方的服务信息,比如我要查询某一 github 的 开源项目的信息, 比如我要查询某一篇博客,比如我要查询某个地图的位置信息等等。那我们是不是就需要为每一个第三方的服务查询来声明一个对应的 to 方法,然后每一个 to 方法呢,去调用第三方服务的接口来获取信息,那么这种方式它的实现成本是非常大的。首先第一个问题就是,如果这些第三方的服务非常多, 那么我对应的也要去实现很多的 to 方法。另外,如果我有很多的 ai 应用程序,我也需要在每个 ai 应用程序当中呢 重复地去实现一遍。因为这些 to 方法它不能共享,所以能不能让这种自己声明 toos 的 工作交给第三方服务他们自己去做呢?比如他们各自都提供了外部的 toos 方法,那接下来的问题就是大模型 我怎么去直接调用这些外部的第三方服务接口呢?那这个时候 m c p 就 出现了 m c p 呢?它解决的问题就是我大模型怎么可以用统一的方式来去对接这些第三方服务的共享 toos, 它提供了两种调用方式, s t d i o 和 h t t p 的 方式。这 t t p 的 方式呢,又有 s s e 和 streamable, 通过这两种方式就可以远程去调用这些第三方的外部 tools。 但是我应该怎么调呢?你又应该返回什么样的数据给我呢?这个全由 m c p 的 这个协议说了算, 但是 m c p 呢,它实际上依然离不开方块控,因为对于大模型来说呢,它是不区分第三方的外部拓还是你自己应用程序的内部拓?我不关心,我只知道对我来说这些都是工具。整个过程是这样的,比如说我们让大模型帮我查询某一个 idharp 的 开源信息,那么大模型经过推理之后呢,它同样的会返回一段调用库的教程信息,其中呢就包含需要调用的库方法,比如说有一个这样的库方法,那么这个方法呢,我们自己应用程序依然需要通过 function call 提供给大模型,然后再通过这个 function call 去调用这些外部的第三方共享 tool, 从而呢来实现数据的传输。所以通过 m c p 就 可以解决让大模型间接的去调用这些外部的通用工具的问题。那现在问题来了啊,大模型它的调用不再局限于调用某一个 tool, 它可能需要经过一系列的工作流, 然后再结合 to 才能完成一个任务。比如我让大模型帮我打开浏览器,请求百度查询徐树,获取徐树相关的信息,又或者我让大模型帮我获取桌面上的 一些不重要的信息,那这里呢,就涉及到获取桌面物理路径下面所有的文件,然后把文件名称、文件类型发给大模型,让他自己去做推理。那这其实就是所谓的 walk flow 模式下的 agent, 我 们需要通过大量的提示词去告诉大模型,你应该针对不同的任务应该怎么去做拆分,每一步应该怎么去处理。 比如用户让你去网络上面搜索某些信息,那你需要拆分成打开浏览器,输入百度搜索对应的信息,然后获取网页上面的内容,最终进行推理返回。每一步你都需要通过提示词去告诉大模型,这里面的提示词非常的庞大,那 astropik, 也就是 closed, 大 模型它意识到这个问题呢,就推出了 skill, skill 呢是由一个 markdown 的 文件,它里面呢会包含原数据,也就是我当前这个 skill 它的作用。比如说我可以定义一个网络搜索的 skill, 那 么另外一部分呢是 指令,在指令当中呢,你就可以详细的去编排每一步应该怎么执行,比如第一步要用启动浏览器的 tool, 第二步搜索关键词平方页。第三步你甚至可以去执行一些脚本语言,比如 isen 或者 gs, 来去解析网页上面的内容。现在你还可以去定义一个 skill 来做专门的文件处理,并且在指令里面去定义应该怎么去进行文件的操作。那么这样的话就不需要把所有的提示词 一次性的都发给大模型了,大模型它会按需加载,它是怎么做的呢?首先呢,会将每一个 skill 它的原数据,也就是每一个 skill 它的作用发给大模型,那比如说我跟大模型说,我要进行网络搜索,去百度中搜索其数, 那么它就会进行推理,看哪一个 skill 呢能够进行处理,那么它同样的会返回一段教程信息,代表我需要调用 call skill, 然后呢带上 skill 的 名字,那么这个 core skill 啊,它其实依然是沿用的 function call, 也就是在应用程序当中 会有一个叫做 core kills 的 这样的一个拓方法,那么这个方法呢,它就会根据 kills 的 name 来决定读取哪一个 markdown 文件。比如说你网络搜索就有网络搜索的 markdown, 你 的文件操作就有文件操作 对应的 markdown 文件,然后把对应的 skill 的 markdown 再发给大模型。大模型呢,再进行推理,看我要调用哪一个错误方法来进行处理。它不会像 workflow editor 一 样,把所有的处理能力提示词通通都发给大模型,它只需要 发送当前所需能力的 skill 的 markdown 相应的指令信息即可。所以 skill 我 们也把它叫做 subaddent, 它只是一个大的智能体当中的其中一环,并且 skill 它也非常方便大家进行传输,进行共享。所以听到这里你会发现啊, skill 它其实依然沿用的是 function core 这一套,只不过呢,它内部提供了一个内置的 function core 来去读取对应的 skill 文本,然后再返回大模型,让它进行推理,执行下一步操作。所以也必须要有支持 function core 的 大模型才能支持 skill, 这就是它的原理。好,那么讲到这里,我相信大家应该对 skill 有一个基本的认识,但是我们刚刚提到这种实现方式其实是由 cloud 模型提供出来的,目前只有 cloud 才支持。但是没关系,我们既然知道了它的原理,那其实我们就可以通过 spring ai 阿里巴巴结合 tools 来对接任意大模型实现 skill。 接下来我给大家演示一下,结合我们之前讲的 skill 原理,来看一下这段 spring 阿里巴巴的代码。当然如果你现在还不会 spring ai agent from arc 或者需要当前的势力代码可以找我。那么在这里呢,我们定义了一个 skill 的 agent hulk, 这都是目前最新版本 ai 阿里巴巴,它内置就帮我们实现了,我们只需要把 skill 对 应的文件地址,比如说我们在这个目录里面放了三个 skill, 一个 skill 呢代表一个技能,比如说有网络搜索的呀,我们可以打开其中一个,你看它里面就包含了原数据,也就是 skill 的 名字, skill 的 描述也就是它的作用。那么把这三个 skill 对 应的这个根目录路径告诉它,那么它内部呢,会自动 帮我们进行提取,因为它的内部呢,实际上已经定义了提取文件的 tool。 然后呢在这里还定义了一个用于 执行 shell 命令的一个 hock, 因为我们之前说了 skill, 它除了能够读取这个 markdown 的 文件以外,它还可以去执行一些脚本语言,对吧?比如说 python, 那 么要执行 python 的 话,我们就需要呢通过 c m d 命令的方式来去执行这个文件。那么把这两个 hock 呢,交给当前我们申明的这个 agent, 以及呢还需要提供 sim 的 库工具,它才能去执行 python 的 代码。那怎么执行 python 代码?我不在这里去细讲啊,其实我们也是依靠呃 raw vm 它提供的一个第三方库来进行支持的。那我们来看一下这个视力,在这里呢,我有一个 control 的 接口来去接收信息,然后呢去调用这一次的大模型请求,比如说我让他帮我搜索关于蛋白质折叠预测的最新论文, 那它对应的呢就是这个 skill, 好 吧,我这里的这个描述呢,就是去搜索物理啊,数学啊,计算机科学啊等等这些论文的,并且呢它还会使用 python 来去搜索 这个网站来获取对应的论文,那这里面对应的这些指令信息我就不带着大家去看了啊,也就是什么情况需要去执行 python 应该怎么去执行?这里面都已经编排好了,那么我们来请求,此时呢我们可以来到控制台,你看他这个时候啊,就会按照我们预设的提示词会告诉他应该怎么使用, 那么这些提示词都已经在我们对应的这个 skill 内置都已经定义好了,所以呢它会自动发给大模型,告诉大模型你应该怎么去用这种 skill。 他 说呢你首先呢需要读取 skill 对 应的马考道文件,然后呢你还可以执行对应的脚本,然后呢读取到这个马考道文件,发现需要执行 这个 python 文件,那它首先呢就会检测是否需要安装,它就会要用我们的那个 python tool 来去检测是否具备 python 的 环境,当发现我们具备 python 的 环境呢,它就会去运行 python 脚本,帮我们去这个网站 i x v 去搜索关于这个蛋白质折叠的最新论文,那么搜索完之后呢,他说看起来没有搜索,搜索到任何结果,然后呢他还呃推理说可能是因为命令执行有问题,所以这整个过程呢,他会自动的推理,然后自动的检查,然后呢他会去查看这个 python 文件的一些 法内容,然后检测到呢这个脚本逻辑是正确的,然后呢,他重新运行这个脚本哦,接下来呢,他就搜索到了五篇论文,然后呢说似乎与蛋白质折叠预测不相关,然后呢,他通过分类的方式来进行更加精准的搜索啊,最终我就不看了。好吧,总之呢,他会根据我们的这个 skill 的 描述文件 来决定一步一步应该怎么执行,以及应该以什么样的方式去执行那个 python 文件。那么最终我们也可以看到它就搜,搜索到了对应的五篇论文。所以我们会发现啊,在 spring ai 阿里巴巴目前最新的版本当中呢,它已经把 skill 对 应的实现都已经封装好了,我们要做的是什么?只需要提供 skill 的 mastering 文件以及对应的 python 脚本。那现在其实呢,也有非常多现成的 skill, 大家可以通过这个 skills 点 s h 来进行搜索,里面有非常多啊,目前呢,有四万多个,大家可以按需自行搜索。好,那我就给大家分享到这里,我们下期见, nine。

今天,我以一个架构师的身份,带你看透千问接入阿里生态的本质,不是简单的功能打通,而是一次互联网生态架构的重构。在架构师眼里,千问早已不是一个聊天 ai, 它是阿里整个生态的统一入口层,前端承接用户意图,后端调度、全平台服务。它是网关、是中书、是中台,是整个阿里体系的 ai 化风格。绝大多数人以为 千问只是接入了淘宝、高德、支付宝这 app。 错,架构层面,它接入的是阿里沉淀十几年的四大核心能力域,不是界面打通,是服务能力、数据链路、业务逻辑全部底层贯通,这才是真正的技术壁垒。过去我们用阿里是打开一个个独立 app, 架构是分散的、烟囱式的。 现在千问把所有服务拉平,变成统一意图、入口加分布式服务调度,这是典型的中台化架构在 c 端的终极形态。这才是千问最可怕也最值钱的地方, 落到用户身上,价值非常直白。过去是人找服务,现在是服务找人。你不用理解阿里有多少 app、 多少系统、多少入口,你只需要说出需求,千问负责把背后复杂的架构全部抹平,串联执行,这就是 ai 时代最顶级的用户体验架构。 所以,第一期我想告诉你的本质是,千问接入的不是一堆应用,而是用 ai 重新定义了一个超级生态的交互架构、服务调度能力、组织方式。这不是功能升级,这是架构革命。下期我们讲,为什么只有千问能做到?这背后的架构壁垒到底是什么?

一个做小雪老师的发小联系我,问我能不能帮他做一个 ai 生成视频朗诵古诗词的软件,他上课的时候展示给学生看,因为是发小,让他喊了几声爹, 我耗时一周手搓了出来,给他一个版本,逻辑式,用户选择,诗词选择配音,人物画像选择与描述,点击立即生成。后台拿到诗词进行分镜和人物画像, ai 根据图片生成视频片段,最后合成视频。 这里面配音用到了开源的 h t t s 声源,后期剪切用到了分配函数大模型,接入的千万大模型 take, 费用由他们学校承担。这里因为视频生成比较慢,我就演示一下已经生成过的,给它做了基础的音频上传加字幕编辑等常规功能。 床前明月光,疑是地上霜。举头望明月,低头思故乡。

千问 app 接入淘宝闪购,能否彻底改变你的购物体验?这项新功能让 ai 真正成为你的购物助手。 随着人工智能技术的不断发展,千问 app 正式接入淘宝支付宝、淘宝闪购、飞猪、高德等阿里生态业务,开启了 ai 购物的新纪元。用户只需简单一句话指令如帮我点四十杯霸王茶几的薄牙决弦, 千问 app 便能迅速调用淘宝闪购下单,无需跳转即可完成 ai 支付。千问 app 不 仅实现了点外卖、购物、订机票等功能,还接入了支付宝政务服务,提供签证、户口、公积金等五十项民生服务。 此外,用户还可以通过非中预定机票、酒店,甚至直接用语音指令预定餐厅,大大提升了生活的便利性。千问 app 凭借其强大的宽最强模型与阿里最丰富生态的结合,展示了 ai 在 实际生活中的广泛应用潜力,标志着 ai 办事时代的到来。

马斯克最新访谈又刷屏了,老马又一次炸裂发言,他预测呢, ai 竞赛的终局只有三个玩家, x、 ai、 谷歌和中国。这是老马第一次在访谈中这么夸中国,但是我觉得他还是漏说了一点, 二零二六年,中美 ai 的 分野越来越明显,这之间的差距就是两个字,办事。你看 chg 出来三年了,你让他帮你订张机票,他会给你写一篇如何高效订机票。 但中国的 ai 不 一样,是真能办事。就在今天,请问 app 正式宣布全面接入淘宝闪购、支付宝、淘宝飞猪,高德能帮你比价购物、处理报表,帮你办护照,可以完成四百多项的办事能力,这样能真正办事的 ai 在 全球都是很少见。 那我们就要问了,美国的技术那么强,为什么做不到?因为这件事啊,需要两个重要条件,强大的模型和丰富的生态。 强大的模型呢?美国不缺,但是谷歌、 openai 这些硅谷巨头各自为战,数据不通,但阿里不一样,当电商、支付、外卖到出行全面打通,每天几亿的真实交易在上面跑,这些真实的交易数据就为千万提供了真实的生活环境,让它展出了触达真实世界的手和脚。 就这一步,让中国提前进入了 ai 办事时代,把中美的 ai 竞赛带入了新的阶段。那这种办事能力的爆发,源于底层技术的突破,千万呢?采用了一套全新的通用 agent 体系,主模型规划任务,子模型决策执行。 最炸裂的是,这一半的工具都是 ai 自己写代码生成的,而且它还在不断的反思和自主进化。 ai 办事能力的爆发,还带动了中国硬件的觉醒, 在前几天的通用智能硬件展上,两百二十多家企业,一千五百多件产品全部接入千万,比亚迪的车, oppo 的 手机, u b i 的 机器人,还有助盲眼镜,儿童玩具, ai 吉他,底层全都是千万在驱动。 到这里,我们就可以清晰的看到,中美 ai 走的是两条完全相反的道路,在技术路线上,美国全面转向闭源,靠技术壁垒赚钱, 中国全面拥抱开元,把能力分享给全世界。发展方向上呢,美国追求考试上的高分,想超越人类,而中国呢,追求 ai 能办事,希望服务人类,一个在天上造神,一个在地上干活。 还记得吗?就在二零二三年,美国的芯片全面封锁,说要让中国的 ai 落后五年,结果呢?二零二六年,中国 ai 率先进入办事时代,这不是弯道超车,这是降维打击,不是在论文上,不是在参数上,而是在你我的生活里。 再回到马斯克的那句话, ai 竞赛的终局只有三个玩家, xai、 谷歌和中国。而真正的 ai 能真正的走进千家万户,解决老百姓的实际问题, 能落地的 ai 才是好 ai, 这点中国已经走在了前面。我是竹子,关注我,快乐一步把握 ai 时代机遇!

有没有发现啊,手机用功能越丰富,我们面对某个具体的需求就会越迷茫、越忙碌。那这不是错觉。有时候,我们明明只想用其中一个不起眼的小功能,却不得不为它下载一个庞然大物,然后就像走进一座巨大的迷宫,花上大功夫抽丝剥茧,才能找到那个真正需要的入口。 那今天,我们正站在一个临界点上,一个可能改变这一切的产物,正在腐竹水面,他就是千万。那今天,千万春季发布会在杭州召开, 一口气上线了四百多种新功能,并宣布全面接入淘宝飞猪、淘宝闪购、支付宝高德等阿里业务。听完整场发布会,我惊讶的发现,这绝不是常规意义上的一次升级,而是阿里巴巴对人类交互泛示的一场革命性尝试。而这场变格的核心,就是从手机触控到意图驱动的跃迁。 过去二十年,移动互联网的逻辑是应用中心制,每一个服务都是一个数字孤岛,我们需要登上对应的船才能抵达目的地。而切问接入阿里业务生态后,已经相当于直接为你建起一座四通八达的桥。它的本质是将交互的基本单元从一个个固定的应用功能转变为用户的意图, 一句话就可以完成切换多种 app 才能完成的事情。让 ai 从聊天助手,这是进入办事管家时代。如果你的意图是周末带家人去一个温暖的海边度假,难找。以往我们的习惯会打开旅游 app 查机票、换平台、看酒店,用地图软件查路线,再换到天气 app 看预报。 但现在,你只需要对千问说出你的想法,它背后的 ai 大 脑就会自动协调各个软件,调动话语服务,协调比价,最后给你一个完整的解决方案。 那尤其是在深度激活支付宝之后,千万获得了五十项民生服务,能力变得更加全能。以往可能很多人都要找半天的各类民生服务的入口,比如社保、公积金签证、公民户口等等,现在一句话就可以直达。 甚至你只要对千万说一句异地户口如何办护照,那千万还能帮你判断能不能办,需要准备什么材料,最后直达办理入口。那么互联网发展这么多年,百花齐放,为什么却注定只有阿里巴巴能让千万这个万能接口成为现实呢?因为要稳坐这张牌桌上,要求玩家必须手握两张王牌,强大的 ai 大 模型与庞大的生态王国。 那前者是脑决定了理解意图的能力与深度,那后者是身体决定了执行意图的广度和可能性。那目前世界上公认有此能力的企业,国内只有阿里, 全球似乎也只有谷歌与阿里巴巴。那谷歌同样拥有强大的 ai 技术实力和全球化的搜索、地图等生态,它近期正尝试介入沃尔玛等零售服务,也正是其构建办事型 ai 野心的体现。 然而,谷歌的生态更多地集中在信息层与基础工具层,当他还在试图整合本地化深度交易与服务,打破与第三方企业合作的壁垒时,拥有更完整业务生态帝国阿里巴巴却已经率先完成了多项功能整合,更快地跑通了从用户意图到用户服务,再到支付闭环的全链路,把握了 ai 战局的关键决胜点。 那可以预见的是,当纤维这类办事型 ai 规模化应用普及之后,人类处理问题的习惯将从如何操作工具扩展到如何定义问题, 我们将得以从繁琐的执行中解放出来,有更多的精力投入到创作与决策中。那同时,他对老年群体以及数字技能弱势者都非常友好,很大程度上能让每个人都能公平享受到数字技术带来的便利。而对于商业市场来说,传统的流量分配逻辑可能会失效,竞争的核心 将从争夺用户的停留市场转变为争夺 ai 的 理解与推荐。企业的数字化成熟,即其服务能否被 ai 高效理解、调度与评估将成为新的生死线。也许一个全新的 to ai 商业模式即将兴起, 二零二六年我们或许不会立即到达终点,但阿里巴巴千问这一手开年王炸,让 ai 竞争的局势已经无比清晰。毕竟啊,谁能让 ai 无缝可靠地融入人类社会的真实运作,谁将定义下一交互时代的基本法?

最近千万滴滴都在进行 ai 打车业务,简单来说吧,以前我们用轿车软件轿车的时候,就会不断的在 价格、车型、舒适度,甚至啊司机的好评之间反复去切换,很是麻烦。现在呢,我们只需要把我们的要求告诉 ai, 他 就会给我们匹配到最合适的车来接我们。 举个例子,我们全家出行五口人,起码有个小孩儿比较追求舒适度,哎,一会儿啊,他就派一辆 mpv 来接我们,还带有儿童座椅, 简单方便很多。不过啊,当我把这个消息告诉好的朋友们的时候,他们很自然地告诉我说,哎呀,这个简单,不就是 ai 产品要用高频的教学软件带动流量吗?高频带低频吗?哎,这一看啊,这些朋友的思维啊,还停留在移动互联网时代,满脑子都是什么 m a u d a u 场景这些话术, 我严厉的批评他们,在 ai 时代,他们这种思维已经严重过时了。要我看,千万接入打车业务,并不是千万需要打车业务去带流量,而是以往我们觉得理所应该的好的业态 在 ai 时代都值得重新做一遍。这话说的有点熟悉啊,在移动互联网来的时候也是这么说的,但你看后来一步一步都得到了验证。之前啊,我一直在考虑 ai 产品,我们普通用户是免费的嘛。 你看,以往移动互联网时代积累的 m u d u 这些护城河,在 ai 时代突然间就失效了,千万这种 ai 平台就会成为所有业态的中心。这个事情啊,在移动互联网时代的时候,像百度、腾讯其实都想去做过,但都没有成功。 现在来看啊,在移动互联网时代,要成为所有业态的中心,还是需要丰富的场景去配合的嘛。但各家公司都有自己的局限性,这个很难成功。 但在 ai 时代不一样了,用户需要这些产品,用户需要技术和平台去改造原有生态。现在来看,不是千万需要打车,而是打车又需要千万。最后的商业逻辑啊,在慢慢的转变。好了,跟大家聊这么多,我继续搬砖了。