粉丝4431获赞8814

免费了,不要三四九九,也不要九块九,不包手机的平替智普的开源项目 open auto gm, 配合它的开源模型 auto g o m 九 d, 咱们也能实现手机 agent 的 自由。我用手上这台安卓手机和 mac 电脑搭好的环境,让他来帮我购物, 这是执行效果,提示词是在淘宝上找到帮宝适黑金刚 l 码最低价的商品,加入购物车,然后发微信告诉我商品选好了。我来看看。这套开源方案和豆包手机最大的区别有三点,第一, 一,运行级别不同。开源方案只能在前台运行,豆包手机可以在后台自己默默的运行。第二,手机的便携性不同。开源方案手机和电脑必须用数据线连接,或者是在同一个 wifi 下,豆包手机可以只拿着手机到处走。三、智能程度不同。 开源方案接的是九 b 参数的小模型,能完成大部分的基础场景,但是极限智能比不上豆包手机。推荐两种适合的使用场景。 场景一,操作电脑忙不开的时候,比如快下班时提前叫车,当同事还在等车的时候,你已经上车回家了。场景二,需要在手机上多个 app 之间切换,收集数据,分析并且最终操作手机的场景。比如说在双十二购物选择最低价格商品时,我的微信收到消息了,任务完成。 牛逼!那么这么牛逼的手机, a 镜的方案会不会很难配置呢?完全没问题,我摸索了一套极简方案,只需要一行命令和一句话就能配置好。 首先看我这期视频,一行命令把 cloud code 安装好,然后打开 cloud code, 告诉他这句话,一路点同意就能安装完成整个配置过程,需要用数据线把安卓手机 在电脑上这么简单都能就能搞定,快去配置一套试试吧!你还有什么场景想用手机 app 来解决的?详细的安装过程和常见问题我会总结成文档,方便大家查看。关注我,玩转 ai 编程。

一个软件包含市面上所有 ai 功能,不仅官方正版,而且完全免费,全中文汉化。如果你电脑配置差,无所谓使用整合包里面的万象二点二,工作流,万象视频生成速度将提升十倍左右。 想要生成广告图,只需输入简单关键词,点击运行完整的商品海报就生成好了。想要生成视频, 输入最简单关键词,专业提示词会自动生成,只需点击运行即可生成视频。视频没有声音,只需加载图像,工作流会自动生成音频提示词,只需点击生成,音频也自动生成好。 以上 ai 功能,一个 ctrl 全部搞定。本次的工具及整合包内容二三三成长,点进去就能拿到。

很多人一听到 clock code, 也就是我们说的 cc, 第一反应就是,哦,又一个写代码的工具,大错特错。如果你只拿它写代码,那真是大材小用了。 这东西根本就不是一个简单的编辑器插件,它本质上是一个系统级 a 人。什么叫系统级?就是只要你给了权限,它就能直接接管你的电脑。它不像网页版的 gpt, 说完话还得你自己动手复制粘贴。 c c 是 能直接帮你改本地文件,跑数据分析爬虫,甚至读写 word 和 excel 的。 简单说,他就是一个住在你命令行里的超级管家,只要你一句大白话指令,凡是你电脑能干的事,他基本都能直接替你干了。 要想把这尊大神请进电脑,得先查查户口,他依赖 node js 和 git 这两个环境。别管你是 windows 还是 mac, 打开你的终端或者命令行, 照着屏幕敲这两个命令,只要能蹦出具体的版本号,说明环境没问题。要是报错说找不到命令,那就赶紧去官网下一个装上,这不属于基本功,咱就不展开手把手教了。环境搞定后,安装其实就是一句话的事, 把屏幕上这行 m p o 命令复制进终端,千万注意中间这个杠 g 的 参数。这是局安装的意思? 逗了,他回头,不管是调用还是升级都一堆麻烦,输完直接回车等着进度条跑完就行。装完了别急着兴奋,我们先验个货,在命令行里输入 clod, 后面跟两个杠 version, 只要他痛快地吐出一个具体的版本号,比如零点二点二九,那就起火了。 这就意味着这套系统级 agent 已经在你的电脑里安家落户了, c c 装好只是第一步,现在他还是个没脑子的空壳。 默认的 cloud 模型 a p i 申请极其麻烦,还得搞定海外支付,对国内用户来说纯属劝退。这里我直接给个最优解,别折腾原生的了,直接用国产平替。比如智普的 glm 四点七,我实测下来 再写代码,这个垂直领域,如果说满血版 gl 的 能打九十八分,国产这几个模型基本都在九十分以上,日常用起来体感差距非常小。 关键是门槛和成本完全是一个天一个地。方案定了,咱们准备两样东西,去智普开放平台注册个号,在后台复制你的 api key, 这串字母自己留好,别乱发。关键是第二步,记得在里面订阅一个叫 coding plan 的 套餐,这个非常重要,它是专门针对写代码优化的,而且价格很香,一个月也就一杯奶茶钱,比你按量付费划算的多,能省不少银子。 拿到 key 之后,千万别去手动改什么环境变量,哪怕多打一个空格都得报错。直接用智普官方出的这个自动化工具,一行命令全搞定。在终端里输入屏幕上这行 npx 指令,回车之后,它会弹出一个全中文的界面, 你只需要跟着提示选中文确认套餐。把刚才复制的 key 粘贴进去,它会自动帮你把底层的连接配置全部写好,新手绝对不会出错。 把 c c 叫醒之后,你得适应一下他的工作方式,这不是咱们习惯的图形界面,没那么多按钮,给你点全靠键盘。第一件事,你得给他划进个工作区,也就是告诉他该读哪里的文件。最简单的办法,直接用 cd 命令进到你的项目文件夹,再启动它。 如果在聊的过程中想加别的文件夹,直接敲斜杠 a d 二,把它拉进上下文里。记住,对 c c 来说,文件夹不仅仅是存东西的地方,那是它的知识边界。 这里教大家一个极其好用的隐藏操作。很多人都不知道,以前在命令行里输文件路径得敲半天,还容易错。在 c c 里, 你直接把要把要分析的文件或者整个代码库文件夹用鼠标拖进这个黑框框里,松手回车。这一招叫物理投喂,不管是几十个代码文件还是复杂的文档,拖进去他就能瞬间读取。 这是扩充他上下文最快最暴力的手段,没有之一。最后说个最容易让人抓狂的坑,就是粘贴在终端这块地盘上,千万别在那狂按 ctrl v, 把键盘按烂了也没反应。想粘代码或者文本,直接按鼠标右键。如果要发图片给他看,快捷键是 alt v, 但是注意听,这里有个大坑。你不能在文件夹里复制那个图片文件,你得把图片打开或者直接截图复制图片的内容,这时候按 alt v 才能传上去, 这点非常反直觉,一定要记住了,熟悉了交互,接下来这几个斜杠指令,就是你每天都要打交道的工具了。第一个是斜杠 clear, 每当你打算开始一个新任务的时候,一定要记得先执行它,这相当于给 ai 换个干净的大脑,防止之前的对话干扰它的逻辑。 第二个是斜杠 comp, 这个太有用了,如果一个任务聊得太久,你会发现 c c 反应变慢,或者开始胡言乱语。 这时候用它给对话设个身,它会把之前的废话压缩成摘药瞬间,节省大量内存和费用。最后就是斜杠 cost, 建议你没事就敲一下,看看这波操作花了多少钱。毕竟咱们用的虽然是平替,但也得精打细算不是? 如果你觉得每次改文件都要点确认太麻烦,那咱们就玩点大的。启动 c c 的 时候,在后面加上两个杠, dangerously skip permissions, 这就进入了传说中的危险模式。这个模式的精髓就六个字, 别问我,直接干!比如你想把几百个文件名全部统一规范化,如果是普通模式,你得点几百次确认。 但在危险模式下,你把要求一丢,去喝杯咖啡回来,他就已经全部改好了,他会自动尝试报错重试,直到把结果交到你手里。不过丑话说在前头,这个模式权限非常大,用之前一定要做好备份,千万别在系统核心目录下乱玩。 如果你觉得危险模式已经很强了,那 m c p 简直就是给 cc 穿上了一套外挂机甲。简单说,这个协议能让 ai 走出终端, 直接去操控你的浏览器、数据库或者其他软件。举个最接地气的例子,很多博主每天要统计公众号后台数据,手动点开复制粘贴到 excel 表格,这活干半小时能让人心力交瘁。现在你只要装上这个 chrome 调试外挂, 一句话, cc 就 会自己打开浏览器,一页一页翻把数据抓下来,最后再亲手给你做一个 excel 表格发过来。整个过程你只需要看着原来半小时的体力活,现在五分钟全自动搞定, 这才是真正的生产力解放。最后再给你安利一个神器叫 skills, 你 可以把它理解成别人已经封装好的顶级工作流,你只需要借过来用就行了。最牛的一点是,它用完即走,不占你的大脑内存,也就是不浪费 top。 比如这个前端设计技能包,简直是审美救星。你只需要把一个长得挺丑的网页链接丢给他,让他优化一下, cc 就 会调用设计技能,自动重构布局、调整配色。几分钟功夫,一个极具现代感的网页就出来了, 而且里面的链接全都能真实点击。最棒的是,现在用国产模型也能完美运行这些技能不需要登录任何海外账号。以后不管是写代码还是改 u i, 只要你有 c c, 你 就不是一个人在战斗,你背后站着一整套官方技能库。

如何在 obsidian 中使用 cloud skill 实现一个 ai 智能体? obsidian 的 ceo stefan 最近发布的三个 skill, 你 用上了吗? 我先来做个展示,如何用一句话让智能体下载 youtube 视频,并总结视频内容,刊写知识笔记,然后在无线画布中画出知识结构图。在 obsidian 界面中,我向 ai 发送了一个 youtube 视频链接,这个视频是油管著名博主单口大神的一条视频, 我让 ai 帮我下载这个视频的文案内容,然后提取视频的核心知识点,并刊写一篇带有 obsidian 专属于法的 macdonald 知识笔记, 然后根据视频的知识内容,在一幅无线画布上画出知识结构图。 ai 在 接收到指令后,先调用了 youtube transcript 这个视频,转录 skill, 下载了视频文案, 然后调用了 obsidian markdown 这个 skill, 拣写了一篇 obsidian 知识笔记,然后调用 jason combs 这个 skill 在 无线画布上画出了视频的知识加固图。后面的两个 skill, 也就是 obsidian markdown 和 jason combs, 就是 obsidian 的 ceo stefan 最近发布的三个 skill 中的两个。 我们来看一下生成的内容。首先是 obsidian 知识笔记,可以看到知识笔记带有详细的元素句区,并且含有 obsidian 专属的 callout 语法。 我们打开当前笔记的关系图谱,就能看到笔记中的双向链接。然后我们来看一下 ai 绘制的无线画布, 可以看到视频的知识架构被清晰的整理到了无限画布中,甚至还带有原视频的链接。那有了这样的智能体能,为我们省下很多重复性劳动,让我们能够专注在学习和思考上。 今天我就用一个视频教会大家这个智能体的实现步骤,整个流程非常简单,具体步骤和相关知识点还有提示词我都整理成了知识笔记,最后会分享给大家。 首先我们来快速安装一下相关的环境。首先是 cloud code, 关于 cloud code 和 cloud skill 这部分内容在我的上一期视频中已经讲得很详细了。如果你还不知道 cloud skill 和 cloud code, 我 强烈建议大家回看我的上一期视频。那么这里我就快速的过一下安装流程。 我们先安装 windows, 直接去官网下载,然后双击安装即可。打开命令行,通过一行命令来安装。卡洛克,如果你在这一步有网络问题,可以使用网络加速,或者使用国内的 npm 镜像。具体的做法是在命令行后面添加额外的参数, 具体的命令我也展示在屏幕上。安装完成之后,我们要把 cloud 的 ai 替换成兼容模型,因为 cloud 对 网络和地区的限制非常严格,且价格较贵。 目前国内的 ai 比如 deepsea、 智普 glm 都支持了 ospec 的 api 接口。相关的官方文档我已经展示在屏幕上。 我们在命令行中分别输入这三行命令,来把 cloud code 的 ai 接口替换成智普 glm, 然后重启命令行,输入 cloud, 然后回车, cloud code 就 运行起来了。那么到此 cloud code 就 安装完毕了。 接下来我们来配置 obsidian, 这里我们需要安装一个插件,名字叫 cloud 点,是专门为 obsidian 适配 cloud code 的 插件,目前这个插件还没有正式发布到第三方市场中, 我们在 github 上找到 clouding 的 仓库,在 reedme 中能看到安装方法。我们手动下载三个文件,分别是 main 点 js, mainfast 点 json, 还有 style 点 css, 然后来到 obsidian 仓库所在的文件夹,在点 obsidian 文件夹中找到 plug ins 文件夹,然后在 plug ins 文件夹下创建一个叫 clouding 的 文件夹, 并且把刚才下载的三个文件放进去。然后我们打开 obsidian, 在 第三方插件界面把 cloudian 这个插件的开关打开, 然后来到设置界面,插件的设置界面有一些基础设置,比如 cloud 应该如何称呼你,这里我填 jason。 然后我们把滚动条拉到最下面,找到自定义变量,这里我们需要设置三个变量, 分别是 ai 的 u, r, l, a, p, i, t 和模型名称,那这里我们依然使用智普 g l l 模型,那你也可以使用 deep six 模型,那具体的参数我已经展示在屏幕上了。 设置完毕后,重启 off c 点,然后在键盘上按下 ctrl 加 p, 打开命令面板,输入 cloud 点,选择 open chat view 来打开 cloud 点的 ai 对 话窗口,在对话窗口中输入一个你好能看到 ai 返回结果,说明配置成功, 那么到此我们就完成了环境的配置。那接下来我们要把相关的 skill 放置进来。首先就是 obsidian ceo 发布的三个 skill, 我 们来到 github 搜索 obsidian skills, 找到 cappano 这个人的仓库,点进来,我们看到说明文档中已经说得很详细了,一共 seven skill, 分 别是 obsidian markdown, 用来拷写含有 obsidian 专有语法的 markdown 知识笔记。第二个是 jason canvas, 是 用来让 ai 帮你绘制无线画布 canvas 的 skill。 第三个是 obsidian basis, 是 让 ai 来帮你创建 obsidian 数据库用的。我们点击右上角绿色的 code 按钮,把整个仓库以 zip 压缩包的形式下载下来, 解压缩之后,把 skills 这个文件夹复制出来,然后来到我们的 obsidian 仓库所在的文件夹,找到点 cloud 这个文件夹,进入之后把刚才复制的 skills 文件夹拷贝进来,那么现在我们的 obsidian 就 已经有这三个 skill 了。 我们回到 abc 界面,在 abc 插件的 ai 对 话窗口输入斜杠 skills, 然后回车 ai 如果能够列出它所拥有的 skills, 那 么我们的整个流程就实现完成了。我的 ai 之所以有这么多的 skills, 是 因为我在 cloud code 的 全句目录下放了很多 skills, 大家可以回看我上一期讲 cloud skill 的 视频, 那么现在我们就可以让智能体来调用 skill 帮我们完成任务了。首先我让他用无线画布 canvas 来画出有关地中海饮食的知识结构图,并把生成的无线画布文件保存到 opposite 仓库的根部部。 我们可以看到 ai 在 接收到指令后,马上选择使用 jason canvas 这个 skill, 经过一段时间的思考之后,画出了知识库的根目录中。我们点开这个无线画布来看一下, 可以看到 ai 画出了地中海饮食的知识框架,并使用不同的颜色模块进行了分组。那么到此我们就成功在 office 界面中调用 cloud skill 来实现智能体功能了。 如果你想要为自己的智能体安装更多的 skill, 可以 到 github 上搜索相关仓库,比如 awesome cloud skill 这个仓库,以及 ospec 官方 github 仓库相关内容大家可以回看我们上一期视频。 这里我想额外说一个问题, stefan 发布的这三个 skill 是 全英文的,如果你向 ai 发送中文指令, 大模型在匹配的时候不一定每次都能精准地认识到应该使用哪个 skill, 那 解决的办法也有很多,你可以在提示词中明确要求它使用某一个 skill, 也可以来到 clouding 插件设置界面中的系统提示词选项, 在系统提示词中,要求 ai 在 接受到用户指令后,优先思考应该使用哪个 skill。 那 这样一来,你的 ai 有 了 skill 的 加持,就能变得更加智能,对特定任务也会完成的更加精确。对于 obsidian 的 ceo stefan 发布的这三个 skill, 我 个人认为更多的是代表官方的态度。 dolphin 他 没有发布在 obsidian 官方的 github 上,而是发布在了自己的 github 账号上。可以看到 minimo 这个外观主题也是在他的这个账号上发布的,因为他是这个主题的作者嘛。至于他之前接受采访中所传达的理念,可以说是知心合一的。 之前的采访中他说过,出于隐私等因素, obsidian 对 于发布官方 ai agent 的 持谨慎态度,这一点是不同于 notion 的。 由于 obsidian 的 文件隐私性,他鼓励用户自己去决定以什么样的方式使用 ai。 也就是说,你如果想要 ai 智能体,就自己手搓一个,而如今他自己亲自下场,带头手搓 agent skill, 并且发布在他自己的推特和 github 账号上,而不是官方账号, 这就非常符合他之前所传达的观点。 obsidian 不 像 notion 那 样环境是封闭的,限制那么多, obsidian 的 文件完全本地化,完全掌握在你自己手里,大家可以根据自己的需求,灵活地通过各种方式使用 ai。 那么今天的视频内容就到这了,大家现在就可以上手把 stefan 发布的 thank you 用起来了。视频中的内容和知识点我都整理成了知识笔记,大家可以在我的主页或频道信息中找到我的个人主页地址来下载资料,有任何问题都可以在评论区中给我留言,记得点赞关注,谢谢大家!

哎呦喂,太卷了, c d 点事儿的抱坐屁股还没坐热两天智普就帅出开元新秀, c k l 明晃晃来砸场子,我和提巴那瓜娃子立马搬起小板凳排排坐,脚晃悠前排吃瓜看热闹 啊!大家好,我是 t 八啊,今天给大家介绍一下这个 scale, 我 们先给作者点个 star 啊,这是智普开源的一个项目,我们要知道啊,如果说我们现在能玩到各种各样啊非常棒的这个视频项目,是要也是要感谢智普 啊,从他开源第一个开个 video 开始,我们的视频的生态开始不断的完善,所以说啊,智普在其中还是有非常大的一个项目,所以呢,他确实每年都会开源一些非常棒的一个项目, 甚至这次把它的以前的一个核心项目 autem 也开源了,包括像智普的 tts 以及实时的这个视频动画等等,包括这个 scale 的 项目,这个项目呢,是在 one animate 的 一个基础上进行一个啊构建的, 它里面最核心的一个点呢,是它的一个 n l f 的 一个三 d 的 姿态预估啊,它可以直接把我们的图像特征 啊,通过他这个编码的方式获得一个三 d 的 一个体速的特征,同时呢绑定五十五个骨骼的关节 啊,所以说呢,我们可以看到他的动态非常丝滑,尤其呢,在这样一个转身等等啊一些复杂动作的情况下,可以获得极大的一个提高。目前我们其他项目都是没有办法 获得这样一个提高的,因为我们大部分都是用的普通的骨骼图,当你转身的时候,经常视频是无法啊分辨这个问题的,我们要通过各种骚操作,包括提示词等才能获取。当然这个项目实际测试下来呢,还是有一些缺陷的, 包括因为目前 k j 的 一个复现的方式啊,还是不完整的,我们可以看一下,作者也说了,目前呢在多人的 姿态和渲染提取中呢啊,这个面部的这个跟踪呢,还没有复现。另外 kj 针对这个项目呢,也单独做了一个仓库啊,这是我们这个姿势的一个仓库 啊,也是要把它更新到最新的。首先我们还是先来个人力哈普啊,这是我最长的 ai 工作台,每天都会上传最新的工作流,我们通过剪辑去链接注册会送一千点,每天更多一百点。今天呢我已经把这工作流上传了,我们来一个一个给大家说一下啊,首先我们先说一下它这个核心节点, 这个核心节点呢就是我们新的啊这个预处理器啊,这 n f 也就是他的三 d 的 姿态预估的处理器啊,他呢是刚才说过了,他会处理到非常多的骨骼点,同时呢会做成一个啊柱状的啊,一个三 d 加上深度的这样一个参考图 啊。在这个时候呢,我们一共有三个连接进去的地方给大家看一下,一个是 nifpos, 一个是 dwpos, 一个是 reference dwpos, 那 我分别说一下他们的一个作用啊,这边呢为了直观呢,我给大家看一下,把这个三个拉出来, 那有的时候呢,我们用法呢是不一样的啊,首先我们说一下啊,当我们把下面两个全部关闭的时候,我们可以看一下啊, 这时候呢,他的骨骼他是不包含头部的,因为截止到目前呢, k g 还没有复现这个部分,我相信他后续肯定是会想办法的啊,如果说我们用多人或双人的话,我们一定要把下面两个给关掉,否则的话他这个头会来回跳动啊,那就出问题了。 那第二种方式呢,就是我们把下面的 ref reference 把它给关闭,这时候我们可以看到他头部是有最重点了, 对不对?那我们再看一下第三个,我们两个一起对比下,第三个呢是把所有的都打开,那从我们这边看上去啊,他是不是一样的,对吧?但实际的效果呢是完全不一样的, 我们来看一下这两个视频啊,首先来说,我们看到左边他的脸部变化更大啊,右边的脸部变化就少一点,这就是我们第三个接口啊, reference 这个 pos 的 它的一个用途,当我们把这个关闭的时候呢啊,他的脸部的 啊,一个效果呢,就会明显的一个下降,同时呢我们提示词也会生成一定的作用,比如说我们这边写,如果说是写女人在跳舞,那男性呢,他也会出现一些女性的表现,哪怕我们加上 reference, 这个我们看一下, 对吧?右边的啊,他的发际就成了一个女性的一个发际,所以说呢,提示词虽然不是最重要的,但是也会起到一定的一个作用。下面我们来看一下工作流的基础的搭建啊,以及一些注意的事项。首先来说呢啊,这个项目呢,他的分辨率不是特别高,如果说我们看过官方的企鹅跳舞 会发现啊,姿态真的是非常的好,但是呢明显就觉得啊,这个像素包括它的画面的质感啊,就是感觉远不如这个 steady dance, 那 我们来看一下,因为它是在五一二分辨率啊,进行一个啊训练的,那也就是说呢,差不多在五一二乘八九六左右, 但是我们可以适当提高,适当提高呢,对于我们面部的一个生成呢,是有帮助的,但是呢并不像 steady dancer 啊,把它生成到一二八零那么清楚。另外呢,这个项目呢,跟我们其他的还不太一样啊,它是一个 从头深沉到底的这样一个项目,所以说呢,随着我们的一个增数啊,加大他的时间呢成几何的一个上升。我们看一下 k 学在这边做的处理,是加上了上下文的窗口,甚至把这个重叠窗口呢加到了非常的大 啊,也就是说呢,如果说没有特别大的情况下呢,他的脸部包括整体的一个变化会比较大的啊,这呢就是跟他预训练,因为是在八十一针上的一个情况是有关系的,但是我们看一下,通过这个情况呢,整体来说还是不错的,对吧?我们看一下啊,整体还是不错的 啊,跳舞什么都是没有太大问题,可以看到啊,这脸部就是不是特别清晰,我已经到一二八零了,而且是相对来说啊,比较啊大的这样一张人物。 那这个项目呢,目前来说最好的部分还是他的一个转身,因为他是三体骨骼的,对于我们各种啊复杂动作,比如说有些转身的 啊卧倒的这种动作来说,那是有一个太好的一个帮助了啊,特别适合这种项目,而且呢啊像这种骨骼的方式出来以后呢,我相信有很多啊,其他新的项目也会陆续的出来,所以说这个确实是一个隐喻的事情,当然他不是专,他是个非常不错的一个项目。 其他还有个点呢,就是我们看到这边要做数学表达式除以二啊,因为作者呢是在以我们的啊原视频的基础上啊,除以二的 啊去训练的他的这个骨骼图,所以说啊,这个就是一个固定的格式,没有什么太大的意义啊,就是我们按照这样制作就 ok 了。另外有一个啊会容易导致报错,这个点给大家说一下,就是我们这个整除啊, k 值设置的是十六,实际上是不对的啊,这里整除一定要是三十二, 否则的话你在做一些特殊啊长宽的这图片的时候呢,他是会报错的,所以说呢,我们要把这个整除改成三十二啊。下面我们再说一下双人的局限性,我们刚才说过了双人,因为现在啊他在一个头部的跟踪,就是脸部的关键点还没有进行一个复线,所以说我们把这两个给关闭。 这个时候呢,我们来对比一下看一下啊,刚才呢给大家看了一下,就是我跟真真跳舞的这样一个视频,我们先把它给滤镜一下, 我们看一下在八十一帧的时候就是还可以,对吧,整体还是可以的,但是我们看一下在这边啊,两百多帧的时候,后续会发现脸部的变化啊,开始变大, 然后呢当我们人交错以后,可以看到变成两个真身了,对不对?这就是目前的一个问题啊,所以说呢, 现在双人呢就是可以做,但是最好呢是做一些,比如说像什么蝙蝠侠啊,超人啊这种,对吧?或者卡通角色,然后呢他可以有一些重叠,但是尽量不要姿态进行一个完全的一个重叠,然后再回退,这个时候呢就容易出现这样的问题。 下面呢我们再看一下啊卡通人物的一个复现啊,卡通人物我们看到啊,复现的效果也是挺不错的对不对?他对于人形姿态的实际上问题都不大, 但是呢,他对于这个头升笔是有一定要求的,当我们把头升笔啊压缩到一定的情况下,他就不行了,我们来看一下我们这个是差不多是五到七头升的,类似我们真人的这个比例。我们来看一下这个三头升的 啊,可以看到啊,三头声带,无论是你参不参考脸部,最后都会发生啊这样一个问题,也就是说他没有办法把它进行识别到他是一个中的人,他只能重新去构建他的骨架啊,所以说 啊,在这方面呢, steady dancer 还是有更大的一个优势啊。最后我们还是把这个项目总结一下,那从这个姿态的表现来说,如果说不转身的情况下,无论是长视频还是清晰度来说,我更推荐 steady dancer, 但是呢,这个项目的意义还是非常重大的,因为他直接把这个三 d 谷歌姿态的预估给时装了,那后续我们新的这样的项目就真的是未来可期了,所以说确实是个里程碑的项目。 第二点呢,也是非常啊期待 k j 把多人面部姿态的啊这个追踪点给加上,那到时候呢,无论是多人双人 啊,都是可以的,因为目前呢,官方已经支持了八人的一个获取了,所以说哪怕你到时候做个女团也是可以的。另外呢,期待后续啊更新的项目呢,可以把这个训练机啊继续提高,让他的整体的 包括清晰度等等,再次有一个飞跃啊,真的是非常不错啊,非常感谢智普,那今天呢课程就到这里了,谢谢大家,记得给 t 八点个赞。

智普 ai 刚刚直接偷加成功, g l m 四点七 flash 竟然时装了 deepseek 最火的 m l a 架构,三百亿参数推理时只激活三十亿, 在苹果 m 五芯片上就能本地起飞, api 还特么全免费,这波操作简直是不给同行留活路啊! 摇完架构,看看实测, g l m 四点七 flash 定位本地编程修复,直接干到五十九点二分,吊打同规模 q w 按三 二零零 k 上下文加持某一架构,把效率玩明白了,开发者们赶紧去薅羊毛。马斯克也兑现了诺言, x 平台推荐算法正式开源,核心全是 transformer, 从筛选、打分到排序,全流程 ai 化, 这对于做社交推荐和流量分发的即刻来说,简直是最高级别的教科书。不仅如此,微软研究院提出了多模态强化学习新范式 egotic verify, 它能像人类导师一样,在 agent 执行任务时进行实时多模态验证, 大幅提升了复杂任务的成功率。 agent 的 自我进化这下稳了。多模态这边复旦系团队摩斯智能上新了这款语音模型,在多项指标上击败了 g p t 四点五和 jimmy 二点零,延迟极低且情感拟人度爆表, 看来国产语音基座也要卷出新高度了。观众老爷们游戏代练要试验了!超参数科技发布 q 塔智能体, 虽然官方还没确认,但最近那个五十一小时台位胜率百分之九十三登顶韩服 lol 的 神秘账号,让大家都在猜是不是它 实时高频决策,思维链全程可见,这才是真正能用的游戏 ai agent。 老黄又在重新定义硬件了,它将存储定义为 ai, 运行内存,推动基础设施物种进化。 这意味着未来的 ai 数据中心将彻底解决存储瓶颈,算力利用率将迎来指数级增长。 聚深智能迎来曙光,三万五千小时训练数据打造的全球最强跨文体 v i a 模型发布,机器人终于能像人类一样理解跨场景、跨形态的指令,通用机器人的安卓时刻真的不远了。没数据怎么办?合成啊!拎邦迪卡拎开元,支持百分之一百生成式数据 自动训练聚身模型。这种以虚促实的方案,彻底解决了机器人训练数据荒的难题。开源社区 y y d s 资本市场也疯了, ansorpik 和 x i 前高管创办的休马斯斩获四点八亿美金种子轮主打以人为中心的 ai, 这帮顶级大佬聚在一起,怕是要直接挑战 openni 的 霸主地位。最后看看国内 mini 发布 ai 原声工作台 agent 二点零打通本地语音端, a 阵子能直接读你硬盘里的合同表格,还能操控网页办公。这哪是实习生,这简直是数字合伙人!从智谱的 m l a 架构到巨深智能的数据革命,两千零二十六年的技术爆炸才刚刚开始。想在 ai 浪潮里不掉队,记得关注天天降,咱们下期!

今天,中国 ai 圈又扔出了一颗核弹,智谱和华为联手开源了首个完全用国产芯片训练的多模态 s o t a 模型。这不仅仅只是一个新模型,更是一张中国 ai 自主化的毕业证书。那这件事到底有多牛呢?先说说数据,这个模型叫做 g l m image, 它从头到尾都是在华为深腾 atlantis 八百 t a 二芯片上做训练,用的也是华为自家的 mandose four 框架。这意味着什么?意味着从硬件到软件再到模型,全部是国产全家桶。以前我们训练顶级模型离不开英伟达的 gpu 和国外的框架,现在我们有了自己的全站解决方案。再看性能, 它采用了自回归加扩散解码器的混合架构,特别擅长需要复杂逻辑和精准文字说明的场景,既能理解你的文字描述,又能生成高质量图片。尤其是在中文文字渲染上面,已经达到了开源最优水平。 更狠的是成本,通过 api 生成一张图片只需要一毛钱,这比国外同级别服务便宜的多。速度优化版还在路上,以后只会更快更便宜。第二部分,我们再来讲一讲内在逻辑。为什么这件事是关键一步?可以用四个字概括,自主闭环。 ai 产业有三层,最底层的是芯片, 中间是框架,最上层的是模型。过去中国公司在模型层很活跃,但芯片和框架呢,却受制于人。 p r m m 业界的诞生,证明了中国已经能把这三层全部打通,形成了一个完整的国产 ai 生态。这也就意味着,即使未来遇到更严峻的技术封锁,我们也有能力继续训练和部署最先进的 ai 模型,这不仅仅是技术突破,更是战略安全的关键一步。 第三部分,对国内的 ai 产业会带来哪些影响?首先,企业的成本会降低,用国产芯片训练模型成本大幅下降,更多中小企业用得起顶级 ai 能力。第二,开发者的创新模型完全开源,开发者可以 免费下载微调二次开发,激发更多的创意应用。第三,行业应用加速,每张图一毛钱的价格,会让图纹生成、广告设计、内容创作等行业快速普 及 ai 工具。更重要的是,国产芯片和框架的成熟,会让 ai 更快的渗透到医疗、制造、交通等关键领域,推动产业智能化升级。 那第四部分,对未来整个产业的想象会有多大?放眼未来这场合作啊,会带来三个趋势, ai 芯片竞争会进入白热化,华为深层与英伟达的对抗将会更加激烈,国产芯片会在性能、能耗、性价比上持续优化。 国产生态 a i 崛起,更多公司会选择深腾加 mandosport 组合,形成类似安卓加 arm 的 国产 a i 生态。 全球 ai 格局重塑,中国不再只是 ai 应用大国,而是成为了从硬件到软件的全产业链玩家,全球 ai 竞争将会进入到双极时代。 最后,开源是关键,智普和华为把模型开源,意味着整个行业可以站在巨人的肩膀上快速迭代,这就是用中国 ai 的 开放打法,用开源凝聚生态,用生态推动自主。 所以, g l m image 不 只是一个新的图像生成模型,它是中国 ai 自主化的一座里程碑,是国产芯片和框架的毕业典礼,更是未来产业革命的起跑枪。从此, ai 世界不再是只有一条路。点赞关注,带你看懂更多的科技深水区!