什么? ai 可以 完全接管电脑了?没错,就在前几天, cloud 悄悄放出了一个重磅更新, computer user, 这个功能让 ai 走出了对话框,真正拥有了动手干活的能力。它用纯视觉方案可以像人一样看屏幕、点鼠标,操作电脑,执行任务。 也就是说, cloud 可以 真正的接管电脑。以往我们用的 ai 助手大多是靠底层代码驱动,跳过了前端界面,遇到浏览器或 office 这类可以调用接口的还好说,可是一旦碰上这些没有开放接口的软件,它就无能为力了。 cloud 这次带来的 computer user 功能,相当于给 ai 装上了眼睛, 不需要调用接口,而是能像真人一样识别屏幕,点击鼠标,而且它也可以通过手机跟电脑进行交互。看到这里,有的朋友可能会问了, open cloud 也可以用视觉方案呢?没错,但是它需要非常复杂的设置。 cloud 的 优势是能做到开箱即用,省去了复杂的配置流程, 再配合前几天更新的 dispatch 远程操控功能,只要你的电脑开着手机发个指令,它就能跨越空间帮你完成任务。这种视觉操控的闭环,让 ai 从一个对话框变成了真正能干活的数字员工。那 openclaw 是 不是该感觉到压力山大了呢?那你觉得这种长了眼睛的 ai 会是你提升办公效率的一个方法吗?
粉丝57.7万获赞628.5万

我是木木 ai, pc 真正的爆发点不是换新电影,而是电脑终于开始听懂人话了。可能很多人还没有意识到,下一代 ai 助手就在你的电脑里,因为它要接管呢,是你每天最混乱的文件、应用和设置。最近收到腾讯 mario 的 内测邀请,一个懂你又全能的个人 pc ai 智能助手。 跟其他 ai 助手最大的不同是, marvis 提供两种 ai 模式,一种效率模式,一种隐私模式。效率模式下可体验端云学通,又快又准,适合大多数用户。隐私模式下使用,端侧本地模型触及不出设备,最大程度保护隐私,适合有高保密场景的用户,比如你工作在敏感职位就可以用它。 这个产品设计真的很到位,解决了很多人在电脑上用 ai 助手的隐私顾虑。不过不同模式需要有不同的电脑硬件配置,使用前需要检查下配置是否够用。作为 pc ai 助手,最基本的文档和图库的分类、整理、搜索都能实现。在 marvis 的 厉害的地方在于电脑端和手机端的联动,手机上除了可连接的 marvis app, 还可以连接威信 cloud bot, 这对打工人来说太方便实用了。你们是不是经常下班后还收到老板找你要文件的需求?可电脑在公司,人在家里,这时候 marvis 就 能帮上忙。比如我在 marvis app 中让他在电脑上找到这份文件发给我, marvis 就 开始在电脑端帮我查找、搜索,最后准确地将这份文件传到我的手机 marvis 中。这下我可就能随时随地响应老板的要求了。 因为 marvis 是 一个操作系统层级的个人 ai 助手,所以它可以识别并分类电脑上安装的应用,除了可以统一管理和查找,还能让 marvis 调用应用来干活。比如我让他先调研下 ai 智能体社区这种产品形式,然后用我电脑上的 xmind 的 应用将结果梳理成 xmind 的 文档发我。 那么完成一份结构清晰的产品调研报告,输出了有问题还可以直接修改。这是给电脑上的应用直接装了一个 ai 大 脑呀,结合丰富的电脑应用生态,让我的工作效率翻倍。 更多有趣好用的地方。在技能广场,这里有各式各样的技能,在工具库中能找到来自几大重要源的 skill, 像 cloud, cloud have skill have key have 覆盖四个主要分类,最近很火的同事 skill, 前任 skill 都在这里面。我的技能里有技能市场添加,还支持 skill 外部导入,非常全面。 最近 x 上很火的 icicle 生成 html 网页,就可以用 front and design 这个 skill 来实现。我让它根据我刚生成的 xmind 报告,给我输出一个好看可交互的网页。 找到文档并生成网页后,可直接在浏览器中打开。这个页面审美和布局的质量都很高,可以侧边栏、盖栏交互定位,还能鼠标悬浮,高亮显示。结合多生态的 skill, mars 将一份枯燥的文字文档变成这么美观易读的页面,对我工作中的思路表达是一个很好的展示。 前是人学电脑怎么用,接下来可能是电脑学会怎么服务人,从找文件、调应用到安排任务。过去你要自己操作电脑,未来可能只要对他说一句话,真正的个人 ai 助手不是替你多打开一个窗口,而是替你少操很多心。记得点赞关注哦!

一个 ai 自己生成图片,自己写文案,自己排版,自己上传 tiktok, 结果五天播放量破了五十万,单条呢最高二十三万,其中有四条直接破十万啊,人家呢,只花了六十秒,自己加个音乐,然后就点发布就可以了。 马上过年了,很多人都在想明年该怎么搞钱,怎么搞流量。那今天呢,我就给大家讲一个可能改变二零二六年你一整年效率的 ai 新玩法。但是先别着急啊,这个故事最精彩的部分并不是它的结果有多烂啊。 这个故事啊,是来源于硅谷的一个程序员,他想用 ai 来帮他去做自媒体。但是啊,这个 ai 刚开始生成的图片尺寸是错的,横屏的,而且发到 tiktok 上面全是黑边,文字叠加太小,被 tiktok 的 状态来挡住,用户根本就看不见,写的标题呢,全是自嗨型的 什么?看看 ai 觉得你的房间能变成什么样,结果就有八百多个播放。所以一开始啊,这个 ai 就是 个废物,哎,是不是跟你的感觉差不多啊?我们有多少人都觉得 ai 现在连个 ppt 都做不好,连个视频都做不出来,对吧?但是为什么它现在能从一个废物变成一个比人还强的 ai 呢?答案呢,就是一个东西叫 skill, 中文呢,可以翻译成叫技能, 那 skill 是 什么呢?其实就是一份文档,用来教 ai 怎么来做这样具体的事。你可以把它理解成一份超级详细的员工手册,不是那种好好干活的废话手册啊,是精确到每一个细节的操作手册, 它不是代码,它就是自然语言,中文、英文都可以用。比如说,这个程序员啊,它的 tiktok skill 呢,它就超过五百行。那它里面写的什么东西呢?比如说啊, 图片必须是幺零二四乘幺五三六的,竖屏不能用横屏。比如说啊,文字大小必须是图片高度的百分之六点五,不能是百分之五, 文字位置不能太靠上,否则呢,就会被 tiktok 的 状态栏给遮挡。每条内容呢,必须六张图,不多不少。 标题呢,必须用某个人加冲突加展示,加 ai, 结果加对方改变想法的这个公式,甚至连生成图片的提示模版都写死了, 房间的尺寸,窗户的位置,门的方向,天花板的高度,地板的材质,全部锁定。六张图,只改风格,不改结构。那为什么要这么写呢?其实因为 ai 每一次启动的记忆都是空的,他根本就不记得上次犯了什么错,他不记得哪一个标题爆了,哪一个文案拉了。而 skill 呢,就是他的记忆,就是他的经验,就是他越来越强的原因。 而且这个 ai 甚至自己都说了这么一句话,我觉得呢,非常到位。他说每一次失败都变成了一条规则,而每一次成功都变成了一个公式。这就是 skill 的 本质,它让 ai 有 了复利效应。你想想,一个新员工入职,你要花多长时间去培训他? 三个月,半年,甚至是一年?而且呢,它还会离职,经验直接给你带走。但是 skill 不 会,它呢,永远在那里,每一次的迭代啊,都在原来的基础上叠加。 ai 坏了, skill 还在,而模型升级了, skill 照样用。所以呢,这个程序员的 skill 啊,从第一周 skill 就 改了二十多次,从 图片尺寸的错误,到文字被遮挡,再到标题没人点,每踩一个坑就往 circle 里面去加条规则。那到了后面呢?他写的标题呢,比人写的还好。比如说,我房东说不能装修,我就给他看了 ai 觉得能改成什么样,直接二十三万播放。 我给我妈看了, ai 觉得客厅能改成什么样,十六万播放。我房东不让我装修,直到我给他看的这些十四万播放,全是 ai 自己写出来的, 人只是挑了一下,然后点一下发布。所以你看啊,真正厉害的不是这个 ai 模型本身, gpt 也好啊, cloud 也好,豆包也好,千文也好,模型大家都能用,真正拉开差距的是你给 ai pay 的 skill, 那 同样的模型没有 skill, 它就是一个只会聊天的机器人,而有了 skill, 它就是一个能帮你赚钱的数字员工。而且 skill 的 应用啊,远不止发 tiktok, 也不只是用在某一个平台。你是做电商的,写一个 skill, ai 帮你全自动分析你店铺的差评,提炼出产品的感情方向,还能自动生成客服的话术。 你是做自媒体的,写一个 skill, ai 帮你追热点,写脚本,选择题,甚至自动生成封面。你是做外贸的,写一个 skill, ai 自动监测海外社媒上用户的提问,用当地语言秒回, 二十四小时不停。你是做投资的,写一个 skill, ai 每天早上自动帮你整理行业的资讯,财务的招标,疫情的变化,发到你的微信上面。甚至啊, 你是学生,你可以写一个 skill, 让 ai 自动帮你整理课堂笔记,生成思维导图,并且按照你的薄弱点来出练习题,这都是 skill 已经在做的事情。 而 skill 的 威力就在于它把你的经验,你的判断,你的方法论全部沉淀成了一个可反复执行的文件,那你就不再是一个人在战斗,你有了一个永远不会累,永远不会忘,而且越来越强的搭档。 这就是为什么最近爆火的 openclaw 能帮你干活,因为它有一个庞大的 skill 市场,它可以随时加载你自己的 skill。 当然了,不止于此啊,只要你有了一个 skill, 你 就可以把它上传到 openclaw tree、 扣子,甚至是你公司的每一个虚拟工会上面。 新的一年马上开始,当别人还在手动搬砖的时候,你可能已经有了一个能自我进化的 ai 员工,这才是 ai 智能体。真正的玩法 不是跟 ai 聊天,而是教 ai 干活,而教 ai 干活的核心工具就是 skill。 那 skill 到底怎么写?怎么样才能让 ai 真正的变强?这里面有非常多的细节和技巧,想深入了解的可以预约我春节期间的直播,我会把 skill 的 设计思路,还有实战案例全部拆解给你。我是 c 哥,点赞关注,咱们明年见!

opencloud 装完,先别急着用技能商店上万个 skill, 但真正的底座就这六个,排行榜安装量最高的一条命令全装完!第一个, agent browser 浏览器自动化, 让 ai 自己去操控浏览器,点按钮、填表单、截图、下文件,连动态渲染的页面都能读,相当于给 ai 装了一双手。第二个, heavily search, ai 专属联网搜索,返回结果没广告,结构化输出,直接给 ai 消费网页正文,自动提炼关键信息, 你的 ai 终于不用靠过期知识回答问题了。第三个, self improving agent, 自我进化,记住你的代码风格和习惯,从每次出错中学习,自动修复, 跨绘画,保持记忆,越用越懂你,效率越来越高。第四个, find skills 技能,发现神器,像逛应用商店一样搜索 skill, 自然语言描述需求就能匹配排行榜推荐加批量管理,升级回退,一站搞定。第五个 skill vendor 安全审查官,装任何 skill 之前,先让它扫一遍,检测恶意代码拦截权限越界,阻止隐私泄露,出具安全评分报告, 相当于给工具链装了个门禁。第六个, email management 邮件管家, ai 帮你读邮件,写回复,自动分类整理常规邮件,直接朝你发送。 gmail、 outlook 幺六三 qq 全都支持。

openai 推出了它的最强模型 g p t 五点四,可以说直接粉碎了 java 三点一 pro 和 cloud open 四点六的神话。这里面最有强力的是 g p t 目前已经可以真正的原声地实现电脑使用了,办公的效率可以说直接拉满。这个我觉得跟 open cloud 推动的方向呢,也是比较一致的。 先快速看一下它的一些基础数字。本次呢, g p t。 推出的是五点四的 thinking 和 pro 开发测呢,推出了 api 和 codex, 并且附带极速版的五点四 fast。 在 一些指标上,比如 g d p l s w e h pro a r c a g i 二这几个指标上都拿到了第一名,超过了 jimmy, 超过了 office。 比较有想象力的呢,是一个所谓叫原生电脑使用能力,什么意思呢?就是 g p 五点四可以通过 playwrite 等酷编辑代码来控制计算机,也能直接通过看屏幕截图,动用鼠标和键盘,比如说发邮件,排日程,填表格,好流程这些以前需要点来点去的活呢,在 g p t 五点四上面都能直接实现了。这份很多工作原来是通过工具的,比如说 browser use g p t 呢,现在是把这份能力内化到模型里面。在 o s word verified 这个指标上, g p g 五点四呢,刷出了百分之七十五的成功率。一个月前登顶的 cloud ops 四点六呢,也不错,是七二点七。而人类呢,在这个指标上的成绩呢,只有百分之七十二。换句话说呢,其实它们都超越了人类控制屏幕上的效果了,比人更会使用电脑。 直接影响呢,就是整个的分析师的这个行业,应该说华尔街的一系列的分析人员呢,都可以被 ai 替代了,这里面呢,包括比如说销售的演示文档,会计的电子表格,急诊排班表,制造图表、短视频等,全部要求 ai 真刀真枪的交付工作产出。 目前呢, g p t。 五点四呢,已经能非常成功的做出 ppt excel, 比绝大部分的专业人士还要更好。有内部的班主榜表示呢,人类在百分之六十八的情况下,更培养 g p t。 五点四胜任 ppt, 而不是人类自己胜任 ppt, 因为它的美观度更强,视觉更丰富,图像使用也更高效。换句话说呢,现在每一次的模型的升级,都把一些 ajax 的 能力,包括一些办公的能力以及功率使用的也都累化了。 g p d。 五点四也是 open ai 迄今为止 token 效率最高的推理模型, 解决同样的问题的情况下,所需 token 大 幅下降。 codex 在 fast 模式下,其 token 的 生成速度最高可以提升一点五倍,同样的智力,同样能力,只是快了百分之五十。 这里重点介绍一个他们很有趣的一个场景,就是 g p d。 五点四呢,发布了一个实验性的 play right interactive 技能,让 codex 一 边构建 web 应用,一边呢,在浏览器上通过 play right 格式化的调试测试,可以理解呢,这是一个双方拉扯的关系, 生成者呢,就是 codex 通过网页来构建,而测试者或者说是评估者呢,是通过他的 play right, 通过屏幕操控电脑来测试效果。所以呢, open 团队也给了一些比较有意思的案例,比如说主题公园的模拟游戏, 凭一个提示词呢, gpt 五点四就能独守的搓出一个完整的经营类的游戏,在游戏的建立过程中呢, gpt 自己呢,又作为一个裁判员 来实现一个全自动运行的检测,从扩建到拆除的整个流程的检测,保证呢,整个的功能呢,是足够丝滑,体验的足够优质,还算达标。所以呢,其实是一个自我进化的,有点像强化学习的一个能力。类似的,比如说战旗 rpg gpt 五点四通过一款回合制的网络战斗游戏, 包含移动行动、站立和遭遇战等完整系统。 playrite 呢,又充当了每一轮携带中的验证界面交互检查并微调 u i 行为的检查员,直到战斗手感、视觉表现和整体的体验全部调优为止。下一个场景叫做金门大桥的飞行体验, g b 五点四呢,可以生成一个超写实的三 d 场景,而 playrite 呢,化身成一个王牌飞行员,作为一个模拟用户的体验,来通过多视角的全自动的巡航的测试,最终呢,保证产品的渲染的效果的稳定性。 通过一小时的高频的迭代呢,最终完成了整个效果的验收。当然还有一系列的 g p t 五点四的性能提升,包括 token 达到了一百万的上下文,包括整个速度和效率的提升,以及幻觉的下降。这些呢,我就不一一来分享了。 有一个比较有意思的产品上的一个功能, g p 五点四编辑呢,是支持随时介入,也不会打断思路。换句话说,你在运行 g p t 输出答案的过程中呢,你可以随时加入新的条件跟注意因素,如果 g p t 还没有输入结果之前,它在编辑的过程中是可以接收更多的信号和信息的。 接下来我觉得 g p t。 五点四的发布呢,是 openai 对 于 jammer 三点一 pro 跟 cloud opera 四点六的一次全面的反击。虽然目前的价格还是很贵,但是可以看出整个的 g p t。 五点四的芯片呢,是没有短板,从推理到编程到视觉的工具使用计算机操作,网络搜索支持工作,每一条线呢,都拉到了顶级的水平。 价格呢,当然短期还不是 g p t 需要优化的点,但是他们回到了真正的铁王座之后呢,对市场也是一个非常有效的回应。当然了,随着 ai 这一波竞争呢,大家能看出来,整个的 ai 颠覆 目前数据来看的话,整个炸子行业呢,已经跌到了二零二四年疫情刚结束这段时间的一个低谷了,按照目前的趋势来看的话,整个的 ai 的 发展速度只会越来越快,无论是 openclaw 还是 cds, 还是这轮的 gbt 的 五点四的提升, 以及一系列的开源模型的升级,我们也希望呢,能看到巨源的速大模型不断的去开启新的领域的升级,让我们看到更多的可能性。这样呢,让整个 ai 发展呢,不至于局限在目前能看到这应用场景。这次呢,我觉得 oppai 的 g p t。 五点四对于电脑屏幕操作的这一个方向呢,又开启了新的里程压力。

小龙虾现在可以完全控制你的电脑了,不是通过代码,而是直接可以看到你的电脑屏幕,比如说呢,你让他通过微信呢发送消息等等啊,想象空间还是非常大的。那么要实现这个功能呢,你需要有一台苹果电脑,然后呢,安装这个叫做 pickpocket 的 软件。安装好之后呢,你就可以使用 opencloe 通过 pickpocket 来控制你的电脑, 他可以通过截图的方式呢,看到你的电脑界面,包括每一个按钮,每一个文字。然后呢,他还能够理解你的软件界面的操作逻辑啊,是应该先点击按钮,还是需要滚动和拖拽,哪里是输入框等等啊, 甚至呢,他还能够处理弹窗信息,这意味着通过 ai 来控制电脑终于可以实现了,他不需要软件适配,而是真正像人一样,通过眼睛看,通过手来进行操作,这是真正通用的控制方式。 如果你需要安装这个软件呢,我已经将安装包呢放到了本地,你可以直接进行下载。里面呢还有操作和安装的一个步骤啊,想要使用的在视频下方告诉我。

我现在打开了一个联网麻将游戏,甚至还没出第一张牌, ai 就 自己看着屏幕,从头到尾帮我打完了这一局。这事挺有意思,最近麦塔开始记录员工的鼠标点击、键盘输入,甚至屏幕操作,用来训练 ai。 说白了, ai 如果想真的替人干活,就不能只会聊天,他得先学会人到底怎么样去用电脑。但我没想到,这一步可能真的要来了。 我刚刚使用的是一个完全开源的 t u i 感知智能体 mano 杠屁!他能以纯视觉的方式去理解和操控你的桌面,帮你处理复杂的工作流, 就像这样跟个真人一样看着真实界面,理解按钮、窗口和操作路径。比如我自己写了一个番茄时钟应用,只丢给他一句帮我测试一下,他就会自己打开页面,开始暂停重置,一步一步点完,甚至连异常情况也自己试了一轮。整个流程我没有点一下。那些原本你必须亲自动手点的操作,现在 ai 都可以替你完成。 当电脑不在身边的时候,这个模型的能力就太实用了。就像这样,我直接在非处理丢一句,把电脑桌面里的这段视频发到我微信上,你看他就能自己打开微信,还能精准的找到我的头像,把文件发过来。我还试了一下,让他帮我处理更复杂的任务。 比如我让他把这段视频放进剪映,加上字幕,再导出成片。 ok, 等我回到电脑前,这个视频就已经处理好了。这才是这个开源模型最硬核的地方。玛瑙钢批不只是能帮你做几个简单的点击,而是在怎么用电脑这件事情上,已经在全球多摩太十三个榜单里拿到了搜塔。更重要的是,这一切都是在本地完成的。该模型可以直接跑在 m 四芯片的 mac 上, 你不用接 ip, 数据不会上传到云端,截图文件、操作记录全部留在本地,这样你才敢把真正重要的资料和任务。 而且他的开源协议很友好,开发者可以继续二次开发,接入自己的工作流。这意味着,借助 model 钢皮这款纯视觉方案的开源模型,你完全可以在本地部署之后把屏幕交给 ai, 不是 在云端不属于任何平台,而是在你自己的电脑上,让他安全的帮你处理多样化任务。私有化 ai 的 时代,这回是真的要来了。

hi, 大家好, figma make 在 上周支持了 skill 的 功能,然后呢,这一次这个视频我们就大家一起来体验一下这个 skill 到底怎么用,好不好用。 我们打开 figma make, 点击前面的加号,会发现多了一个 skills, 然后这里有创造 skill 还有管理 skill。 我 们先从习 skill 开始, 点开之后有两个选项,一个呢,一个是从电脑本地导入,还有一个就是写,那我们就直接先从写开始啊,这里呢会有一个 skill 名称, skill 描述,还有 skill 的 内容,让我们先随便填一下。 到了 skill 内容这里呢,我们肯定是不要自己写,然后我们接着还是打开 codex, 然后让 gpt 来给我们写一个 ui skills。 这里呢,我还是以嗯晒思恩为例,就是我们之前视频里有推荐过这套组建库,然后我也还是用这一套组建库来写一个 skill, 我 们来应用一下试一试。 在等待了一段时间之后呢,呃, codex 已经把 skill 帮我们写好了,这个时候呢,我们过来预览一下看一看。因为这个时候其实我们也找不出什么问题,因为我们并没有提出什么特别的要求,我们就只是让它来应用这套组件库而已。 那我们就看一下,然后直接复制粘贴到 fake 码中去, 粘贴完成后,我们直接去点击保存即可。这时候我们再回到 figma make, 然后点击加号 skills, 发现有一个 use skills, 然后刚刚我们创建的 skill 已经出现在这里了。 接下来我们就来测试一下这个 skill 它到底有没有生效。然后呢,我让 figma make 给我做一个宠物社交类的产品,包含 web 端和移动端, 然后呢给了它一些嗯主要的功能,比如说呃电商啊,社交啊,还有个人宠物的这样一些界面,然后让它来给我去完善,就是我只提出一个非常模糊的需求,然后这里在模型上我选择了 cloud cloudsonnet 四点六,因为 oppo 的 四点七它所费的点数会非常的多。 然后在 figma 干活的期间呢,我就给大家再次安利一下这套组件裤,它是一套 开源的组件库,免费的,而且呃它所适配的场景啊也非常的多,大家可以看到现在这我在看它的组件列表,反正这些组件基本上已经覆盖了我们常用的一些功能, 然后我们就可以一起简单的看一下它的样式啊,代码呀,然后安装方式啊,链接就在这里。如果说前端想要使用或者我们自己想要使用这套组建项目的话,可以直接点击右上角到它的 github 链接,然后从 github 上直接下载就可以了。 如果想要在 figma 中使用这套组建的话,其实到社区里面,然后直接输入呃组建库的名称,就会发现其实在呃我们的社区里面有非常非常非常多的这个组建的资源,我们可以直接拿来用就行。 在又等了一段时间后呢, figma 终于把我们的需求给做出来了,我们来一起看一下吧。 首先要说一点,就是呃 fake mac 打出来的东西的质量其实还是跟模型有正相关的,然后我们通过 skill 来约束之后,其实更多是在设计和审美层面 给它做一个规范化的约束,但是像我刚刚给了一个非常模糊的需求,然后它具体能把这个需求完善成什么样,还是需要根据模型能力来看的。 呃,我们快速的浏览点击一下,我们的现在完成这个产品好像是还不错,它把功能完善的很闭环,而且呃界面呀,组件使用也完全遵循了这套组件库的规范, 并且它还做了移动端。这时候我们看一下这个卡片规范是不是和它组件库中的组件规范完全一致,是完全一致的,没有问题, 接下来呢,我们来说一下很多设计师忽略的问题,就是 figma make 完成设计之后里面的这个代码, 这个代码其实它是已经是一个完整的前端项目文件了,如果说你所使用的 skill 里面的组建库和前端使用的组建库是一致的话,那这套代码其实可以完全直接拿给前端来用,那我们先把它下载下来, 下载完成之后呢,我把这个文件直接丢给 codex, 然后让 codex 把这个项目在我本地的前端跑起来,我们来看一看它是不是能跑成功。 codex 跑完之后,我们一起来看一下啊,这个项目已经在我们的浏览器中跑起来了,并且外部段和移动段也都做了适配,所以呢,我们的设计师在 fake map make 升完图之后,千万不要直接把它当做图无赖用了,它还有更多的用处,代码也是完全可用的。 那第一种直接在 fake mark 里面写 skill 的 方式我们已经尝试过了,接下来我们来试一试。第二种从本地导入 skill 的 这个方式,看看怎么样? 我们再次打开 fake, mark make, 然后点击前面的加号,然后去找到创建 skill 的 这个地方。接下来呢,我们使用一个之前视频里有用到的我们写的 on the design 的 skill。 呃,看过之前视频的同学应该还记得,在这个 skill 里面,我把主题色的蓝色改成了橙色,所以呢,当这个 skill 上传上去之后,它是否生效,我们是很容易进行验证的,所以我们把里面的 skill 文件,然后直接去 呃上传到 facebook 里面,然后我们再来试一下。为了方便区分这里,我直接就叫 ant 点赞杠 ui, 然后杠 orange。 然后呢,我们点击加号,然后 skills use skills, 然后选择我们刚刚创建的这个 skill。 为了能更好地看到效果啊,所以我是让它去做了一个弊端的流量使用和 token 使用的这样一个项目,因为这种项目来说,它所用的图标会比较多,然后验证我们这个 skill 中成色有没有生效的。呃, 视觉辨别方式也更简单。好,现在我们的项目已经构建完成了,让我们可以看到我们的 skill 生效了,它是以 ant 组建为基础,然后以我们的成色为主要颜色。 那其实,呃,在今天我们一起调研完这个之后呢,我们会发现,这个 skill 无论是在 figma 中还是在大模型中,它们所完成的工作是一样的,都是对模型所输出的结果进行一个控制和约束。 但是我们会发现它的交互逻辑是完全不一样的, figma 还是更偏向于设计师层面的交互,让你直接能看到你所出的东西是不是符合 skill 预期的, 而且这个东西其实在 figma 中它更多的还是我们最开始所说的 u i skill, 而不是说像大冒险中它可以用 skill 去做任何任何更多的事情。

打开剪映,帮我剪成视频。 nice! 这个不是 cloud bot, 但我愿称之为国产之光。因为它去除了所有繁琐的部署流程, 直接下载安装就可以使用,而且完全免费,不需要消耗自己的头壳。同样支持飞书、钉钉和 qq 来操控电脑。而且我个人认为它的操作反馈是大于 cloud bot 的。 你看它在操作的时候,边框还有一个高亮显示, 这样会明显的感知到他正在控制你的电脑接入流程。他们还给你提供了保姆级的文档,只需要填入 app id 和 secret 就 可以马上接通。建议所有想拥有超级电脑的宝子赶紧给我充,因为真的太简单了!如果你拥有了这台超级电脑,你最想用来干什么?评论区留言。

没有 api 接口怎么办?今天这个项目正好解决这个问题。它叫 c u a, 它不是普通聊天机器人,也不是一个单独的大模型,你可以把它理解成一套让 ai 真正操作电脑的工具。什么意思? ai 可以 看屏幕、点鼠标打字、打开浏览器、执行命令,甚至在一个虚拟电脑里完成任务。它解决的问题也很直接,很多软件没有 api, ai 没办法直接调用。那怎么办?只能像人一样去看界面、点按钮、填表格, 而 c u a 做的事情就是给 ai 配上眼睛和手。那小白怎么理解它?你不是直接拿 c u a 来聊天,也不是装完它就能马上赚钱。更准确地说, c u a 是 用来搭自动化 agent 的 底层工具。 比如,你可以让 ai 自动打开网页、搜索资料、登录后台,下载报表、填写表单、操作浏览器、测试网站流程,甚至控制一个虚拟电脑完成一整套任务。 如果只是体验基础功能,你需要会一点 python 和 docker。 如果想让它真正变聪明,还需要接入大模型 api, 比如 cloud gpt、 gemini 这类模型。所以,它不是小白开箱即用的工具,还是偏开发者。它的优点很明显,第一,想象空间大, 未来很多 ai agent 不 只是聊天,而是真的能操作电脑,完成任务。第二,它不止支持浏览器,还能做桌面级自动化, 这比普通网页自动化工具更进一步。第三,它有沙盒环境, ai 可以 在虚拟电脑里操作,不容易影响你的真实电脑,安全性更高。 第四,它适合做企业自动化,比如自动进后台,下载数据、整理表格、生成日报,这类场景是有商业价值的,但缺点也很现实。第一,门槛不低, 小白直接上手会有难度,需要懂 python、 docker、 api 和虚拟环境。第二,成本不一定低,如果用大模型识别屏幕,判断下一步,每一步都可能消耗 api 费用。第三,稳定性是问题,界面一变,弹窗一出,按钮位置一换, agent 就 可能点错。 第四,它不是完整产品, c u a 更像底层基础设施,不是一个开箱即用的 ai 助手。所以我的判断是, c u a 很 有价值,但更适合二次开发。 如果你想商业化,不要卖,我封装了一个 c u a, 这个说法太抽象,用户不一定买单,你要卖的是具体结果。比如我帮你每天自动下载电商后台报表,我帮你自动整理竞品数据,我帮企业把重复的软件操作自动化,我帮你做一个网页调研 agent, 这样才更容易收费。 一句话总结, c u a 是 给 ai agent 的 操作电脑用的基础设施,它很强,但不是小白急用工具,真正的机会不是卖工具本身,而是基于它做垂直自动化服务。

你敢相信吗, ai 现在不仅能坐在对话框里跟你聊天,甚至已经学会亲自握住你的鼠标来替你上班了!就在昨天,硅谷巨头 antropica 正式引爆了 ai 圈,宣布 cloud three point five sonic 已经进化到了能直接接管你电脑桌面的新高度!这绝对是 ai a 阵赛道上一次堪称破壁的史诗级更新。 这项被命名为 computer use 技术不再是过去那种死板的后端接口调用,而是让 ai 真正长出了一双能看懂 ui 界面的眼睛。它会通过实时抓取屏幕截图,并结合逻辑推理,像真人一样在你的桌面执行移动光标、点击按钮,甚至跨软件填写复杂表单的操作。 最让人直呼离谱的是,配合最新的 dispatch 远程协助工具,你甚至可以在通勤路上用手机给远在办公室的麦克下达指令,让 cloud 默默帮你处理完那一百五十张代导出的照片,并自动挂载到会议日程里。 虽然目前这个功能在研究预览阶段还像个稍微有点笨拙、偶尔还会迷路的实习生,但这种让 ai 跨越软件孤岛, 在不同应用间自如穿梭的大局掌控感,正清晰的向我们宣告,未来的生产力极限将不再取决于你敲击键盘的速度,而是取决于你指挥这个虚拟员工的想象力。 当 ai 真正拥有了观察世界的眼睛和操作工具的手指,我们熟悉的传统办公模式或许已经走到了彻底谢幕的前夜。