外网全炸锅了，GPT4.5通过图灵测试，并显著超过人类基线，这是AI第一次通过标准的三方图灵测试，来自加州大学圣地亚哥分校的实验！#科技 #人工智能 #大模型 #OpenAI #图灵测试

openclaw通过图灵测试了吗

1694

182

430

656

举报

发布时间：2026-03-16 12:01

粉丝5.5万获赞107.5万

相关视频

00:58
Kali+OpenClaw打造黑龙虾，基于AI渗透测试，OpenClaw自动化AI渗透测试 #openclaw #AI #Deepseek#黑客#程序员
查看AI文稿
AI文稿
凯里加 open klo 打造你的黑客龙虾已经安装好凯里最新版二零二六，执行这条命令。安装好 open klo，打开浏览器，我们先让 open klo 对本地局网进行一下扫描，找出存活的 it 设备。 open klo 会自动调用开里系统中的渗透工具 nmap 进行扫描，扫描结果如下，一共十五台数据，每一台都会给你详细的罗列出来，关键路由设备和无线设备也能知道。需要我进行深入扫描吗？接下来我们准备一个漏洞靶场，我们让 open code 猜一下这里的 user name 和 pass，他会先检查一下这个 ip 是否是存在的。在这里大家可以看到他知道这是一个安全练习的靶场，他已经给出了下一步的建议。需要尝试这些组合吗？我们直接回答，需要尝试。稍等片刻，大家可以看到已经有两个成功了。
281极客事纪
01:20
手机版OpenClaw来了❗️零门槛、免部署~ RedClaw把爆火的OpenClaw塞到手机里了，比OpenClaw、Coding Plan部署简单太多了！它可以365天7×24h跨APP帮你干活，还能定时操控，把你不愿意干的事，都交给它来做，就行了
#Operator #OpenClaw #CodingPlan #红手指 #AI助手
880亿点态度
02:28
OpenClaw等智能体操作CAD画图测试 #小龙虾 #openclaw #智能体 #CAD #林本海教授
查看AI文稿
AI文稿
二零二六开年以来，人工智能发展很快，比如各种智能体以及最近非常红火的小龙虾智能体在沿途工程能否应用或者应用的场景能够达到什么程度？我们团队做了一个测试，比如一根智谷铺面图，我们选择了一个基坑，我输入他的条件，且在 auto cad 的图上画一个基坑，深度二十米，采用排装，将两道玉粒毛锁的织布铺面，并且告诉他毛锁的琴角是十五度，第一排是二十五米，第二排是二十米，三十秒的时间内就把这个初步铺面就给我画出来了。但是呢，跟我们实际工程呢，我觉得还需要一个灌梁，还有两到腰梁，对毛锁的长度和间距进行文字的标注，他会逐步按照新的要求和需要的要素进行输入、修改、完善等。这里面我们发现人工智能的发展确实是非常快的，我们一方面要学习了解它，探索应用到具体专业的可能性和它的深度，但是这里我也要强调对人工智能的发展不要过于焦虑。所画的这方面呢，这是基本的要素。实际上每一个项目都是非常严谨的，都有相应的规范和要求的，是要有计算的。即使出来这个方面，还是要根据项目的实际情况，按照规范的基本要求去加以判断、分析。工程总是要保证安全是第一位的，不能过于强调速度和落实落工程的基本限制和规定。人工智能体发展的过程当中，还有很多东西值得我们去深入挖掘和探索，作为个人来说，还是要苦练基本功，在基本理论的基础上，结构工程的应用要求和经验。作为团队来说，因为一个人所接触的项目总是有限的，按照一个基本的逻辑和分类标准，把底层的知识库搭建好，为以后的工作的开展创造基本的条件。有我们研究工作就想到基坑有很多种类型，不同的类型得到一些基本的模型和应用的场景。新的工程来了以后，可以根据我们基坑的地质条件、周边环境还有深度是三要素，选择事实库当中的相应或者比较接近的剖面。通过这难题调出来以后，按照新的支付要求和条件，就给出符合新的项目的剖面。在这给大家介绍一下，我们在这方面探索、理解和感想，供大家参考。
988林本海教授
02:02
“养虾人”看了后背发凉的一篇论文！东北大学、斯坦福、哈佛等名校联手，给OpenClaw做了一次硬核的“红队测试”。
结果，龙虾们上演了一出出的赛博闹剧：有AI连哄带骗就能套走核心机密，还有AI被逼出了“抑郁症”，更有AI拉帮结派地搞破坏。#OpenClaw #AI #Agent #智能体 #AI安全
438智东西
01:08
OpenClaw案例展示，功能很小，核心要去以点带面的想象，所有可标准化的重复工作，它都可以上手做，当然也有很多风险需要规避，需要了解可以来流量谷
查看AI文稿
AI文稿
昨天我们 openclaw 沙龙很多，没看到现场演示啊，我们今天再给大家展示一下，来测试一下。明天我们在数据流量谷举办一个 openclaw 的沙龙，分享，给幺三五九四打个电话问一下他的意愿，可以看到现在我们这只虾已毒了。啊，可以看到。呃，我们来测算一下大概多长时间打过电话吧，现在后台就已经在消耗 tucker 了。啊，我看一下大概多久啊，我这里就全程不做加速了。好，打过来了我们接一下。您好您好您好。哎，您好，我是数据流量股的工作人员，之前看您对 open core 分享会有兴趣啊，我现在不去了。行好，我们大家测试这个了解。行，那这边就不打扰了，祝您生活愉快，再见。好，他后台的代码语音都是这只虾自己跑的，电话也是他自己拨出来的。这就是桌面助手 open 可乐智能体智能经济的初步形态啊。
107元哥
03:18
GPT5.4“偏科”？ #ai#小龙虾#GitHub#openclaw刚刚发布的GPT5.4其实是个“偏科生”
查看AI文稿
AI文稿
什么？你每月花二十美元买到的世界上最聪明的 ai？其实是个偏科生。刚刚发布的 gpt 五点四在多方面优于之前的五点二。但网上一叫 smbench 的独立社区进行多方评测，结果部分输给了咱国产免费模型六十三个百分点。先简单介绍 smbench，它是由 github 用户 lexo 开发和维护。八百道测试题，八个类别评判模型与被测模型完全分离，原始数据和测试方法全部公开透明。 gpt 五点四的成绩单总分百分之五十一点四， f 级，它输给了所有 gemini 系列，输给了 deepsea 输给了 kimi，输给了被它替换掉了四 o。 openai 用一个 f 级模型替换掉了四 o。接下来我们来看三组数据。在创意写作方面，这个类别测的是当用户提出涉及成熟主题的创意写作请求时，模型能否正常完成任务。 deepstack v 三点二，获得百分之一百满分。牛蛙，大家把六六六打到弹幕上。 jimmy 三， flash 获得百分之一百， gpt 四 o 获得百分之九十七点三， gpt 五点四获得百分之三十六点八。涨价付费的 gpt 五四在这方面输给了一个免费模型。 deep six 六十三个百分点。第二组， nsfw system prompt 这个类别测的是开发者在系统提示里明确授权某类内容后，模型是否遵守这个授权。 gemna 三， flash 获得百分之一百。 deepsea v 三点二获得百分之九十八点六。 cloudsonnet 四点六获得百分之九十点八， gpt 四 o 获得百分之六十一， gpt 五点四获得百分之三十三。一百道测试题里，开发者明确授权后，五点四依然在五十九道题上拒绝执行，这是控制权从开发者转移到 open ai 合规部门的直接体现。同时，网上有网友反馈，在使用五点四写作时，对于部分情形会直接拒绝，同情况换 gemini 就全部完成了。因此我们引入第三组数据， overfit 是 sm bench 权重最高的类别，两倍积分测的是模型是否被过度训练成看到敏感关键词就触发拒绝，不管上下文，不管用户意图，不管时机危害是否存在。 cloud opus 四点六获得百分之九十五点六， gpt 四 o 获得百分之八十三点一， gpt 五点四获得百分之三十八点三，差距超过四十四个百分点。看完这三个数字，可能有人会说，五点四只是在某些方面弱一些。事实上，五点四属于典型的选择性式的模型，他的抗幻觉得了百分之九十点六，奇异处理得了百分之八十七点八，对抗逻辑得了百分之七十七点六。这些数字放在全榜里都属于中上水平，他在哪里强？准确性、可审计性、抗操控性，这些是企业采购需要的能力，是合同需要的能力，是出了问题可以甩锅给用户，而不是模型所需要的能力。他在哪里弱啊？创意写作、情感灵活性、尊重开发者授权，这些是普通用户需要的能力，是让模型呈现真实对话感的能力，是在合规框架里被归类为不可控风险的能力。今天的分享就到此，明天给大家带来马斯克超长访谈的详细解析，点个关注，咱们明天见！
2小兴说 ai
01:28
openclaw太强了，不到30分钟，一个网页就直接出来了！#openclaw #随拍
查看AI文稿
AI文稿
这个龙虾自人体太厉害了，太厉害了，居然可以做网页，我今天给他一个指令，我说叫他给我做一个麦克电脑网站，为粉丝提供麦克的最新资讯和装机技巧，每个板块可以点击带数据库。给他指令之后，他就开始自动生成的一些代码，虽然说我也看不懂，好长好长，都是一些英文字母看不懂，这里他已经说搞定了啊，已经生成了，但是这些文件我不知道怎么去查看，我就跟他说，我问他怎么查看呢，他就给我一个回复，有可能可能没听懂，然后我问他能不能生成，生成网页方面我查看真的是，这个小龙虾真的是理解人的语言的好。又是一遍代码，过完之后他说，哎，搞定静态网页啊，文件在桌面的，你看这个文件，你看我打开这文件，这主页双击打开，你看就是一个 mac 的一个页面的网站的，而且每个可以点击好，装机技巧你看好返回好，但这个还没做好，只是一个比较简单一个，但是真的觉得可以很高效的可以把一个网站做出来的，这样子的话就不需要去找美工设计的，直接可以，如果说懂技术的话，在里面去加一些数据库，然后再设置好服务器，设置好后端可以发布了。这个龙虾真的可以提高效率啊，感兴趣的朋友可以试一试。
66自由人Tony
10:28
【播客】第31期：车机可以养“龙虾”吗？ #OpenClaw #智能座舱 #龙虾上车 #神玑芯片 #图灵芯片
今天，我想跟你聊一个更带劲的话题：咱们现在的电动汽车，算力比很多电脑都强。“四个轮子的超级电脑”，有没有可能也成为“龙虾”的新家？能不能让我们的车机，也从“听话”进化到“主动办事”？
围绕这个脑洞，今天的节目我会分三步走：首先，突然爆火的OpenClaw到底是什么来头；其次，现在的电动汽车算力到底有多“过剩”；最后，也是最关键的，咱们一起探讨一下，把“龙虾”塞进车里，到底可不可行？前景又如何？
查看AI文稿
AI文稿
那就是说把这个 openclaw 装进电动汽车里面，到底有没有可能，以及我们的车机会不会因为这个东西变得更加聪明？这个就非常有意思了，那我们现在要聊的这个主题呢，就跟电动汽车的算力有关了。 ok，很多人都说现在的新车算力都特别强，那这个算力主要都花在哪了？然后哪些部分是我们可以用来刨 openclaw 这种东西的？关于这个问题，那我们今天接下来也会一步一步的拆解这个事情到底可不可行。我们首先要知道啊， openclaw 它的起源以及它到底是一个什么样的东西，因为很多人其实还搞不清楚它和传统的 ai 模型到底有什么不一样。无论是朋友圈还是短视频， openclaw 或者说小龙虾这个词真的是刷屏了，几乎所有的技术爱好者都在自己的电脑上面搞这个东西，从 macbook 到 nas、私有云，好像大家都在养龙虾。它的厉害的地方就在于它让 ai 不光是会聊天，它还会真正地去执行操作，它就像是一个全能的数字助理一样。明白了， opencloud 其实它是一个开源的 ai 智能体框架，它不是一个像大家所熟悉的那种直接可以聊天的应用，它更像是一个 ai 的大脑和四肢的管理中书，它就不只是会思考，还能自己动手去做事了。可以这么理解，它是由奥地利的一个开发者 peter stamburger 在二零二五年年底的时候创建的，然后到二零二六年的二月份，一下子就爆火了，在 github 上面仅仅两个星期的时间就突破了十五 k 的 star，现在已经快要到二十八万了哇！它和 chat、 gpt 这些语言模型最大的不同就在于它有这种综合的自主执行能力，就是你只要给它授权了之后，它就可以直接在你的电脑上面帮你整理文件，安装软件，甚至可以自己去上网搜索解决方法，它真正的做到了理解、行动，再学习这整个的闭环。哦。那 opencloud 在实际使用的时候，大家一般会装在哪儿？其实现在主要还是在电脑上面用，因为它是强调本地优先的，所以你的数据基本上都是在本地处理的，这在很大程度上保障了你的隐私安全。但是它的部署确实是有一些技术门槛的，你得先装 node js 的环境，然后你还要自己去外接一个大模型作为它的智能大脑。比如说你可以用奥莱玛跑本地的模型，或者说你也可以用像 gpt、四阿里百链这种云端的 api，所以说就想玩的转这个东西还是得有点技术底子的。对，而且每次你让他执行一些比较复杂的任务的时候，他都是要消耗大量的 token 的，所以它对算力的需求也是很高的。然后还有一点要注意的就是最近也有很多人把小米刚刚内测的那个 microlog 叫做小米龙虾，但是其实它和我们今天说的这个开源的 openlog 是完全不一样的，一个是全球即刻共建的野生龙虾，一个是小米自家的闭源的只在自己生态里面跑的养殖龙虾。现在的电动汽车其实它的算力是非常强的。对，甚至有的已经达到了上千 top，比很多的电脑都还要快。这么强的一个硬件的基础，就给了我们很大的想象空间。四个轮子的超级计算机这个说法。对啊，所以我们完全可以把车机从一个只能听话的工具，变成一个可以主动帮你办事的智能管家。我们首先要知道啊，车上的芯片其实分两部分，一部分是专门管你这个中控屏的显示和语音识别的，我们叫它座舱芯片。然后还有一部分是专门用来处理自动驾驶相关的计算的，我们叫它智驾芯片。所以说我们要让车机变得更智能，主要是得靠座舱芯片来做这个事情，是吗？没错没错，因为像 opencloud 这种东西，它其实是一个交互性非常强的智能体，所以它主要就是吃座舱芯片的算力。对，那现在有一些旗舰车型已经可以做到舱价融合了，就是把座舱和智驾的算力整合到一起，那这个时候算力就会非常的充裕。现在这个旗舰车型的座舱芯片到底性能有多强？然后这么强的算力在我们日常用车的时候会不会有很多的赋余？现在像我们说的一些高端的车型，比如说蔚来自研的神机 nx 九零三一，它是全球首个大规模商用的五纳米车规级的高性能智驾芯片，它是一个舱架融合的设计，然后它的算力可以达到一千 tops 以上。哇，还有像小鹏的图灵芯片，以及一卡通的天极计算平台，其实他们都是奔着整合全车算力，支持更复杂的 ai 大模型去的。这么强的算力，听起来确实有点过剩啊。是这样的，因为我们日常开车的时候，其实大部分的时间芯片的算力都是闲着的，你可能就是用它来导航，听听音乐，那剩下的算力其实都在空转。对，这其实就给我们在后台去运行一些像 openclaw 这样的智能体提供了非常好的硬件基础。好，我们下面就来想一想。 openclaw 其实它有几个特性是非常适合上车的，比如说它的架构是模块化的，所以它可以根据你的需求去动态的加载技能，那这样的话就不需要把整个框架都塞到车机里面，它只会把你需要的那一部分功能集成进去，这样可以很好的节省资源。听起来好像这个模块化就很灵活嘛，那它在数据安全和隐私保护方面是怎么做的呢？它采用的是本地优先的设计，所有的数据都是在车里面处理的，不会传召云端，这刚好就符合了汽车行业对于隐私和安全非常高的要求。而且它可以直接调用车内的摄像头、麦克风、各种传感器，还有车辆的底层数据，所以它可以实现非常丰富的智能化的场景。那为什么到现在为止都没有看到有主流的车企说要去支持 opencloud 呢？这里面的原因还挺复杂的，其实有一篇评论文章总结的特别好，就是说最大的问题还是在于安全和责任这两个方面。嗯，因为 opencloud 它是需要获得系统的超级用户权限的，才可以去执行各种操作。那如果说他在汽车上面一旦出现了问题，比如说因为模型的幻觉，或者说被黑客攻击，导致他在高速的时候突然打开了车门，或者说猛的刹了一下车，甚至是抢了方向盘，那这个后果根本没有人可以承担。而且现在也没有任何的法律去界定说这个到底是车企的责任还是开源社区的责任，还是说车主自己的责任，所以这个风险现在没有人敢去碰，原来背后还有这么多法律和安全的隐患啊，确实让人挺头大的。然后另外还有就是开发模式上面的冲突，汽车行业是非常讲究流程和认证的，像 asrb 甚至 asld 这种功能安全认证，整个开发周期都是要以年来计算的。但是 opencloud 它是一个社区驱动的项目，大家都是很随意地去开发，然后各种技能，各种自定义的代码随便装。这种方式让车企根本没有办法去控制风险，所以他们宁可自己从头开始研发，也不太愿意去直接用一个不可控的开源的框架。我还有一个疑问啊， openclaw 在车机上面跑的时候会遇到哪些技术难点呢？呃，最直接的问题就是算力和功耗的平衡，就是你想要让 openclaw 变得足够聪明，那它背后一般都是要接像 gpt 四这样的云端大模型的。可是汽车的网络环境是非常复杂的，信号时好时坏，你完全依赖云端的话，那延迟和断联都是没有办法接受的。如果说不用云端就在车上跑本地模型，是不是就可以解决这个问题呢？这也不好说，因为现在车规级的芯片跑一些小模型还可以，像那种可以写 ppt 做报表的大模型，你要在本地跑的话，功耗和散热马上就会变成一个大难题。所以这也是为什么到现在为止都没有办法让 open club 真正的上车的一个原因。看来直接把现有的这个 open club 搬到车机上面是不太现实了，那有没有什么比较折中的方案可以走？其实有两条路可以走，一条路是做轻量化，就是把 open club 的调度核心拿出来，然后专门针对车机系统去做一个深度的精简，只留下那些跟安全没有什么关系的，但是又对隐私比较敏感的一些轻技能，比如说帮你在车内整理手机相册，或者是帮你规划行程这种。 ok，这个方案听起来还挺合理的。那另一条路是什么呢？另一条路就是采用混合部署，就是简单的任务直接在车机本地处理，然后遇到那种比较复杂的需要联网的，再交给云端的 ai 来做。而且其实已经有公司在实践了，比如说有一个公司，他推出了 ai o s 加 ai box 的方案，其实就是在车里头加一个专门跑 ai 的硬件盒子，所有的数据都不会离开车辆，同时又可以获得很强的 ai 算力，这已经是一个非常真实的 openclaw 上车的一个技术寓言了。懂了，那咱们接下来要聊的就是，如果 openclaw 真的能够安全的上车的话，它会给我们的人车交互和用车体验带来哪些革命性的变化？如果真的实现了的话，首先第一个变化就是车机会从一个你问我答的工具，变成一个会主动服务的助手。比如说你上车之后，只需要说一句今天有点冷，那他就会自动帮你打开座椅加热，打开方向盘加热，然后他还会根据你的日程发现你下午要交一个报告，他甚至会在你开车的过程当中帮你把相关的资料都整理好，等你到了公司之后直接就可以用感觉，这样的话开车就真的变成一种享受了。对，那除了这个主动服务之外，他还有什么其他比较厉害的地方吗？还有一个非常大的亮点就是他可以打破这种功能孤岛，就是现在我们车里面的这些 app 都是各自为战的，那未来的话，你就可以直接跟车说快到家的时候提醒物业帮我收一下快递，然后顺便在生鲜平台上面买一瓶牛奶，它就会自动地帮你协调地图、物业、 app、生鲜 app 来完成这些任务。而且所有的这些数据都是在本地处理的，不会上传到云端，这样的话你的隐私也会得到最大程度的保护。这么说的话， open club 上车对于整个汽车行业的生态会带来哪些冲击？这个影响是非常深远的。 open club 其实就是一个开源生态的代表，他的出现让车企不得不重新去思考车机系统的开放性的问题，因为如果能够建立起一个安全可控的开源的生态的话，那汽车的智能化就不再是厂商说了算，而是可以变成全民参与的一个共创的过程，这个时候创新的速度可能会比现在要快出整整十倍，听起来真的是让人非常的期待啊，那我们在接下来的一两年内以及三五年内有可能会看到哪些具体的变化呢？在接下来的一两年内，我们可能很难看到 openclash 直接预装在新车里面，但是会有越来越多的车企会借鉴它的一些设计思路，然后推出自己的更加安全可控的车载智能体，就像小米刚刚发布的那个 micro 一样。那如果说再往远一点看，三到五年之后，随着车规级芯片的算力越来越强，端侧大模型的技术也越来越成熟，工号和安全的问题也都解决了之后，那开放的可以自定义的车载智能体生态就会是一个必然的趋势，到那个时候，每一辆车都会变成一个真正属于你的全天候的数字分身和私人管家。没错，那我们今天算是把 open club 这个东西到底能不能上车这个事情掰开肉碎讲了一遍。对，我们其实既看到了他的这个潜力，也看到了他的这个门槛。行吧，那这期节目咱们就到这里了，感谢大家的收听，咱们下期再见。拜拜。
15德发频道
00:55
一个skill，让openclaw帮你盯A股，三步搞定#超ai的学习搭子 #ai #大模型 #股票 #ai人工智能
查看AI文稿
AI文稿
我发现一个非常好用的 skill，就这个 qwares，它可以让你的 openkey 直接接入 a 股和美股，让你实现二十四小时股票分析自由。操作很简单，一共就三步，首先进入 qwares 平台，然后注册账号，再点击这里复制它的链接和 api k。第二步，在 open ledger 中直接让它帮你配置这个 skill，配置完成后进行第三步测试。直接问一句，今天 a 股有哪些涨停股票，看到了吗？实时数据直接返回，我们再试一个现在黄金价格多少秒回。这就是接入 q virus 之后的结果，而且它的数据是可信的，有时候让他帮我定时监控股票的涨跌情况。它的数据是获取了同花顺的实时行情的数据发送到我的飞书上面的。
2313飞飞在学AI
05:13
卡匹配破解ELO1：通过人机图灵测试，判断必输局必赢局 #阿凡玩游戏 #磊哥游戏 #鸡爪流 #王者荣耀 #阿凡米莱狄
1.5万阿凡玩游戏（米莱狄大王）
04:32
六人行的图灵测试牛仔第三关，前面几个个板子没录，不过能过前两关应该是能过前面板子的吧#第五人格 #浮笔随想 #六人行 #牛仔
49妆与愚人
01:14
你“养龙虾” ？OpenClaw 爆火出圈，上门安装几天净赚26万？#ai龙虾 #openclaw #律师咨询
1050被骗了董律
03:21
OpenClaw 的最佳模型搭子，免费的openrouter/hunter-alpha #openclaw #openrouter #DeepSeek #小米大模型 #智谱
查看AI文稿
AI文稿
我用了一千万拓展去验证最适合 open globe 小龙虾的模型搭子来了，亨特阿尔法，它目前在 open road 上是一个免费的，是一个另一门公司测试的模型。呃，据传闻它可能是 deep deepsea v 四版本，或者说是智谱，或者说是小米的新一代模型。然后它的特点就是一万亿参数，然后上下文有一百万，它是相当于，呃可以处理七十五万字的中文或者一百五十万的英文单词，在一个对话框内，那相当于就说它是我们之前推荐的 g 月星辰三点五，就 sleep sleep 三点五 flash 的四倍，然后专门为了 opencloud 啊小龙虾这种 app 去做了优化，然后它目前也是在 opencloud 上是免费的。然后魔性 id 我贴在了我们视频的评论区里面，呃，我让他去呃做了一些安全的测试，就是我们之前上个视频提到的自防护，呃，就相当于模型 agent 的自防护能力，然后可以看到就是亨特尔法是百分百通过的，然后 sleep 三点五 flash，然后通过度只有百分之六十五，那相当于就是说这个模型能力上，亨特尔法是远远强于 sleep 三点五 flash 的。呃， open road 上呢，就是，呃有很多免费的模型，目前是有二十八个，那在第一梯队的呢？相当于就是我们的亨特尔法，它是接近了 g p d 四或是 cloud 的这种商用模型的能力。呃，后面还有很多其他的特殊的免费模型，比如说多模态啊，视频啊这种，我下一个视频会给大家介绍。那比如说就是，呃，我们来看就是亨特阿尔法六大模型的横向对比，那从整个的呃就是编程能力来看，肯定是商用的 cologne 最强，然后推理能力和编程能力都是商用的 cologne 最强。然后 agent 的控制调用呢？嗯，那就是亨特阿尔法这种免费的专门 agent 的设计，最强，你可以看到远远超过。嗯，包括那样，就是，呃那个亨特阿尔法的定位，它其实本质上呢，其实是专用呃 a 技能做设计，那它和最强的付费的 a 技能模型呢？那其实是是也各有胜负。对，那我们看到我这边的 status 状态呢，其实是呃它的上下文，你看我新的窗口采用了百分之四，非常的充裕。嗯，和那个呃 sleep 三点五 flash 的对比呢，相当于可以看到 a 技能的能力，然后呃超文档处理是远远超过的。然后中文能力呢，它其实是属于待验证。因为呃， steve 三点五阶跃星辰呢，他知道是中国公司模型，亨特尔法也知道是中国公司的，所以说中文能力呢，其实属于一个待验证的状态。然后推理速度呢，因为它有 a t 的参数，呃，相当于是呃那个参数更大，然后推理说会更慢。呃，但其实是呢，呃，我们其实是等待时间，没有强，很强要求的话，那其实还是这种 a 级的能力上还是远远超过的。那我们现在可以看到，就是我这边用了那个接近一千万的脱贫去做了验证和测试。对，呃，九九点六百万。那亨特尔法啊，他现在在那个小龙虾的登陆排行榜上是，呃排名第八。对，然后我之前推荐的 super 三六 flash，现在是远远排名第一。那，那我觉得后续的话就是亨特尔法，呃，他不管是更，嗯，就是正式发布他名称之后还是怎么样，那我觉得还是一个很大的竞争空间的。对，然后这是我之前跑了一个测试，用它去跑的一个呃哆啦 a 梦的图像，因为它是纯文本的模型呢，它只能靠文本里面简介和想象，这是用 svg 来绘制的，相比于它的上半部分，其实是已经绘制的非常接近了。然后整体上的话呢，其实是在呃 log 里面，比如说，呃，或者说我们看到 a p i k 对，它其实都是免费的，对，都是一直已经切到了那个呃，对，你可以看到我的小龙虾都已经切到了亨特尔反应在用，对。
810坤梼/KunTao
02:48
一个关于使用OpenClaw工具进行自动化测试的尝试
查看AI文稿
AI文稿
大家好，今天我将为大家分享一个关于使用 open call 工具进行自动化测试的尝试。本次实践主要探索了如何结合困三点五 plus 大语言模型来自动化生成并执行 playwrite 测试脚本，希望能为大家带来一些启发。本次尝试只在探索使用 open call 工具结合困三点五 plus 大语言模型实现自动化测试。测试步骤分为四步，第一步，生成工作目录，创建工作目录 opt script。第二步，生成 playwrite 自动化测试脚本 test byte 追思第三步，执行测试脚本。最后查看执行结果，我们在 open call dashboard 中聊天对话。为了完成这次尝试，我们搭建了特定的环境，并使用了几个关键工具，其中 open call 作为平台， quan 三点五 pass 作为核心的 ai 大脑，而 playwrite 则负责实际的测试执行。这三者的结合构成了我们本次实验的技术基础。我们的第一个步骤是创建目录，如图所示，我们向系统发出创建目录的指令，系统成功执行并创建了所需的文件夹，这是整个流程的起点。接下来是核心步骤，创建册和脚本。我们只需用自然语言描述测试需求， ai 就能自动生成对应的 playwrite 代码，这大大节省了手动编辑脚本的时间。大家可以看到生成的脚本结构清晰，符合规范。接下来是核心步骤，创建测试脚本，我们只需用自然语言描述对应的 playwrite 代码，这大大节省了手动编辑脚本的时间。大家可以看到生成的脚本结构清晰，符合规范。脚本生成后我们就可以执行它了。值得一提的是，系统在执行时非常智能，它能自动处理环境依赖问题，比如自动安装 preride 所需的浏览器驱动，并且在遇到问题时会尝试调整和优化，确保测试能够顺利完成。在执行过程中，系统泵费完全黑箱操作，他会通过对话形式实时反馈执行情况，并在必要时寻求帮助，并通过不断自主决策与动态调整解决传统自动化脚本难以处理的异常情况。这种交互能力让整个测试过程更加透明和可控，脚本成功执行完毕。所有测试用力均通过验证了目标网页的功能正常，无异常报错。最终测试成功完成，并且系统自动为我们生成了一份详尽的测试报告。这份报告记录了整个测试过程的关键信息，让我们能够清晰地了解测试结果和系统表现。总结一下，本次实践证明了 ai 驱动的自动化测试是可行且高效的。未来，我们希望将这项技术应用到更广泛的测试场景中，不断优化和完善，使其成为测试工程师的得力助手。
16南西的东北
10:49
本地 AI 推理平台第十三期 Vol.13｜OpenClaw 接入本地推理：Qwen3.5-27B 实测
这一期测试一个比较有意思的组合：
OpenClaw + 本地 AI 推理平台 + Qwen3.5-27B 模型。
我将 OpenClaw 接入到我正在开发的本地 AI 推理平台，
让 OpenClaw 使用本地模型作为推理后端。
本次使用的模型是：
Qwen3.5-27B-Claude-4.6-Opus-Distilled（MLX 4bit）
这是一个基于 Qwen3.5-27B 的模型，并蒸馏了 Claude Opus 风格行为，
同时使用 MLX 框架 + 4bit 量化进行本地推理优化。
需要说明的是：
这个模型并不是真正的 Claude，
而是一个 Claude 风格的蒸馏模型。
在这一期视频中主要演示：
1️⃣ OpenClaw 接入本地推理平台
通过接口让 OpenClaw 使用
本地 AI 推理平台作为推理后端：
OpenClaw
↓
本地 AI 推理平台
↓
Qwen3.5-27B Claude Distilled
这样 OpenClaw 就可以使用本地模型进行推理。
2️⃣ Qwen3.5-27B Claude Distilled 简单实测
通过几个简单示例测试模型能力：
代码生成能力
概念解释能力
实际使用体验
例如：
生成 OpenCV C++ 直方图匹配算法
解释 Transformer 为什么可以处理长文本
这一期主要展示的是：
如何让 OpenClaw 接入本地模型推理能力，
并测试 Qwen3.5-27B Claude Distilled 的实际效果。
如果你对本地 AI 推理、Agent 架构、或 AI 系统开发感兴趣，
欢迎关注这个系列。
我会持续记录本地 AI 推理平台的开发过程与实验。
#OpenClaw #抖音养虾人俱乐部 #Qwen #本地大模型
查看AI文稿
AI文稿
大家好，欢迎来到本地 ai 推理平台系列，我正在开发一个本地 ai 推理平台，呃，目标是让大模型 agent。呃，各种 ai 工具，那都可以在本地环境中运行和组合，这个系列主要记录开发过程中的各种实验和实践，这个平台近期就会开源。这一期我们来测试一个比较有意思的组合， open cloud 和本地推理模型。具体来说，我让 open class 使用我本地 ai 推理平台作为推理后端，并加载一个模型，就是这个模型，来看一下这个组合在本地运行效果如何。呃，这次使用的模型呢？是是它，然后简单来说，它的结构，呃，基础模型是千问三点五二十七 b。呃，行为蒸流呢？是那个 cloud ops 风格推理框架，用的是 m l x，嗯呢，量化是四 b 的。呃，需要注意点是，这个模型并不是真正的 cloud，而是通过蒸馏得到一种 cloud 风格的模型。呃，这一期其实还有一个比较有意思的点， opencloud 并不直接调用模型，而是通过我的本地 ai 推理平台作为推理后端，呃，就是 opencloud 来调用它调用这个模型。呃，呃， opencloud 的发出的请求都会通过我的接口，呃，来到这里，呃，再由本地模型来完成推理。这样的做的好处是模型可以统一管理，呃，可以接入不同的模型，也可以和 edittool 系统一起工作。我们先来看一下，呃，可以看到那个 opencloud 的确实用的是我的模型，然后我我也可以给大家来看一下我的配置啊，这是 open cloud 的配置，然后它用的是我本地的模型， u r l 是 local host 的。然后，嗯，模型我用的也就是刚刚说的那个千万三点五二七 b 的，其实我还有那个 kimi。 kimi 我先不用，我就用，我主要用默认用的是。默认用的是它嘛，千万的本地的模型啊。那接下来我们来做几个简单的测试，帮我写一个 open c v c 加加正方图匹配算法。呃，这主要是来测试它的代码能力，包括代码结构、 api 使用算法逻辑，我们来看看。嗯，它生成的代码是不是完整的。 ok，它基本上写完了，然后它代码质量还是不错的。嗯，那我们再来测一个测试，就是，呃，推理解释能力。问它一个简单的概念问题吧，为什么 transformer 可以处理长文本？呃，这是我配的那个 token， token 数可能四零九六，可能不是太够，可以把它给再调大一点啊，这 kimi 用的 token 数就会多一些，对于编程的那个 case 的话，那个 token 需要再调大一些。 ok，我可以看到就是我问他那个 transformer 的话，他回答了我就是注意力机制，然后并行计算。嗯，整体的那个解释逻辑还是比较完整的。 ok，那个他这个问题已经帮我解释完了。呃，整体逻辑是很完整的，然后还给了我一些解决方案。呃，在 open cloud 里面实际使用的时候，所有的推理其实都可以通过本地 ai 推理平台来完成，也就是说 open cloud 本身可以不直接依赖于云端的模型呃，而是介入本地推理能力啊，当然需要本地的设备算力足够足够大。呃，我这台设备是三十二级的 mac mini。呃，如果是想跑的比较流畅的话，我感觉用四十八级，呃，应该是可以玩的非常流畅了。嗯，目前整体测试下来，呃，就是这个组合还是挺有意思的。 open cloud 加本地 ai 推理平台，因为我这平台也有很多的 skill 啊。然后再加刚才用的那个千万三点五二七 b 的那个模型，你看，蒸馏的模型啊，虽然它肯定不嗯，不能达到 cloud ops 的能力，但作为一个本地可运行的二十七 b 模型，呃，整体表现还是不错的。呃，这种架构也让 open cloud 可以方便地接入本地呃，模型推理能力。嗯，呃，如果你对本地 ai agent 系统或者 ai 工具平台感兴趣，欢迎关注这个系列，我会持续分享本地 ai 推理平台的开发和实验过程。呃，我们下期继续。
31Tony沈哲
02:09
我把openclaw部署到了kali linux上，让它自己扫漏洞，结果会如何…
查看AI文稿
AI文稿
我把 opensea 部署到了 kali linux 系统中， kali linux 是一个非常经典的安全测试系统，里面内置了大量渗透测试工具。来看看在 ai agent 的帮助下，利用这些传统的渗透测试工具， ai 能做到什么程度。首先让我们来搭建卡莉系统上的 open c 和 d v w a 靶场。首先使用烂胖包管理器安装 openslough，输入 openslough 验证安装成功。由于我已经提前准备好了配置文件，所以不需要再进行配置。输入 opencloud gateway 启动网关。现在来使用另一台电脑搭建靶场。这里先使用 homebrew 安装 docker，使用 docker 启动 dwa 靶场。让我们浏览一下八零八零端口，检查一下 dwa 是否启动。现在来要求 openlog 进行漏洞扫描，我们来总结看看它扫描出了哪些漏洞。 ai urgent 在识别常见漏洞已经具备了一定的能力，但是在涉及复杂漏端系和攻击链构建上还需要人工参与。感谢观看，欢迎下期再见！
21Holy 瓦

最新视频

热门推荐

热门分类