粉丝218获赞1025

这个视频来讲一下这个本地知识库的一个部署啊,这个爱你心 lm 安装跟这个使用指南。这个爱你心 lm 的话,他是支持很多模型的, 如果你要调用的话,支持一两百个模型都是可以的。我们只需要上传我们的一个文档,他就会通过这个像量模型进行一个拆分。我们来看这个爱丽信 lrm 的一个呃,官网, 我们只需要在这里进行一个下载就可以了,他这个下方有相应的一个演示,我们可以看他这个演示,但是在这里我们就不看这个视频。我简单的说一下, 我们去下载的话,看你的系统是什么系统啊?我是云朵系统的哦,我就是进行这个云朵系统,点击他就会进行一个下载,下载完成之后他是一键安装的,安装 到这个 c 盘跟这个欧拉玛跟这个 dock 安装都是一样的,一键安装都是安装到 c 盘,然后我们看安装后的一个这个 anything l m 我们打开,打开之后我们要创建知识库的话,我们就点这个进行创建就可以了,我们对这个工作空间进行一个命名,比如我这里有一个测试,测试的话我们要上传知识库的话,按这个上传, 如果你要上传文件的话,把文件拖到这来,然后他就会增加到这里。我们要放到这个支持库的话,我们只需要点这里,然后点这个移动工作区,我们点增加,然后按这里保存就可以了,这里就进行一个这个 文档的一个增加,然后我们可以通过这个进行一个询问。呃,让他查询一下我的知识酷吧, 因为我上传的是一个文档,他就是对这个文档进行一个总结,这个就是我们去使用这个知识库的。当然如果你的知识库的文档有很多的话,我们要具体的一个询问啊,像这样总结知识库内容的话,他可能总结不出来,因为太多文档了,我这里的话只有一个文档。 呃,然后我们来看一下这个设置,设置的话我们可以点这个设置,我们要选择哪个模型的话,我们就点这里。然后如果你有这个 open ai 的话,你就把这个 open ai 的 t 增加上来,然后选择一个模型, 如果你要选择这个双子座的话,我们就点这个双子座。双子座的话啊,这里面提供是两个模型,一个是这个一点零,一个是这个一点五,这个模型都可以增加。如果要增加本地的一个模型的话,我们 可以点这个本地的模型,模型的话,看你本地上安装有什么模型,我们就进行一个选择。 然后这个 api 的一个设置的话,我们要点这里,这里有一个设置,这个是转入模型,这个是嵌入这个向量的一个模型啊,这个两个默认的就可以了。这个是这个 lm 的模型,也就是我们在这里要使用的一个模型, 这里要使用的一个模型,这个就是这个 lom 的一个设置,这两个设置的话我们默认了就可以了,因为这个 open ai 拆分的话,在国内啊,是网络访问是有点问题的。 我们用它默认的一个模型啊,然后这个嵌入一个向量的话,也是用它的一个默认的一个模型啊,这两个选它默认的一个就可以了,然后这个 l m 的话看自己的一个需求, 如果你要用这个双子座的话,我们使用这个双子座就可以了啊,我一般是使用这个双子座,当然他这里也提供这个默认的一个模型,这个 nic lm 的一个模型, 如果你要调用本地的一个模型的话,你在这里增加一个本地啊,他默认的话这有个斜杠,斜杠的话他就读起不了这个本地的一个模型的,这里是空的,这个是没办法选择的,如果我们要进行一个选择的话,要把这个斜杠去掉,去掉以后他才被读起本地的一个啊, 安装过的模型,我们在这里才可以进行一个选择啊,之前我搞了好久啊,不知道他这里怎么弄,后来我把这个斜杠去掉了 啊,还可以进行一个选择。如果你要使用别的模型的话,你可以选择别的一个模型啊,特别是这个 openlot 啊,这个可以调 起上百种模型,这些模型都是可以进行一个调用的。还有这个一起 ai 也是可以调用啊,上百种模型的,我们看一下啊,在这里 这个模型也是都是可以调用的。呃,看个人的一个需求吧,我自己使用的话就是用了一个这个双子座。呃,双子座的内容生成的话相对会比较好一点,而且还是免费的,所以我通常是使用这个双子座。嗯,没什么好讲的,这个内容就讲到这里。

兄弟们,今天分享英伟达刚刚开源的轻量级多模态视觉定位模型 look at anything。 该模型专注于实现高速、高精度的对象检测功能,能够从照片或屏幕截图中快速定位指定目标,并通过检测框明确标注其位置。 该模型的数据集包含一千两百万独立图像、一点三八亿语言查询及七点八五亿边界框,包含通用物体检测、字符识别、定位等六大核心领域。多维度的数据结构,使其能够处理从日常物品到复杂文档布局的多样化任务。 你只需上传想要识别的图片或视频,再用日常大白话描述你想检测的目标,这个模型就能以每秒十二点七个检测框的速度精准输出,结果比现有方案快上近十倍,适用于机器人感知、电脑自动操作等需要快速定位的场景。

分享两个 ai 知识库来介入 deepsick 啊,一个适用于个人,一个适用于公司或者团队。我们先说这个个人版的 inacing irim, 他之所以能火起来,不光是因为之前他第一时间接入了 deepsick, 主要也是他这个安装和操作确实很简单,而且 还是个桌面吧。先给大家看一下他都支持哪些模型啊,大家看有 open ai 呀,然后欧拉玛呀,然后下边还有这个 deputy, 然后这里边比较特殊的一个,就是第一个这个 inacing l r m, 大家看他支持我们在本地直接离线安装这些大模型,包括 deep seek r 一的这几个版本都是可以的哈, 而且甚至呢,他还支持我们直接从哈根 face 去拉取大模型。然后另外他跟 maxkb 非常相似一点,就是在这里啊,他可以管理本地的知识库,比如说我们想把这几个文档 喂给他,他需要在这里面去学习,然后根据这些就可以做提问了。到这里大家可能会发现啊,这个 i nasing l l m 他仅仅适用于个人场景,因为他就是个单机版嘛,没办法多人共用,甚至我们开网给客户用都是不行的。但是呢,我们看一下他官网提供的这个云版本, 刚才我们看的是这个桌面吧,这个云版本的收费最便宜的,适用于个人的基础版是五十美金一个月,而且它这个功能和开放性也不是我们想要的那种哈,所以如果我们的团队需要一个 ai 知识库,或者我们需要对外开放 ai 客服的这样的需求,那么大家可以来试试这个 max k b, 那今天我们从安装 max k b 开始,演示三种接入 dipseak 的方式,然后给大家看一下他这个知识库的效果哈,其实我在服务器已经装 装好了哈,但是呢,为了演示,我就用自己电脑再装一遍,其实特别简单,大家看啊,就用这行命令,因为我用的是麦克系统,所以用 linex 这个命令就可以,大家看啊,复制一下这个命令, 就用刀壳的方式,前提是大家把刀壳先装上啊,就一行命令吗?然后我们等着就行了,我之前已经拉取过这个镜像,大家如果第一次执行呢,他可能会拉取一会镜像,这个没关系哈,然后呢,我们看一下, 好,这样就可以了,你应该就可以访问了哈,打开,然后默认的登录账户密码在这里啊,但是呢,我就不用本机演示了哈,因为为了演示离线 dp 模型,我又找了个福气, 就是这个我已经装好了哈,那装好了 max k b 之后,我们第一件事要配置模型,那考虑到大家的需求可能不一样,所以呢,我把三种接入 deep seek 的方式给大家都演示一遍。 我们先看离线部署啊,离线部署的路径就是我们现在本地安装欧拉玛,然后在欧拉玛里边去拉取 deepsik 的模型,然后再 mask b 对接欧拉玛。我们看一下欧拉玛,其实安装特别简单哈,我们选择 linux, 把这条命令执行一下, 然后就装好了。装好之后呢,我们选模型就是点这个 models 啊,就是这里,然后在这里可以搜 depsik 二一哈,然后这里边有很多版本,六七幺 b 是满血版,大家如果做客服呢, 其实七币八币也就足够用了,这是酷之类的。选择了这个版本之后,我们复制右边这个命令,然后在服气上直接执行就行了。然后执行完之后呢,我们在这个 maskb 里边找到这个欧拉玛,然后点这个添加模型,我这里边添加过了,我点修改啊,大家看模型名称,大家随便添哈。然后这个基础模型大家就 添这个拉曲的时候这个名字哈,如如果你这里边找不着,你就硬写就可以。然后这个 uir 的话呢,就是啊,福气的 ip 加上这个幺幺四三四欧拉玛的默认端口 aps k, 大家随便添,欧拉玛这个没有,然后就点提交就行了,这样的话这个模型就加进来了。这里再给大家分享一个之前有踩过的坑哈,就是大家如果磁盘空间不是很富裕的话,大家装好欧拉玛之后,记得配置一下,把欧拉玛的模型路径指定到一个其他的磁盘,因为他这些模型都很大, 那我用的是森头 s 八号,他这个路径在这里, d c c c, 这是在这里,大家看啊,就这一行欧拉玛 models 把这个路径改一下。刚刚我们属于是本地离线部署了一个 d p c 模型,那 我们还可以用它官网的这个 api 留在这里,公用模型 dipseak, 然后添加,然后我们去到他官方的开放平台哈,好在他这个充值最近又开放了,大家尽快去试试,防止他什么时候又关闭了。然后呢,创建一个 api, 我这已经创建好了, 然后呢,我们把这个 k 拿过来,这个名字先随便起吧,比如说 d, 然后下边打语言,注意这里边我们选第一个,这个是二一的模型哈,然后把这 api 的 k 拿过来, ok, 这样就可以了。最后一种方式就是大家如果 dpc 可官方 api 还不稳定的话,大家可以选择这个阿里云的白练或者这个火山引擎哈,我就用火山引擎给大家演示,我们先注册登录进来,然后点这个控制台进来。好,进来之后呢,我们在这选这个火山放周 好,然后在下边这有一个开通管理,我往下找哈, 在这里再把这 dipsik r 一的模型给它开通。开通之后呢,我们在这创建一个 api, k, 这个我也创建好了,然后呢我们回到 max k b 火山引擎,添加模型 dpc 火山版,然后模型大约模型,然后这个基础模型在哪找呢?我们还是在这里哈,找到这个 dpc 卡而已,后边不是有这个接入文档吗?注意就这个,我们把它复制过来, 然后 k 刚才我们也复制过了,我们先把 k 翻过来, u i l 在哪找呢?我们往下翻一下,它这有 demo, 打开就这个地址,我们到 v 三就可以了,拿过来 保存好,这样就可以了。然后准备 max k b 的第二步,我们就要构建知识库,然后我这也模拟了几个文档哈,比如说系统流程说明啊, 会议记录啊,包括接口文档啊,数据库设计文档等等哈,然后我们先创建一个知识库,用就叫仓储项目,我就把关于仓储项目的相关文档,然后这个项链呢,我们选择这个就可以,知识库类型也不用动,创建 好,然后我们上传把这些都下一步,然后这个智能分段就可以哈,基本上他不会有什么问题。好,然后我们开始哈, 然后我们等他缩影完了就可以用了。 ok, 我们可以创建应用了,这个应用可以理解为一个机器人了。创建,比如说我们就先用这个简单配置哈创建,然后这个描述什么我先不改了,主要是这个模型,比如说我们用火山这个, 然后下边有下边有关联知识库,我们添加,把这个仓储项目勾上,然后注意下边有个输出思考,因为我们用 dc 模型,他有思考的那个过程,如果你不展示这个感觉就是有点慢,他半天不出东西保存并发布,我们先试一下吧,挺好。 然后我们再把这模型改一下哈,我们用本地的这个 dpc 模型哈,我们来试一下。 好,然后我们就用本地这个模型试一下,直接就演示哈。好,我们先问他出库的流程是什么? ok 了,打卡,包括这个思考过程。但是呢,比如说我们对这个有疑问,为什么出个库?还有审核,我们可以问一下为什么要用 审核环节,是谁提出的审核环节? ok 了,大家看为什么要有审核,然后包括他根据会议记录推理出张明提出来的审核,他还有一个特别好的功能,我们先点进来哈,嗯, 这个链接就是可以直接访问的,主要是这个嵌入第三方,我们可以把制作好的这个机器人哈嵌入到其他项目里边。比如说我们,我随便找了一个我之前演示呆默的项目,把它放进来,然后呢就在这,然后他右下角这就有一个机器人在这浮动着哈, 点一下就可以聊天了,跟刚才一样,你好打开就可以了,然后点这块可以再放大一点。好,最后我们再总结一下,如果你是个人使用,那么 anything l i m 就 足够了。但是如果是你的团队需要,或者你需要开放给客户使用,那么选择 max k b 准没错,这是他的官网地址,建议大家收藏备用。

直接让 ai 操控软件干活,主要介绍两个可实现的开源项目,一个是字节跳动的 ui 塔尔,走视觉路线,他像人一样看屏幕,理解画面内容,再移动鼠标点击。 另一个是港大的 kimi, 走命令型路线,给每个软件包装命令行接口, ai 直接调用命令,无需看屏幕, 一个模拟鼠标,一个模拟键盘,哪个更好用?我们逐项拆解。先看 ui, 他 先截屏,把画面送入七十亿参数的视觉语言模型,模型理解后输出,点击坐标再执行操作。 优势很明显,理论上只要软件有界面就能操作,无需 api, 无需开发者适配,通用性堪比人类。但问题也突出,一是需要至少十六 gb 显存的 gpu 跑模型。二是每步都要截图推理,执行一个操作耗时数秒。 三是坐标预测不精准,界面分辨率缩放比例稍变就可能点错。再看可以 anything, 思路完全不同,不看屏幕,直接调接口。 他为各类软件开发了可以包装器,目前已适配五十多个软件,包含 blender 浏览器或大字体 liboffice。 ai agent 生成一条命令,可以 anything 就 翻译成软件能理解的 api 调度并直接执行。优势在于命令结构化,操作精准不失误,无需 gpu, 任何电脑都能跑, 响应速度达好秒级,比视觉方案快十倍以上。劣势则是需要人为每个软件编辑适配层,为适配的软件无法操作,生态还在早期,覆盖面有限。结论明确,对日常用户而言,可以延你视野,更务实的选择, 无需额外购买显卡,操作精准,不翻车,速度快一个数量级,且任何 ai agent 都能直接调用 ui 塔尔的天花板更高看屏幕操作无疑是更终极的形态。但以当前的模型精度和推理速度, 它更适合研究探索,而非日常生产。最佳策略是以可以 any theme 为主,覆盖已适配的软件,用 ui tab 作为补充,处理无可以接口的应用。先让 ai 用命令行把能干的活干好,等视觉模型成熟后再让它接管一切。

给 ai 一 份 markdown, 它能不能以 html 的 形式帮我直接生成网页 ppt 公众号文章小红书图文?先别急着下结论,你可以先猜一下,这东西到底是创作者神器,还是一个看起来很厉害的 demo。 最近 ai 圈有个讨论很火,叫 html 将取代 markdown。 大 概意思是,以前我们让 ai 输出内容,通常是一份文档, 但未来他可能应该直接输出网页卡片交互页面。这个方向听起来很合理,因为很多内容确实不只是写清楚就够了。 流程图、科普动画、汇报页面小红书图文本来就需要视觉表达,然后有人做了一个开源项目,叫 html anything, 他的目标也很直接,把 markdown 转成各种 html 产物。 所以我决定做一个小测试。同一份文档,四轮生成网页、 ppt 公众号小红书,看它到底能不能真的帮创作者省事。第一轮网页,我先让 codex 帮我安装项目,这里就已经有第一个门槛了, github 依赖包 google 字体,在国内网络环境下都可能卡。 不过这个问题还算能解决,让 agent 看 readme, 换镜像,改原码,基本能跑起来。项目启动之后,设置中文配置,本地 agent 上传 markdown, 选择网页模板。 结果出来的一瞬间,确实挺像那么回事,标题、卡片、分区、视觉层级都有了。相比原来的 markdown, 它明显更像一个可以给别人看的页面。所以第一轮我会给他一个通过,但注意,只是展示通过,不是生产通过。 第二轮 ppt, 这一轮就开始有意思了,一个简单文档,它直接扩成了二十多页,你看着会觉得,哇它好努力。但问题是, ppt 不是 页数越多越好,它为了适配页面,有可能补出原文里没有的信息。 而对内容创作者来说,这就是风险, ai 不 生成,你还能继续调, ai 一 本正经的帮你编,你反而更难发现。所以 ppt 这一轮,我的结论是,可预览思路,但不能直接交付。第三轮,公众号。对,公众号创作者不是要一个漂亮 html, 而是要一个能复制进编辑器,格式不炸、能直接发布的内容。但我实际试下来复制过去格式解析有问题,基本没法直接用,应该是他的模板并没有真正围绕公众号文章的使用场景设计。这就很像你做了一台很漂亮的打印机,但打印出来的纸放不进真实文件夹, 所以公众号这一轮不通过。第四轮,小红书图中最能说明问题,创作者做小红书最终需要什么?不是一张巨长的图,而 是一组可以直接发布的图片,封面,第二页、第三页、结尾页,但它导出来的是长图,而且下载成图片之后还可能出现错位。那这就不是小问题 了,因为它不是效果差一点,而是产物形态和用户真实发布需求不匹配,所以小红书这轮 也不通过。好。四轮测完,结论来了, html anything 不是 没价值,相反,它最有价值的地方是证明了一件事, ai 的 输出形式确实应该变得更丰富。比如用 mermaid 划流程图,用 gemini 生成交互科普,用 notebook lm 做信息图,用 html 做方案页和视觉卡片, 这些都比一整段文字更适合某些内容。但问题是, html 不 应该无脑取代 markdown, markdown 的 优势是清稳好改,结构清楚,你写选择题,写提纲,写分析,写会议纪要,它完全够用。只有当内容真的需要展示交互视觉层级平台发布时, html 或其他格式化形式才有优势。所以真正的问题不是 html 会不会取代 markdown。 真正的问题是, ai 能不能在一开始就判断这个内容最后要被怎么使用。如果是公众号,就按公众号的发布规则生成。 如果是小红书,就拆成多张图。如果是 ppt, 就 按演讲逻辑组织。如果是网页,再去做 html。 这次实测最让我警惕的地方不是它有 bug, 开源 demo 有 bug 很 正常。真正的问题是,很多 ai 工具现在看起来能跑,但没有真正走完用户的最后一公里。 能生成不等于能发布,能预览不等于能交付,看起来很漂亮不等于真的省时间。所以如果你也是创作者,我现在不建议直接依赖 html anything 做日常生产。 如果你会搭 a 阵,或者你正在做自己的 ai 工作流,它里面的视觉模板和 skill 思路是值得拆出来的。最后我的判断是, markdown 不 会马上过时, html 也不是万能答案。未来真正好用的 ai 工具, 不是把所有文档都变成漂亮网页,而是知道什么时候该写文档,什么时候该画图,什么时候该做页面,什么时候该老老实实别加戏。

今天介绍一个叫 c l i anything 的 开源项目,它要解决的是 ai 代理很难真正操作专业软件的问题。 很多软件明明功能强,但一到界面点点点流程就容易断,难复现。 clear anything 的 办法很直接,把软件变成命令行可操作的工具。你只要给他一个软件代码库,他就会按一套七步流程来做,先分析代码,再设计命令,再实现功能, 然后做测试计划,写测试补文档,最后还能发布。它生成的不是简单演示,而是直接连接真实后端。比如 libreoffice 可以 真导出 pdf, blender 可以 真渲染, audacity 可以 处理音频, 同时还支持 jason 输出和交互式命令行,方便 ai 和人一起用。仓库里已经展示了十八个成熟软件案例, 总测试数是两千三百三十项。官方给出的结果是全部通过。像 g i m p blender, draw, i o o b s zoom q g i s 这些常见软件都已经有对应方案。它还提供 c i hub, 装好后可以浏览、安装和管理社区。做好的命令行工具。简单说,它就是把软件从要点鼠标变成能直接敲命令。 如果你想看 ai 怎么更稳的用软件,建议先收藏,后面可以继续研究适合自己的场景。如果您需要直接下载此项目,可到主页资源去获取。方式中直接搜索项目名称,可以下载打包好的文件,感谢您的收看。 如果你的网络环境无法使用 github, 可以 尝试使用 github 大 陆中转站九幺 git, 无需网络环境配置,只需要输入项目名称,就可以帮你打包好源码和 app, 大 陆用户可以直接下载使用。关注我,带你发现更多免费优质项目!