这是我用 ai 生成的关于 tcp 三次握手的 html, 而这是我用 ai 生成的 markdown 文本。显而易见, html 文件的视觉效果更好。如果你正在学习 tcp 的 三次握手,那就应该让 ai 在 解释 tcp 三次握手的时候再 promote, 最后添加要生成 html 格式度。 cloud code 团队的 faric 近期发布了一篇文章,使用 cloud code 时 html 会更有效,引起不少人的关注。之后他又补了一篇 html, 就是 新的 markdown。 他 说,我基本上不再写 markdown 文件,而是用 cloud code 为我生成 html。 此外,卡帕萨也回复了这个帖子,卡帕萨说,直接让大模型回答成 html 效果非常好。这是不是意味以后我们在使用 ai 的 过程中,都应该刻意要求它生成 html? 我 觉得未必。 所以接下来我们就讨论下用 ai 时什么时候输出 html, 什么时候输出 markdown。 首先我们需要有这样的认知,当下 markdown 是 agent 和我们沟通的主要方式,它使用简单,编辑也很方便,从里面可以定义标题段落,也就是具备附文本能力。 而 html 则是与浏览器交互的主要场景,它提供不同颜色的页面展示,也能提供动画交互,展示上会更好。 接下来我们一起看下 cloud code 的 tarik 的 一些视角。 tarik 说,啊, markdown 是 agent 和我们沟通的主要方式。下面是描述了 markdown 的 优势,和我们上面提到的类似,这个没什么问题。接着他说,随着 agent 越来越强大,我感觉 markdown 也有限制了, 我发现我很难能读到多余一百行的 markdown 文件了。我觉得这里真的说到多余一百行的 markdown 文件了,我觉得这里真的读大模型的输出内容几乎也不会全部看完。如果内容太多,我就让他再次精简下。 你是不是也是这种感觉?有这个感觉的屏幕扣一 terry 可接着说,我想有更加丰富的展示效果,比如颜色图标,所以我更加偏爱 html。 这里是他提供的一些例子。 第一种类型,方案探索和计划。这里说当你做方案设计拿不定主意的时候,让 agent 把可行的方案铺开,分析利弊。 第一个场景是实现防抖的三种方式,这里的 promote 是 用 react 实现三种防抖策略,并分析利弊。这是三种实现方法,这是三种的利弊。最后给了一个建议是方式二, 哎,这种方式我们停下来想一想,用 html 方式去实现还行,用 markdown 肯定又是一大坨,懒得看。 第二个场景是从设计师的角度去看,比如我现在有四个视觉方向,拿不定主意,极简风格的、带插画风格的、活泼风格的,后续设计师通过这种格式去审讨论,比只展示文本更有效。这里我理解也是没问题的, html 生成的会更高效。 第三个场景我觉得很牵强了,他要做一个需求,在任务卡片上添加评论功能。这里说是工期是两周,改动的范围是三个项目,下面是里程碑,下面是数据流向,类似于一个整体架构图。 这里我说一下,为什么我感觉很牵强呢?这个例子已经是一个差不多是完整的方案了,在整个开发过程中,交互的界面会发生大量改变。 比如这里的工程工期很有可能改成三周,通过 html 来维护设计方案是很困难的,所以这种方式我还是偏向于让它生成 markdown。 最后再看一个例子, 这里是实现了一个需求,给任务列表的修改操作加入乐观更新。这里介绍了一下这个 pr, 然后下面是具体的代码改动。最后说明了一下接下来要做的事情。我觉得这个 html 勉强可以接受的, 下面我就不一一去讨论了,感兴趣的你可以接着往下看,有更好想法也可以在评论区聊下。现在大家在 ai 都在摸索的阶段, taurik 说的也不一定对,所以我们也要辨真的去看说的是不是真的好,能不能引起共鸣,产生一些启发,还是说只是为了让我们生成无用 html 消耗 token? 最后我们总结一下哦,如果你需要的内容要变动,或者长期需要维护,我还是偏向于用 markdown 去维护。而如果此刻你正在学习某个系统性的知识,不想看 markdown 一 大坨,那就让它生成 html。 代价嘛,就是耗时要多些。 html 的 耗时大约是 markdown 的 二到四倍, 另外 token 消耗也会多些,但我觉得是可以接受的。最后看下 carpass 的 视角,它的视角也比较深入,挺让人深思的。它说 ai 的 输入偏向于语音,因为表达成本低,比如现在流行的 typeless 就是 此类产品,没用过,我强烈建议你用下。 但是针对 ai 输出,我们更偏好视觉信息,比如图片、动画、视频。要知道大脑三分之一的皮层参与视觉处理,所以很擅长处理视觉信息。 所以说即使 html 会替代 macdunk 一 部分,但肯定不是最终台,未来很可能会出现交互式视频,你通过和视频进行交互就能获取信息,现在的流行的 flipbook 已经在往这个方向走了。最后感谢你的观看,我们下次见。
粉丝1.2万获赞3.5万

当你不小心拥有了一个 open cow, 但你总觉得它傻傻的不好用。于是聪明的你转眼一番后,终于明白,小龙虾只是智能体的一双手,而大模型才是它的大脑。你给它装上什么样的大脑,就决定它聪不聪 明。恭喜你学会了给 open cow 挑大脑。接着,聪明的你又发现, skill 就是 它的工作技能,没有 skill, 它只能靠脑袋想,有了 skill, 它才能真正做事。但聪明的你又会想到一个问题, 这么用会不会很贵?于是聪明的你又搞懂了, token 就是 智能体干活时消耗的能量,大佬在赚,小龙虾在 动,业务在配合,这些都会消耗 token。 然后你又不小心发现, joker 的 效果最好,但也最贵,接一些国产模型也能干活,而且更划算。一不小心的你马上就误导了。复杂的任务用强模型,简单的任务用便宜的模型,比如每日发日报就可以交给国内的模型的小龙虾,再加上多用订阅制建立本 本地 markdown 知识库,再配一个本地小模型,透根到成本就会少很多。恭喜你已经学会了给 opencar 控制成本了。最后,一不小心,你又明白了, opencar 之所以会给人一种会干活的感觉,关键就在于它的心跳模式,也就是每隔一段时间,它会自己呼唤自己一次,去检查、去执行, 去推进任务,再配上一套检查监视,它就能及时找出高消耗任务,及时优化,它就会越来越聪明,越来越好用。不过,你已经学会了怎么样 opencar 更聪明,更能干、更省钱。我是晨晨,关注我,带你了解更多 ai 知识,我们下期再见,拜拜!

m c p 十几页协议规范,对一个 sq 的 markdown 文件,这不是功能差异,是认知差异。你到底信不信模型能自己搞定?大家好,这里是 l l mx factors, 一个专注于拆解大语言模型时代底层逻辑的频道。 今天我们来聊一个很多人可能听说过,但没仔细想过的事, anthropomorphic 到底有什么本质区别?先说核心问题, l l m 工具化领域其实只有一个根本性问题, 你信任模型到什么程度? m c p 的 答案是不太信,所以我需要定义完整的协议规范 skills, 答案是相信 给他一个说明书就行。这两个答案代表了两种截然不同的设计哲学。我们先来看 skills 到底是什么。 skills 的 设计极其简单,一个 markdown 文件加一小段 yaml 原数据描述这个技能是干什么的? 在家可选的辅助脚本就这么简单。没有复杂的协议定义,没有客户端服务器架构,它的 token 消耗也很低,未激活状态,每个技能只需要几十个 token, 因为只加载了原数据,只有当模型判断需要这个技能时,才会完整加载模型自己决定什么时候用什么技能。 anthropic 官方发布了几个 skills 势力, pdf 处理 d o c x 文档, x l s x 表格, ppt x 演示,甚至还有一个 slack gif 制作技能。它们的实现都是一样的, microsoft 文件加几个 python 脚本。但 skills 有 一个关键依赖,它需要文件,系统访问需要代码,执行环境,需要命令行工具。简单说,没有 code interpreter 这样的能力,就没有 skills。 我 们再来看 m c p。 m c p 是 model context protocol 模型上下文协议二零二四年十一月发布, 是一套完整的协议规范,目标是让 ai 调用外部工具。听起来挺好,对吧?但 m c p 的 复杂度相当高,它需要定义 host、 宿主、 clients 客户端、 servers 服务器、 resources、 资源、 prompts 提示、 tools 工具、 sampling 采集、 roots 根、 annotation 引导,还有三种不同的传输协议, 这是一个完整的系统架构。而 mcp 最大的痛点是 token 爆炸, github 官方的 mcp 实现,一加载就是几万 token 的 context 消耗,你加几个 mcp 进去,模型几乎就没有空间干活了。 有人开玩笑说, m c p 之所以火,是因为每个公司都需要一个 ai 战略发布,或者宣布一个 m c p。 实现是最容易勾选的选项,但实际用起来效果如何,那就是另一回事了。现在我们来做核心对比。从设计哲学看, m c p 追求完整规范, scales 追求极简。说明, m c p 假设模型需要精确指令, scales 假设模型能自己搞定。 m c p 的 成本高, scales 的 成本低。 m c p 实现复杂, skills 实现简单。从实现方式看, m c p。 实现一个工具,你需要定义服务器、定义客户端、定义资源、定义调用协议,一大堆东西。 skills 实现一个技能,你写一个 markdown, 可能再加几个脚本完事。从分享难度看, m c p。 分享需要代码仓库,依赖安装配置流程。 skills 分享就是发一个 markdown 文件,可能附带几个脚本,拿过来直接能用。 所以本质差异是什么? m c p 用协议约束模型行为 scales 让模型自己读懂说明书。核心问题还是那个,你信任模型到什么程度? 这件事有更大的启示。首先, cloud code 这个产品名字起得不好,它叫代码,但其实是一个通用计算机自动化 agent 能用键盘打字完成的事,理论上都能自动化。 scales 让这一点变得更加明显和显示。说一个有意思的事, simon welson 就是 写这篇文章的人, data set 的 作者,知名开发者。他在二零二五年一月做过预测,说 agent 会再次失败,会有很多人在这个名词上亏钱,结果完全错误。二零二五年确实是 agent 之年。无论你用哪种定义, scales 给我们的启示是什么?当模型足够聪明时,你不需要复杂协议,不需要精确规范, 只需要清晰的说明书。复杂度应该在模型端消化,而不是在接口协议端堆积。举个例子,假设你要做一个数据新闻 agent, 技能一,如何获取美国人口普查数据。技能二,如何用 sq lite 或 duckd 笔分析数据。技能三,如何发布到云端。技能四, 如何从数据里找到有趣的故事角度。技能五,如何用第三做格式化。一个文件夹的 markdown 文件,就等于一个专业的数据行为 agent。 还有一点很重要, scales 没有锁定 anthropic codex c l i 能用 jamaica c l i 能用,任何代码执行环境都能用,因为本质就是文本加上模型自己搞定,没有协议绑定。 最后,说几点建议,对开发者来说,重新思考你的工具设计,不要问我需要定义什么样的说明书,要模型能理解什么样的说明书。 复杂度下沉到模型接口趋向极简。对决策者来说,选择 ai 工具时有一个新视角,这个工具信任模型到什么程度?越信任,越简单,越灵活,越不信任,越复杂,越僵化。当然也要提示风险,简单不等于没风险。 skills 依赖代码执行, 这意味着 prompt 注入攻击是真实的威胁。安全刹枪怎么做是一个严肃的问题,简单的接口背后需要复杂的安全考量。总结一下今天的核心判断, m c p。 对 skills 不是 功能差异,是认知差异。你到底信不信模型能自己搞定? skills 的 简单不是缺点,是 l l m 工具化的正确方向。这里是 l l m x factors, 我 们下期见。

分享一个被大多数人忽略的事啊,同一份文档换个格式发给 ai token, 消耗竟然省掉一半,准确度还大幅提升。那据公开研究数据啊,把同一份 pdf 转成 markdown 格式,再为给 ai token 的 消耗啊,能减少百分之四十到百分之六十五, word 文档甚至能减少百分之五十到百分之七十, 回答准确率也明显更高。那这个 markdown 格式啊,是一种纯文本的文档格式,后缀名式点 m d。 那 为什么 ai 更喜欢 markdown? 那 你可以这样理解啊, pdf 里面有大量的排版信息,字体、颜色、编剧 这些,对于 ai 来说啊,全是噪音,它要花很多的注意力去剔除这些无用的信息,才能找到你真正想让它读的内容。而 markdown 几乎没有多余的格式,标题就是标题,列表就是列表,内容结构一目了然。 ai 读起来啊,就像在读一本结构清晰的书,不像在读一堆扫描件。这也是为什么主流的大模型包括 gpt cloud, 回答问题时会自动用 markdown 格式输出,因为它们在训练阶段就接触了海量的 markdown 文本,天然会说这门语言。 那问题来了,我的文件都是 word、 excel、 ppt, 怎么转成 markdown? 那 过去啊,我是自己使用的很多的第三方工具和 api 来分别处理每一种格式,非常的麻烦。但最近啊,微软开源了一个项目,叫 markdown github, 上面已经有十一万的 star 了, 热度非常的高。它能把 pdf、 word、 excel、 ppt, 甚至是图片、音频、 youtube 链接全部一键转成 markdown 格式,专门为了 ai 工作流设计的,非常的方便。那安装只需要一行命令,我放在屏幕上了。 那再来看看两个真实的使用场景。第一个,处理 ppt, markdown。 在 转换 ppt 的 时候啊,会把每页的标题转换成标题的层级,把内容转成列表,结构完整,保留了 ppt 的 逻辑顺序。这样你再把内容喂给 ai, 它读到的不是一堆碎片的文字, 而是一份有层次的大纲,总结和分析的准确度啊,会高很多。那第二个,处理 excel, 很多人把表格直接发给 ai, ai 经常搞混行列关系,答非所问。 macdunk 啊,转换 excel 的 时候,会把每一张工作表的数据转成标准的 macdunk 表格格式。数字啊,和列名的对应关系清清楚楚, ai 一 眼就能读懂数据在说什么。对了,我自己还多做了一步,把这个工具封装成了一个 skill。 以后只要你把任何的非 macdunk 格式的文件丢给 ai, 它会自动帮你转换,完全不需要你手动操作。那对了,我说了这么久的 macdunk, 你 可能还不知道它怎么写,怎么用,想学的啊。对了,我专门出一期零基础教程,五分钟让你看懂 macdunk 格式。

我发完了那个上条跟 markdown 有 关的内容啊,就有很多这个聪明机智的朋友给我留言说不用学 markdown, 说这玩意还用学吗?让 ai 自动的把它转成 markdown 的 格式不就可以了吗?我一般也不解释啊,因为 毕竟这个全网这么多的 ai 大 神,就一个文科生,又不是特别愿意好为人师。直到好几天前呢,有一个朋友在我那条视频下面留言说是不是为了省 token, 我看到这条留言之后呢,就终于眼前一亮,就是,你可说的太对了,其实就是这个原因。先解释一下什么叫做 token, 就是 我们天天在这个 ai 领域听到这个词, token 呢,是模型处理文本的一个最小的计量单位。你要是真的让 ai 把 pdf, word 这样的格式去转成 markdown, 它当然是可以干的,但是你在干的事情呢,可不叫做用魔法打败魔法,而是在花费额外的 token。 你 要知道,在未来每一次调用大模型的算力,你要花的 token, 它都是让你花钱的。当然现在有很多人在使用这个大模型的免费版本啊, 很多人也开始使用这个付费的 api, 或者是花钱买会员,但是你却不知道,你的一些行为实际上是在浪费 token。 所以 今天这条呢,就就此解释一下,为什么我们还是有必要研究一下 markdown 不 仅仅是节约 token 这个层面。举一个最简单的例子啊,我们给了大模型一句话,今天天气很好。 在大模型的眼里呢,他是这么拆分这句话的,今天天气很好,每一个拆分开的这个就叫做 token。 英文中文呢,都是按照字或者词来去计算的,那么 markdown 和 token 又是什么关系呢? 就是刚才我们说的那个意思,叫做 markdown 更省 token。 原因呢,主要是有三个。第一呢,就是 markdown, 它是一种纯文本结构,本身它是一种非常简易的语法, 一共也就是那么几个标记符号。但是你要是给一个 word 和 pdf, 它的一个底层格式呢,就不一样了,因为它们里面包含了大量的排版信息,这些都是我们看不见的,比如字体样式,比如页码、行间距等等。 当这些内容被 ai 去读取的时候呢,产生的就是大量的毫无意义的 tok。 比如你给 ai 一 千字的一个 word 文档,转换成 ai 理解的方式,它可能需要花到 一千五到两千五百个 token, 但如果你给的 ai 是 markdown 的 格式呢,那就约等于是一千 token。 第二个呢,就是 markdown 的 结构是非常清晰的 word、 pdf, 甚至这个文字识别的这个 ocr, 这个 ai 去读取的时候呢,就是连续的一一连串的文本,这里面的逻辑层级、标题、段落,全部都是结构不清的。 如果你给 ai markdown 格式呢,那这些前期的工作都已经省去,因为 markdown 已经把它结构化做好了。第三点原因呢,呃,稍微复杂一点儿,它涉及到一个概念,叫做 chunking, 知识库的切块儿 就是大模型,在读取文本的时候,它会自动地把这个内容拆成一部分一部分。如果你给的是这个 markdown 格式,它就可以按照标记语言中的标题章节段落去进行分段。但如果你给的是其他,那么它只能按照这个 token 的 数量,只能给你进行机械化的切块,也许是按这个八百,也许是按一千, 那你说这个文本逻辑它还存在吗?所以很多人在给 ai 长文本的时候都会遇到一个问题啊,就是,呃,你给他喂了一些长文本的资料之后,然后发现跟 ai 对 话的过程,他越喂越降智, 就是 pdf, 一 开始呢,他读了这几十页的内容还能理解,结果后来呢,随着你跟他的对话的一次次的来回反复,页面呢,变得越来越卡, 然后他也没有办法再去针对你离得很远提出的问题再去进行思考,就变成了一种以毒乱打。你以为是 ai 降智,但其实责任在你,谁叫你给他传的资料里面全都是你根本没有意识到的排版的涌余以及信息的噪音呢? 所以这就变成了一个很荒诞的事情,就是你用着免费的 token 调用模型,然后喂进了一堆无效数据,这不就成了又想让马儿跑,又不给马儿吃草,然后 马当然就撂挑子嘛。所以说到底呢, markdown 的 作用也就是一句话,它就是为了省 token, 为了更容易理解,更不容易降智。这回呢,你听明白了吗?

我们这里有很多网页文件,我们现在需要把它们转换成 markdown 格式。好,我们直接打开这个软件,然后点击文本工具,找到 html 转换为 markdown 这个功能,点进去将我们需要处理的网页文件全部加进来,然后直接下一步,下一步 很快就处理完成了。

markdown 节约 token, 但阅读起来特别困难, html 呢?废 token, 但是它看起来特别清楚,而且还能交互。那怎么去综合二者的优点来查看数据呢?我发现,当你有一类固定的数据需要获取和阅读的时候,你只需要做一次 html 看板,把看板和 markdown 里的数据绑定在一起。那平时呢,你只需要花 markdown 的 成本来改东西,却始终有一个能一眼看到的可识画界面。 比如说,我自己就搭了一个自媒体灵感的工作台,每天 ai 呢,只会去修改关于灵感池的这一个 markdown 文档,我就可以在这个界面里清楚地看到它。包括我的数据复盘界面也是一样,把数据写入之后,它会自动地去生成这个格式化的界面。这个看板一旦搭建完之后,我只需要去修改填写数据的那个 markdown 文档, 就可以把数据的格式化效果在这个 html 看板上清楚的看到。那今天呢,我会把怎么搭建一个这样的工作台的完整流程走一遍,每一步的 prompts 我 都会清清楚楚的列出来,你只要照抄,你就可以搭建一个类似这样的工作台。我会先来说一下整体的实现逻辑是怎样的。首先呢,你的所有数据都会保存在这个 markdown 文档里面,而 这个 html 的 渲染器呢,它不会写定任何数据的内容,它只会去你的 markdown 文档里面提取特定位置或者是特定格式的内容,然后把它渲染到这个格式界面上。所以只要一修改 markdown 文档,格式化界面就会跟着变化。 同时呢,我们还发现 html 界面还有个优点,就是它可交互,比如说我可以设置一个按钮,它是代表着某种变化,那这个时候呢,我还会让 html 自动去补过这种变化,把这个变化写回到 markdown 文档里面。在 这样一个系统下,你可以在格式化看板里做一些简单的小操作,而当你需要批量的修改或者是加入数据的时候,你只需要去修改 markdown 文档就好了。而修改 md 文档的这个步骤,你又可以通过 ai 用非常低消耗的 talk 来实现。 现在创建了一个全新的文件夹,那我们的第一个 front 呢,就是要设计好一个静态页面,这个页面你们当然可以根据自己的需求去设计,我用一个我的影视库来作为一个案例,那这里呢,我就大概的描述了一下,我的影视库是一个单页的模板,然后目前只需要做视觉框架,给我一个写死的数据来让我确认这个排版具体是什么样的。那我们第一步就先让它形成一个静态页面 啊,输入完之后呢,它就给我们返回了一版 html 界面,那在这里呢,你就可以根据你的喜好去 diy 一下这个界面的样式啊,颜色呀,布局啊等等的信息。当你形成了一版你比较满意的视觉效果之后,我们就可以输入这个第二段 from, 第二段 from 呢,就是实现文档文件和 html 的 关联,然后后面的这一些小点呢,是我在亲自实现的过程中,发现它可能会容易出现的一些错误,然后我把它补了进来, 执行完了,我们来看看它的效果。首先第一次使用的时候呢,你需要去选择你对应绑定的那个 markdown 文档, 然后为了给大家展现这个看法和 markdown 文件是固定的,我们可以去 markdown 文件里面去修改一些内容,看看它会不会反映到页面上, 比如说我们修改,比如说我们把它的评分改成改成十一点零吧,这样就可以知道它百分之百是我们人工改的。 然后我们再回到这个页面刷新一下,我们会看到这个页面里的内容确实被对应修改的,而且在这个目录下,比如说我们还可以增加一些这种 tag 的 类型,那在这个 html 看板里面,我们就能很清楚的看到所有内容。那在这一步里面呢,我们实现了 markdown 里的修改,可以反映到 html 里面。 第三个 prompt 呢,我们就要给它增加一些数据的统计,那这一步的 prompt 呢,就没有什么模板,你想要做怎样的数据统计,或者你想要形成什么样的格式图表啊,你就在这个 prompt 里面去说明它。 那现在我们就可以看到一个均分了,而且这个均分是完全根据后面有的这些数据来计算的。那如果你想要数据格式化呢,我们可以再来尝试一个新的代码,然后这个部分呢,依然是你只需要套这个模板,都只需要替换这个对应的文件名就可以了。 这个 problem 之后呢,我们就能看到这样一个简单的格式画面吧。然后这个 problem 呢,是我们要做到我们在网站里面也能生成一些按钮,这个按钮能够去修改数据本身,而且这个数据呢,你就可以通过 html 上的某些设定好的按钮快速的修改了, 然后实现之后的效果就是这样。那比如说如果我们想要修改某一行,当然因为这里是非常粗糙的版本啊,这里的修改其实基本上是你还得自己写, 但是如果说你最后真正要实际使用的话,比如说你可以完全把这个状态变成一个按钮,比如说你在这里加一个小按钮,然后如果你按成看过他就可以改,那我们可以试一下他是不是手写完之后能够永久的保存在这里,而且改到 mark 文档里面。那比如说我再把这个评分改回九点三分, 可以看看效果,然后我们可以看到现在的它这个平均分是九点七啊,而且这里的内容也是有统计的,我们来试试看,把这个也改了,改成这个想看吧。 然后我们看看这个平均分和这个内容会不会跟着一起变动,这里的变化全部都会跟随的直接变动。经过这样几个 prumps 呢,这一整套逻辑就写完了,那你自己只需要根据你的个性化需求去搭建一个,比如, 比如说你想要搭建一个播客的网站,或者是像我一样搭建一个自媒体数据的网站,或者是灵感库的网站,你都可以自己去定制,那包括这里的按钮你也可以根据你的需求去增加和修改,那这样呢,你就可以实现一个非常完美,非常高可用性的工作台了。

这是 ai 层层的一份研究报告, markdown 格式,密密麻麻的小字,你能看得下去吗?再看这个,同样的内容, html 格式有目录,有排版,有颜色区分,同样的一份内容,换个格式,阅读体验就完全不一样了。最近, cloud 库的工程负责人 terry 发了一篇长文,说了一个挺颠覆的观点, 他和他的同事现在已经不写马克当了,几乎所有的内容全都改用了 stm l。 这篇文章发出之后, ai 圈的大神卡巴西直接转发并表示认同这个观点在网上引发了大量的讨论。其实 terry 的 核心观点就一句话, 当 ai 产出的内容是给人看的时候, stm l 的 可读性是全面碾压马克当的。那么具体好在哪呢?第一点, stm l 有 可以点击的目录,如果我们需要看的内容字数很多,有几百行 马克档格式,你只能用鼠标滚轮慢慢的向下滑,而 stm l 是 可以点击目录,直接跳转到你最想看的那一段。第二点,拿得出手,你 让 ai 帮你写了一份方案,要发给老板或者客户看。如果你把马克档文件发过去,对方可能都没有合适的软件来打开。但是 stm l 是 不一样的,它是可以直接在浏览器中打开的,打开就是一个排版好的页面, 直接就能看,专业赶拉玛。另外, html 的 表格也要比 markdown 整齐好看的多,表格的内容还可以折叠展开,只看你最关心的那一部分。说到这,我给你们看一个我自己的真实案例。我在做日期选题的时候,把 tarot 的 员工链接发给了 excel gpt 做了一次深度研究, 他给我生成了一份研究报告,大家可以看一下,内容很长,而且字很小,说实话我自己也有点看不下去。然后我就给他发了这样一句话,把这篇研究报告转成 stm l, 你 们可以再看一下, 可读性一下就上来了,有目录,有分段,有排版,看起来舒服太多了。但说实话, stm l 的 好处很多,但确实比马克当韦要消耗更多的桃肯。 我认为选择 markdown 还是 html 要看具体的场景,如果是 ai 在 中间过程中产生的文件,不需要人来看,用 markdown 就 够了,速度更快,成本更低。但如果最终产出的内容是给人看的,尤其是要发给老板客户,那么我会使用 html, 虽然多花一点 top, 但是换来一个排版精美、一目了然的页面,我感觉是值的。所以限阶段并不是说 html 要取代 markdown, 而是我们要根据自己的场景选择格式 给机器看,用 macdunk, 给人看,用 html。 最后我们再聊一个有意思的观点,卡帕西说, ai 输出形式的进化路线是从存文本到 macdunk 带到 html。 未来 ar 可以 直接生成交互式的视频和三 d 模拟,因为人类的大脑大约有三分之一的神经元是用来处理视觉信息的,视觉信息是进入大脑最高效的通道,所以 html 也不是终点站,我们现在也只是和 ar 一 起从 markdown 做到了 html 这一站。 好了,以上就是本期视频的全部内容了,下次让 ar 帮你写报告做总结的时候,可以试一下 html, 我是 冰河,我们下次见。

今天聊一个很多人想问但是又不太敢问的问题,做投胎、中传,做大模型,去和文化在国内到底合不合规?先说我的态度吧,这个话题必须要正视啊,不能装看不见。哎,你要在一个赛道里长期赚钱,首先就得确保自己站在一个法律允许的 范围内,否则赚再多,一纸通知全部归零。目前国内头肯中转,这个生意啊,说白了确实处在一个模糊的地带,不是说完全违法,也不是说完全的合法,关键在于你怎么做啊,用什么模型服务什么客户,走什么渠道。 好,我先把最核心的几条法律红线啊,帮你梳理清楚。第一条红线就是未经备案的境外大模型不能在国内公开提供服务啊,这个是最最重要的一条, 根据国家网信办二零二三年发布的深层式人工智能服务管理转型办法啊,向中国境内公众提供深层式 ai 服务的,需要完成算法备案。那像 open ai 的 gpt 系列, ospec 的 cloud 系列,谷歌的 gemini 系列,这些模型在中国 没有备案呐,官方也没有在中国开展面向公众的服务。那如果你搭了一个平台,把这些未备案的境外模型包装一下,直接面向国内普通用户销售。哎,这是有明确的法律风险的, 很多小众转账做的就是这件事情。那境外模型的 a p i 套一个壳卖给国内的用户啊,短期内可能没人管,但政策一收紧,第一批被清理的就是这种。那我们再说第二条红线, 数据出境的问题。用户通过你的平台调用境外的模型,那用户的输入内容提示词啊,文件啊,代码等等就会被发送到境外服务器 中。关于数据出境的规定就涉及到啊,数据安全法和个人信息保护法中啊,关于数据出出境的那个规定啊,特别是如果你的客户是企业, 他们的商业数据啊,代码啊,客户信息啊,通过你的平台啊,传到了海外服务器,一旦出了数据泄露事件,那法律责任链条会追溯到你这个中间环节。以三条法律红线就是内容的安全责任。 你作为平台方,那对通过你的平台产生的 ai 生成的内容负有任何义务啊?如果用户通过你的平台钓鱼模型生成的违规的内容,那你作为服务提供者是有连带责任的。 境外模型不受国内的内容安全规则的约束啊,输出内容呢,没有经过国内标准的安全过滤,那这一层风险那是实实在在的 啊。第四条红线,支付和税务合规。很多小众转账用户呢,是个人的账户收款啊,不开发票不报税啊,短期没问题,金额大了一定会出问题,特别是现在做透肯分销啊,设计的资金流水可以恒大, 那税务部门呢,对这种新业务的关注度是在上升的。哎,那不是说,那是不是说这个赛道就不能做了呢?哎,不是,关键你要选对 姿势啊,合规的做法是什么呀?聚焦以备案的国产模型, deepsea、 通用千问、智普、 glm、 kimi、 mini max、 百川豆包,这些模型已经完成了国内的算法备案,在中国境内合法提供服务。那你基于这些模型来去做聚合分发啊,法律上那是站得住脚的。 而且说实话啊,国产模型现在的能力已经非常强了,在编程啊,智能体啊,日常对话这些核心的场景上面,跟海外模型的差距已经 非常小了,而且价格还便宜几十倍,你完全可以用合规的国产模型组合啊,满足绝大部分的客户的需求。好,第二个合规的要点就是注册正规主体,走正规的财务流程。要 做这门生意呢,就得把公司注册好啊,对公账户去收款,该开发票的开发票,该交税的交税,这不是给自己找麻烦啊,是给自己买保险。 当行业开始规范化的时候呢,有正规主体的玩家会活下来,靠个人号啊,收款会被清底出局的。那第三个核心要点就是关注政策的动态,预留调整空间啊。中国通信院呢,已经在制定人工智能云 token 工厂权杖服务能力要求的评估标准了啊,这说明 token 聚合风发正在从 野蛮生长走向行业规范啊。标准一旦出来,合规的玩家呢,就会获得准入资格,那不合规的玩家呢,就会被挡在门外。好,我们总结一下,嗯, token 聚合风发不是灰色生意,但确实有灰色的做法,红线在哪里很清楚。那未备案的境外模型,面向国内的公众服务数据违规出境啊,逃避内容审核义务,财务 税务啊,不合规,避开这些红线,那用已备案的国产模型来做聚合,走正规公司化运营,这门生意是完全可以光明正大的啊。那些打着低价旗号倒卖境外模型的小众转账,短期可能很赚钱,但是呢,在刀尖上跳舞啊,把政策一变,第一个倒下的那就是他们了, 认认真真做合规聚合风发的渠道商啊,反而会因为他们的退出而获得更大的市场空间。那合规不是成本,是互成合。关注我啊,我会持续分享 cocoon 赛道的最真实最负责任的行业认知啊!我们下期再见!

你现在可以将任何文件一键转换成 markdown 格式,这个呢就是微软开发的开源项目 markdown, 它的功能呢只有一个,那就是实现文档的 ai 化转换。我们都知道,在 ai 时代呢, markdown 格式是效率最高的文件类型,它 既保留了文档的结构,而且它的体积呢非常小,几乎等于纯文本。所以说呢,我们的大模型啊,都原生支持 markdown 格式, 无论我们写提示词,还是搭建知识库啊,甚至是给 ai 上传文档,最好呢都使用这个格式。而这个项目就完美契合了这个需求,它可以将你的 ppt, pdf, excel, 甚至音频、视频 都一键转换成 bug 档格式,大大提高 ai 的 效率啊。目前这个项目呢,已经有了一百二十四 k 的 收藏,可以说非常火爆。为了方便大家安装和使用呢,我将所有的这个安装包呢下载到了这个本地,大家呢, 呃,打开之后直接下载就可以使用了,我还给大家附上了这个安装的过程,大家呢想要尝试的不妨去试一试。

兄弟们,发现一个特别好用的 ai 应用啊,这个应用呢,是微软官方开发的一个把任何文档一键转换成 markdown 格式,不要小看这个转换格式啊, 这个在 ai 时代, ai 识别 markdown 格式呢,特别好用。你看这个原文件呢,在这个 github 上已经有十二万两千个 star 了,非常好用。你看原文件全部都是英文,没关系,我已经帮你们翻译成中文了。你看,微软推出的轻量级的工具, 可以把任何的 pdf, word, excel, 图片、音频转换成 markdown 格式。你看 markdown 格式,因结构清晰,且对大语言模型极度友好,进行数据分析和 ai 处理最佳格式选择。 所以呢,这个工具呢,非常好用。你看里边需要各种要创建环境,安装非常麻烦。但是不要紧,我已经呢帮大家给它转换成 你看 skill 格式了,让你的小龙虾可以一键安装,非常方便。这个技能呢,我已经给它测试完成了,你看到吗? 看,我把我这个 ai 职场课选题的一个 word 文档转换成 markdown 格式并保存,你看效果呢?非常哇塞,你看下面看到没,已经保存,在按这个点, md 就是 markdown 格式。看, 这就是已经保存好的,在我的电脑里面。这个技能呢,我已经把它打包放到这个文档里面了,需要的话啊,说一下,免费分享给你。

最近 ai 圈彻底炸了,一边说 markdown 简单干净省偷看是 ai 输出永远的最优解,另一边喊 html 才是未来!能直接生成交互界面,漂亮仪表盘,还能一键变视频 markdown 和 html, 到底谁才是 ai 时代真正的王者?


有一种格式五十年前就发明了,但今天所有的 ai 都在用,这个就是 markdown, 这可能是你目前最需要掌握的一种格式。那今天这期视频呢,我会让你彻底搞懂 markdown 到底是什么,它都能够做什么, 以及为什么它比你现在用的任何笔记方式都要靠谱,怎么在五分钟之内快速上手,全程干货?建议你看完 先问大家一个问题,你现在在用什么做文本记录?可能是 word, 可能是苹果的备忘录,可能是 notion, 非书印象笔记,或者是手机自带的便签。那这些工具呢?都很好用,但是它们都有一个隐藏的成本,你的文本真的属于你吗? 我用过市面上几乎所有的笔记软件,像 ocd 啊 notion 都用了很多年,然后像非书文档啊语却时默,全部都试过,但每次换工具呢,都是一场噩梦, 不是格式乱了,就是图片丢了,要不就是某些功能新软件根本就不支持。所以这让我开始思考,有没有一种方式能够让我的笔记永远不依赖任何的软件,永远只属于我自己呢?那答案纯文本好,我们先解决最基础的问题, markdown 是 什么? 简单来说呢, markdown 就是 一种标记语言,但你不用被这个词给吓到,它其实特别的简单,你可以把它理解成用键盘上本来就有的符号,然后来告诉电脑这段文字应该怎么显示。比如说,你想写一个标题,在 word 里面呢?你要选中文本,点一下标题的样式, 但在 markdown 里面,你只要在文字前面加一个井号,再加一个空格,它就是标题了。如果你想写二级标题,那就加两个井号,三级就三个。那如果你想加粗,把文字用两个星号包起来,想斜体就用一个星号,想列个清单的话呢,就在行首加一个减号,其实就这么简单, 不需要记住几十个快捷键,也不需要在工具栏里面找来找去打文字格式就搞定了。但 markdown 真正的威力呢,并不在于它写起来简单,而在于它是什么,它其实就是一种纯文本。 什么是纯文本呢?就是没有任何格式的最原始的文字。你可以用 windows 自带的笔记本打开它,也可以用 mac 的 文本编辑打开它,可以用手机上的任何文本阅读器打开它,甚至你还可以把它打印出来,或者是对着屏幕直接用眼睛看它,依然是完整的,可理解的。 那这意味着什么呢?意味着你的笔记永远不会被任何软件所绑架,只要人类还在阅读文字,你的 markdown 笔记就永远可读。那 说到这个地方,你可能会问,为什么现在 gpt 呀, cloud gemini 这些所有的 ai 工具默认输出的都是 markdown 格式呢?第一,纯文本呢,通常就意味着零兼容性的问题。 ai 生成的内容呢,要交给各种各样的系统处理,有的要显示在网页上,有的要存进数据库,还有的呢,要发给其他的 ai 继续处理。那如果你用的是 word 或者是 pdf, 每个系统都要装一套复杂的解析器, 还要担心版本不兼容。但是纯文本呢,直接读就可以了,任何系统都是认识的。第二, markdown 本身呢,就是结构化的,你看一段 markdown, 它可以告诉你哪里是标题,哪里是列表,哪里是重点。 这种结构呢,并不是视觉上的,比如说字体大小,而是羽翼上的,就是机器,它可以读得懂,人呢也可以读得懂,那这个就可以让 ai 所生成的内容能够自动的被处理、转换和进行再加工。第三就是它足够轻量,一段一千字的 markdown 呢,可能就只有几 kb, 同样的内容,如果你存成 word, 可能是几十 kb, 甚至是上百 kb, 那 这种情况呢,就在需要传输海量数据的场景里面,会被放大成千上万倍。 所以你看 ai 工程师们的选择呢,往往就是最务实的选择。他们并不关心哪个格式看起来最漂亮,他们关心的是哪个格式最可靠,最通用,最能够经得起时间的考验。好,说了这么多元理,我们来聊点实际的,那 markdown 到底能够解决你现在记笔记或者是文本处理时的哪些具体问题呢?我列了五个最常见的痛点,你可以看一下自己中了几个 重点。一、换软件时笔记全丢,之前呢,从某个笔记软件迁移到 note 的 时候呢,我花了整整一个周末手动的去复制粘贴上千条笔记, 而且格式呢,还全部都乱掉了,那图片还要重新上传,链接还要重新的检查。如果你用 markdown 呢,就根本不存在这个问题了,你的笔记本身就是一个纯文本文件,复制粘贴就完事了。格式是百分之百保留的,因为格式本身就是文字的一部分。 痛点,二十年前的笔记打不开,因为技术迭代的速度呢,是远超你的想象的。你现在所用的笔记软件,十年之后还存不存在都是个问题, 就算他的公司没有倒闭,他们也可能放弃旧版本的格式支持。但是 markdown 呢,一九七零年的纯文本,今天你依然能够打开,这个呢,就是纯文本的力量,它简单到不可能过时。 重点三,写笔记时分心排版。这个呢,其实是一个最隐蔽的时间杀手了,因为你用 word 写东西,你写着写着,你就会发现标题的字体不够大,你得调一下,然后你又觉得段落的间距太宽,你又得调一下。然后呢,你觉得加个颜色,加个高亮会更好看,还得再调一下 调,调来调去,半个小时过去了,一看呢,就只写了两百个字。但 markdown 呢,就没有这个问题,你打字的时候呢,就是在排版了。当你真正需要好看的时候呢, markdown, 它也可以一键导出任何的格式,像 pdf, word, html, 甚至是 ppt 都可以。 痛点四,手机电脑格式不统一。这个呢,就是因为不同平台,它的渲染引擎不一样,对格式的解析呢,也会有细微的差别。而 markdown 呢,就从根本上解决了这个问题。痛点五,搜索笔记找不到 你的笔记软件呢,只能搜索文字,图片里的文字呢,他就不认识了。但是 markdown 呢,它是纯文本,每一个字都是可以搜索的,配合一些高级工具,你甚至可以用政策表达式来做一些复杂的搜索,或者是用 get 管理版本的历史。那这个呢,我们后面会讲到, 如果你被我说动了,想试一下 markdown 应该怎么开始呢?好消息是,你并不需要学习编程,你也不需要记忆复杂的语法,核心的语法呢,其实就只有十个符号,五分钟就可以学会。我现在呢,就一个一个教给你。第一个标题, 在行首加简号,一个就是一级标题,两个就是二级标题,以此类推,最多可以加六个。第二,加粗,用两个星号包起来,就是加粗的文字。斜体就是用一个星号包起来列表。无序列表呢,我们用减号,有序列表呢,通常用数字加点 链接。方括号里面呢,我们可以写上文字,然后圆括号里面就写上网址,这样就可以访问这个网站。引用行首加大余号就是一段引用的话。单行代码呢,可以用反引号包起来。多行代码呢,用三个反引号。 图片和链接呢是很类似的,前面加一个感叹号,然后方括号里面写图片的描述,然后圆括号里面写图片的地址。分格线就是三个减号或者是三个星号表格,表格呢,可以非常方便的直接用竖线和横线直接画就可以 了。其实就这些,掌握这十个呢,你就可以写出百分之九十场景下需要的格式。剩下的一些高级功能呢,等你真正有需求的时候再查,其实也不迟。 学会了语法呢,你需要一个工具来实际写 markdown, 那 这个地方呢,我按照不同的需求给你几个推荐,如果说你是追求极简,那我会推荐 tabora, 如果你追求比较全能的话呢,我会推荐 obsidian。 obsidian 呢,现在是笔记圈的顶流了,它基于 markdown 文件,所有的数据呢,都存在你的本地硬盘上,完全是属于你的 杀手锏。功能呢,就是双练笔记,你可以在不同的笔记之间建立链接,形成一个知识网络,适合需要管理大量的笔记,建立知识体系的人。免费版的功能呢,已经很强大了,付费版呢,主要是有一些同步和发布的功能, 如果你需要协助的话呢,我会推荐 notion。 notion 本身呢,它不是一个纯 markdown 的 工具,但是呢,它是完美支持 markdown 的 导入和导出的。你可以用 notion 来做日常的协助,定期把重要的内容导出成 markdown 备份,这样呢,既有协助的便利,又有数据的安全。如 如果说你不想花钱的话呢,你就用 vs code, 那 这个也是我目前用的最顺手的。它本质上是一个代码编辑器,但是你可以装一个 markdown 的 插件,就是一个顶级的 markdown 编辑器了。完全的免费。功能强大,而且是跨平台的。唯一的缺点呢,可能就是界面没有那么的美观,但绝对够用了。 如果你已经用上了 markdown, 这里有几个进阶的玩法,能够让你的笔记效率再上一个台阶。第一个呢,就是一键导出任意格式,这个呢,是 markdown 最被低估的能力。 你写的笔记呢,本身是纯文本,但通过工具,它可以变成 pdf, word, html, 甚至是 ppt, 这意味着什么呢?就是你写一次内容可以在任何场景下使用。你如果要写个报告,导出 word, 如果你要写个网页就导出 html。 做演讲呢,就导出 ppt, 配合 git 做版本控制。 git 呢,通常是程序员用来管理代码的工具,但是呢,它同样是适合于 markdown 笔记的,你可以看到笔记的每一次修改的历史可以回滚到任意的版本,可以对比不同版本之间的差异,再也不怕误删内容,或者是想找回某个被删掉的想法了。自动化处理, 因为 markdown 的 本身是纯文本,你可以用简单的脚本来进行批量处理,比如说自动生成目录,批量的替换关键词,或者是把一堆笔记合并成一个文档,或者是按标签自动分类。这些呢,用 word 几乎是不可能完成的任务,用 markdown 的 几行命令就可以搞定了。 搭建个人博课和知识库很多个人博课和知识库呢,现在都是基于 markdown 所构建的,你写的笔记呢,可以直接发布成网页,不需要懂编程。用现成的工具呢,就可以直接的搭建你的知识,从私人的笔记也可以变成公开的分享,只需要一个导出命令就可以了。 好,我们总结一下今天的内容, markdown 它不是某种新发明的 ai 科技,恰恰相反,它就是最古老最可靠的技术。除文本,它的本质呢,并不是技术,而是数据主权。 现在大家都在用各种各样的云服务,我们很容易把自己的数据给交出去,好像我们已经习惯了方便,但是呢,却忽略了拥有笔记是你的思想,你的知识,你得花时间去整理的信息, 这些东西呢,值得你用一个可以陪你一辈子的格式来保存。今天呢,你就可以做一件事情,就是打开你的电脑,新建一个文本文件,用我教给你的这十个符号,把今天这期视频的核心观点整理成一篇 markdown 笔记。如果遇到任何问题呢,也会大家在评论区评论我是天降,我们下期再见。

大家好,今天我来试用一下我老公写的这个 skill, 这 skill 是 可以减帮你减少百分之八十到九十的 token 消耗量以及运行时间。我自己有一个痛点,我有一个社交媒体 分发的分发的工具也是在在 com 代码库里,用的是 c d p 的 一个技术,但是它非常的消耗这个 token, 因为它会用到 dom d o m。 我今天在几个社交平台发,那可以看到右下角,我是运行了多次的 c d p 多平台的分发,它大概可能三到四次,它一共就有消耗了我这么多的 token。 所以 我今天来试着优化一下,我看能不能把这个技能加进去,让我的设为分发浏览器。 ok, 好, 我开启了 pro mode, 让他来让 call to code 来帮我分析一下这个透肯消耗减少的技术方案。按照这个开源代码库的方案,把我的 call form 的 社媒 c d p 分 发的功能进行一个透肯消耗量的改进。 ok, 来看 call to, 他 给我写了一个技术方案,用这个 sk flow 的 思路来优化一下 call form 社媒 c d p 分 发的透肯消耗的问题。 它现在的问题是我们的设眉分发流程,每步都经过大模型对 n 个步骤进行重复,那么每次都会读取相同的 skill 和 yam 文档。这一部分是消耗头衔,最多会消耗三千到五千个头衔,为每个平台单独做一次工具调用, 会消耗五百到一千个头衔。实际上只需要大模型判断,只有生成适配各平台的文案。所以这个 sk flow 的 核心思路的话,它就是把 maco skill 编一成状态机脚本。对,相当于我,我们这个 c d p 分 发流程中的执行 y m l 步骤已经不需要大模型了,需要大模型的只有文案生成和错误诊断。 ok, 这是他给的一个方案的架构后肯节省预估大概有百分之九十。然后我们来看一下需要修改的文件,有这些文件, ok, 可以 看一下这边关键设计决策里面,它 说第一个是一次询问 vs 多次询问,那么这次会使用一次性的询问,而非每个平平台单独询问。第二点是 control rules 作为 data 传入 ask。 第三点是 c d p 端口检测,使用脚本自动化,不使用大模型判断错误处理,也不是每次都给大模型 feel only 模式作为默认 大模型,帮你填好了射眉的这些输入框以后,等待用户手动发布也是比较符合我们的习惯,因为他有时候填的会有一些小的误差,好让我们来跳过所有的 和眉神,让他自动执行去修改这个代码,他居然运行了二十分钟,二十多分钟终于把这个我的代码库给 又画好了,那我们现在来测试一下。我还有一个 tiktok 的 视频没发,我给他发了指令,这指令有点长,是因为浏览器控制有的时候会跟你本地的环境啊,还有配置有关系,我觉得其实此时根据我自己电脑的 环境重新调整过的,大家可以看一下,他已经掌管了我的浏览器,他已经在这里有上传我的视频,开始帮我填视频的描述以及对应的 tag。 ok, 我 这里你都没有看到我的手鼠标,因为这个全都是 ai 在 操控,对他这个封面他也会自己帮我去 手动上传。好,我们回到终端里面看,他已经全部填写完成,总共耗时只有七十五秒了,所有的地方都填好了, 我们看一下这个部的托管消耗有多少,我记得之前可能一个平台要上传个五分钟左右,现在就只有七十五秒,相当于 确实节省了百分之八十多的时间。我们刚才建的四 k 浮楼是两千两百个托管,单单平台节省百分之八十,所以八个平台加起来会有百分之九十五的一个节省。

又发现一个神奇工具,别看它只是一个六十五行的 markdown 文件,但它能让 cloud code 变得更实用,在 github 上已经快十四万 star 了。它将 ai 编程简化为四条铁律,一、在投入前仔细思考,如果不明白就去问,永远不要盲目猜测。二、用最少的代码行来解决这个问题。 三、进行精确编辑,将所有超出要求的行保持不变。四、先写测试,用力,先让它们通过,然后再做其他事情。有了这些限制, cloud 的 代码编辑变得非常稳固,同时节省了 token。

浏览器 ai 代理有个致命问题,健忘症。每次访问一个网站,它都得从头开始摸索,按钮在哪, api 怎么调,有什么坑?消耗 token 浪费钱。 browserbase 昨天发布了一个叫 browse s h 的 开源项目,一百多个精选浏览器技能, ai 代理一条命令就能安装,装完就记住了怎么操作这个网站。 它的核心思路是,浏览器代理的瓶颈不是智能,而是记忆。 browse s h 是 一个浏览器技能目录,每个技能就是一个 skill。 md 文件,纯 markdown 格式,人类可读,代理可执行, 里面记着分布操作流程,特定网站的陷阱、隐藏的 api 端点、 css 选择器、备用方案,有的还附带辅助脚本,比如排放或 shell。 举个例子, craigslist 技能里写着搜索页面是纯 js 渲染的,别用 snack chat item 零号不是 posting id, 是 个偏移量。 api 会根据请求 ip 做地理定位,加 post 参数可以覆盖这些东西。一个 ai 代理从零开始摸索,可能要花好几轮才能发现, 现在写成技能文件直接读就行。技术架构有个核心叫 autobrows 自动浏览学习引擎。 流程是这样的,给代理一个真实任务,比如晚上七点在 open table 预定这家餐厅,代理在真实浏览器里跑一遍,然后研究自己的追踪日制,在哪,卡住了在哪,猜了在哪,浪费了 token。 把这些观察写进 strategy, md, 下次迭代先读这个文件改进,就能累积跑三到五轮,策略收敛了,就毕业成一个正式的 skill。 md 手工写的技能和 autobrows 毕业的技能是同一种格式,代理不在乎是谁写的,他只读文件。安装很简单,两条命令, mpm install g at browser bc 斜杠 browse c l i 装好 c l i, 然后 browse skills add, 加上技能名就行。比如 browse skills add zero 点 com 斜杠 extract listings 就 装好了。 zero 房源提取技能 browse emv local 启动本地浏览器 browse fetch 获取页面内容 browse snapshot 拍快照 browse screenshot 截图 browse search 搜索, 在 cloud code 里可以用插件方式安装。 cloud plugin install browse at browserbase 本地模式免费,用的是你自己的 chrome 远程模式,需要 browserbase 账户跑在云端无头浏览器上,带反爬虫和验证码解决。 成本方面有个实测数据, crixlist 精准测试,没装技能的时候每次跑大概零点二二美元,装了技能之后降到零点一二美元,省了百分之四十五。 因为代理不用再反复试错了,路径是确定的,托肯消耗就降下来了,而且用的人越多,技能库越丰富,所有人受益。目录效应 目前有一百多个精选技能,覆盖房产、餐饮、旅游、政府网站、开发工具企业 sauce, ramp, lovable, poke reducto 这些公司已经提交了验证过的技能。跟其他工具比一下, playrite 和 selenium 是 确定性脚本。没有 ai 参与,也没有记忆,每次都得自己写逻辑。 microsoft use 这类 ai 浏览器代理完全靠 ai 及时推理,每次都得重新摸索,没有记忆积累。 clock computer use 和 open ai c 位也是纯实时推理,托肯成本高。 browse s h 不 取代这些工具,它是夹在它们上面的一层记忆技能里,甚至可以包含 playwrite 脚本作为辅助工具。国内目前没有直接对标的产品, 但这个思路可以用在任何国家的网站上,淘宝商品抓取、幺二三零六订票、政务门户操作都能写成技能文件。 browse s h 适合什么人做浏览器自动化的开发者?用 ai 代理做网页操作的团队,或者想降低浏览器代理偷看成本的 c i l i 和技能目录,完全免费。开源云浏览器是 browserbase 的 付费服务项目。地址放简介了,感兴趣的可以看看,有用就一键三连,下期见。

经常刷别的 ai 博主的标题党, markdown 格式要被 h t m l 格式淘汰,他们两个根本是两回事,怎么存在淘汰关系呢?今天啊,我也给大家演示一下,同时我还送给大家一个小工具,喜欢的点个赞,它可以 对这个生成的 ai 生成的 ppt 进行一个精修。今天我们要聊的内容就是 markdown 永远不会被 h t m l 淘汰,因为它们两者是分工关系,并不是一个替代关系。 markdown 格式就是给 ai 看的, h t m l 格式就是给人类看起来舒服的,那么它们两个究竟是什么呢?直接举例子,比如说我们正常跟菜鸡屁聊天的时候,它会有这种大标题, 小标题其实就是 md 格式。那什么是 html 格式呢? html 格式就是给人看的, 它就是相当于是网站,我们网页能呈现的 html 格式都能呈现,因此它们是一个分工关系。 为什么现在大家要讲 html 要淘汰 macdunk 格式?因为现在 html 格式它变得更加容易获取了,它的 token 更加便宜了。我们可以让 ai 把 macdunk 格式加工成一个网页格式。 macdunk 格式它也有它的好处,就是它非常的小,因为它是纯文本,没有复杂的一个书写的嵌套,没有一个复杂的代码嵌套。那么我们现在用我们的工作流要怎么做这件事情?就是我们可以用 强的模型做 markdown, 用便宜的模型再来进行 html 格式,也就是说我们需要看的东西,需要展示的东西,我们让 ai 进行一个深层加工,这就是咱们普通人的工作, ai 工作流也是我的工作流,我会把我的想法做成口播,然后做成 macdunk 原文件,然后 ai 继续加工,再生成网站 ppt 展示和传播, ok, 但是 html 格式它也有一个非常大的缺点,除了咱们刚才说的大以外,给大家展示一下这个 ppt 网站,如果你要是进行一个编辑,没有一点代码能力,也没有一点 ai 基础,它是非常困难的,所以 html 格式 对于电脑小白来讲非常的困难。今天我们也做了一个 ppt 编辑器,想改哪里就直接改哪里,不用像这样子改代码一样去修改,非常的方便。 直接给大家演示一下咱们的小工具,我们只需要打开这个小工具之后,导入 ai 生成的 ppt, 噔噔进来之后,左边我们就可以给他选页码,这里还有增加页面,复制页面, 删除页面,右边我们就可以把他的网站格式给解析,之后我们可以给他增加各种功能。我 ai 给我们生成的 ppt, 你 不懂代码也可以去修改,这是看咱们本期视频的一个福利,我到时候把这个小工具也 发到我的评论区。好的,具体还有更多的功能,以及你们想要加更多的功能,也可以从评论区把我这个项目打包走。我们继续把今天的话题给结束了, 就是不要二选一,把你重要的东西做成 macdunk, 方便 ai 进行管理。做成原文件,然后你想自己亲自去看的时候,用便宜的模型直接转换成 html 格式,让人阅读舒服,学习更多的东西。 然后这个编辑器也送给大家了,这就是今天所有的 ai 内容了,如果对我的做的小工具感兴趣的话点个关注,谢谢大家,拜拜。