粉丝90获赞1281

最近我收到最多的后台私信就是 token。 既然是个新的大众商品,那普通人能不能自己生产 token 自己卖?今天一条视频给你讲清楚。先说结论,能生产,但你算完账,你就不会干了。我们来算一笔账, deepstack 目前最火的大模型,它卖 token 的 价格是多少?输出,每百万个 token 三块钱。 一百万个 token 是 什么概念?大约相当于五十到七十万个中文字,一本书大概十万字,也就是说, ai 帮你能写将近七本书的内容,只收你三块钱。反过来说,你自己要生产这一百万 token, 至少得花几十万买个 gpu, 装一台服务器, 二十四小时不断电。就这样,你的一台机器大概需要十几个小时才能生产出这一百万个 token。 而且这个你还没有算你的工程师维护机房电费和宽带费。 deepsea 为什么能卖三块钱?因为它拥有几万张 gpu, 同时跑,一天处理上千亿个头梗,成本被摊到几乎为零。这就好比你自己在家养了一头牛,挤了奶想拿出去卖,一瓶卖五块, 你觉得能赚,但是你一算,买牛花了两万,饲料每月两千,一天只能挤几斤奶,隔壁蒙牛一天出几千吨,一瓶卖三块钱还能赚?你的奶不比它的差,但是你的成本是它的一百倍还要多。 这就是普通人生产 token 面临的问题,不是做不了,是做了一定亏。所谓普通人在 token 这门生意里的正确姿势,不是自己生产 token, 而是用便宜的 token 去创造贵的服务。 举个例子,你用 deepstack 花三块钱买一百万个 token, 让 ai 帮你写十篇小红书文案,通过小红书的文案带货去赚钱,那么你的成本就是三块钱。 你赚的不是 token 的 差价,是你知道怎么用 token, 而别人不知道的信息差。再举个例子,你用 ai 帮一个小型企业搭建一套 ai agent 的 token, 成本可能不到十块钱,但你收企业五千块钱的咨询费, 企业买的不是你那十块钱的 token, 而是你的判断力和方案。不要去跟巨头抢着生产 token, 要去想怎么用三块钱的 token 创造三千块钱的价值。生产 token 的 钱留给巨头去赚,用 token 去做赚钱的生意,才是留给普通人的机会。我是文思,关注我每天带你看懂 ai。

大家好,我是一个大耳朵学生,给大家分享一下我是如何用十分钟补出了某东的 h 五 st, 全程我只用了一条指令,就是这个将这个路径下写好的爬虫脚本和抠下来的网页源码啊, 有写好的爬虫脚本和抠下来的网页源码。现在就差补环境了,你可以利用本地现有的 js, 逆向 m c p 工具以及本地的 skills。 这个 skills 是 我第一次, 第一次补的时候啊,这个 ai 他 自己踩了很多的坑,然后我让他把这把自己踩下来的坑总结成一个 skill 啊,总结成一个 skill 之后,第二次再补的时候,他只花了十分钟和一块钱的托肯就把这个 hst 给补出来了, 然后这里就说将环境补齐,知道爬虫代码可以跑出数据,然后还反问一下,能理解我的意思吧,然后他说的就是明白你的意思,你要对京东的 h 五 s t 参数签名进行补环境,让爬虫能正常跑。我先加载相关的 sky 和查看相关目录, 然后这个就是我跟他的对话消息啊,就是他自己的,你看他这里就开始补环境了, 然后啊,也没有多少消息,总总共就这么多啊,只花了十分钟,用了一块钱。托肯 给大家跑代码,看一下效果啊,这个 evan, 这个 evan 是 它的补出来的代码啊,这里就是它补出来的环境,一共是五百多行。然后这个 py 代码啊,给大家运行一下, 可以跑出对应的效果啊,这个验证是因为我跑太多次了,所以才跳出来的啊,这个没关系啊,没关系 啊,我还想说点什么,我自己也忘记了啊,我想说的是现在就是 ai 挺强的,但是不要啥都交给 ai 啊 啊。不过呢,我自己最近也挺焦虑的,因为 ai 实在是太强了,所以说给我也干焦虑了。如果说有什么, 有哪位兄弟有什么好的建议啊?你可以在评论区说一下,我会参考参考的,缓解一下我的焦虑啊。

最近好多天没有更新视频了,这段时间基本都在迭代 c c 杠,哈哈。这个开源项目先感谢大家,前两期视频的话讲,这一个项目也破了百万播放,那这个开源项目现在也突破了十 k star, 但这期视频我不想做。这个项目的战报,我想讲背后更有用的一件事情,为什么现在一个人真的有机会把一个产品做起来?现在大家讨论 ai 写代码已经变了,它不是简简单单一个写代码的工具,而是真的能够进入项目里面,理解你的上下文,执行任务,接受验证的一个 a 镜头工作流 真正的价值。哈,我认为是把想法实现、验证、反馈、修复,练成一条可重复运行的一个工程链路。 那这件事情他之所以能成立,他首先不是靠单一的一个模型,他需要外部的一个环境去配合模型。现在能够理解更复杂的一个上下文 啊,浏览器能力,它也可以去验证一些网页的功能。如果你是一个桌面端软件,现在的 computer use 整个操作也非常的 ok, 那 你也可以使用 skill 插件,把一些重复的能力沉淀下来。所以说结果不只是写出来的,而是能够能跑出来,看出来,验证出来。 那普通人的话,可以先从这一个最小的闭环开始,先想清楚问题和目标,再让 agent 去做第一版,做完的话不要着急去相信它,要让它去验证,不管是用浏览器也好, computer use 也好,该打的日字这些都要有, 那验证出来,出问题,再把问题交回去修复。如果你的这个循环越短,那迭代就会越快,最好是从项目的开始阶段,你就把这个质量门禁给它设置好。打个比方啊,你可以让他写断言测试, 然后必须强制要求代码的覆盖率,你有了代码覆盖率的保证,继续让 ai 去完善这一个 e two u 的 验证等等。那有了这个质量门禁的把控,你做功能迭代,你就会迭代的更快更稳,而不是反反复复的去纠正。 那拿我们这个开业项目 c c 杠哈哈的数据来说哈,不是为了炫耀,在最近这四十天的话,达到了一个十 k star, 总共完成了六百多个 commit。 那 关于桌面端这块的话,完成了三百五十五个 commit, 就 单日最高的一次的话,每天大概提交了四十四个 commit 代码,这个迭代速度真的非常快。那这三十天的话,我大概烧了 七十亿的 talk 嘛,主要是 gpt 五点五, cloud 四点七,还有国产的 deepsea。 那 这些数字真正证明的是什么?就一个人是真的可以借助 ai 把想法实现验证,持续的跑起来。 那我们这个开项目哈,最近迭代最多的就是这个桌面端的功能,其实很多的代码呀,像桌面端软件,我以前从来没有设计过,就是写的不深,而且关于前端这一块,像 t s 这些我平时也是不会写的,但是我大概知道我想用的一个软件大概长什么样子。还有就是很重要一点, 要去聆听大家的一个功能反馈,像我们在英雄里面,你需要去识别哪些是可以做,哪些是快速,可以去叠带的。而且现在有很多很火的软件嘛,很多功能很好的地方,你可以去借鉴下来,比如像这个功能,我就是借鉴扣贷 app 的, 就完全把它那个功能完全就可以摘过来的。那至于其他的一些功能,就是只要知道最终的产物是怎样子的, 那就可以完全去交给 ai, 让它去做,而且实现的速度也非常非常的快。让它去做自我验证这件事情真的非常非常的重要。打个比方,你像我们这个桌面端软件,它有非常多的功能,我需要去并行的去做,那我人工去 check 的 话,其实功能一多时间就非常非常的长。 你先让它把最基本的那些单元测试,覆盖率一推一测试,然后自动化测试,不管桌面端也好,浏览器也好,先让它让 ai 去完成,无非就是烧点托盘嘛, 完事之后你自己在这个项目要发布或者 release 的 时候,自己去做一个,真正的一个就是全流程的测试嘛,那也就一次性的,这样子的话,也就是说质量就会有一定的保证。虽然我们这个项目现在还有很多的 bug, 但是没办法, 因为毕竟是代码嘛,都会有 bug 的, 就是发现 bug, 快 速的让 ai 去修复,去验证,然后人工再去切克就 ok 了。所以我觉得未来哈,如果还不接受 ai 写代码的人的话,会越来越难。并不是说不会某个工具就完了,真正的门槛变了, 从首销代码变成了定义问题,组织上下文,然后判断结果,建立验证的一个闭环,那 ai 不是 让你不用负责,而是让一个人也有机会把完整的产品跑下来。 ok, 那 这就是这期视频所有内容,我是大家,我们下期见,拜拜。

你有没有发现,同样是写一段文案,有的 ai 秒回钱省钱,有的 ai 半天不说话,一开口就刷掉你几块钱的 token。 在 二零二六年, ai 的 竞争已经不止是谁更聪明,更是谁的智商更廉价。今天我们要搞一场硬核实验,拿一百块钱预算去买 g p t gemini、 豆包和 deepsea 的 脑细胞,看看谁才是真正的性价比。之 在 ai 的 世界里, token 不 能简单理解成单词或者汉字,而是模型理解世界的最小语义单位,你可以把它想象成乐高积木。有的模型分词器很粗糙,一个汉字要拆成三块积木。国产模型像豆包和 deepsea 对 中文做了深度优化,签字消耗可能只需要七百个 token。 这意味着还没开始比创作海外模型在中文语境下就已经自带两倍溢价了。为了公平,我们放弃网页端,直接在 microsoft 环境下通过 openclaw 网关调用 api 原型。为了方便测试它们的性能和性价比, 决定给这四个 ai 发送同一个赛博朋克设定大纲,要求他们扩写出一张一点五万字的科幻小说,并且同步生成五十组风格迥异的短视频口播文案。我们要兼顾的指标有三个, 一、输入压缩率。同样的设定,谁组的偷看更少。二、逻辑消化比。为了理清这一点,五万字的剧情, ai 在 后台偷偷思考了多少。隐藏推理、抽空。三、缓存命中率。在多人对话修改中,谁能帮我们省下那该死的重复计费? ppt 五点五 现在 g p t 是 公认的全科状元,指令遵循极其精准,几乎不废话,但在计费上显然有点尊贵了,一百块钱在他这儿大概只能买到五百多万个速度透支。 g p t 的 文采确实是编剧级别的,他写的阔写小说人物湖光极其精准,指令遵循度几乎是满分,但在 open core 的 日子里,一百块钱在他这儿烧的实在太快。杰伦三点一 pro, 来自世界搜索引擎大厂 google 的 jimmy 价格略低,一百块钱能买到约四百九十万个速度透支。 它的必杀技是原生两百万超长上下文。实验表现,当小说写到一万字以后, g p t。 开始出现角色性格崩坏,但 jamal 依然能精准记住开头埋下的 伏笔。这么说,如果你在 openclaw 里挂载了整个公司的历史爆款文案库做参考, jamal 的 性价比会瞬间陡增,更适合做自媒体文案工作。超长片小说或海量资料的文案重构豆包国产选手入场,画风瞬间变了。二零二六年,豆包 pro 的 报价极度震撼,输入三点二元百万 token, 你以为的一百块钱,你能买到惊人的三千一百万个输入头梗?实验表现,豆包的作文语感非常灵,他知道现在的流行梗虽然在处理极其深刻的哲学思辨时略显平庸,但在生成口播文案时,他的速度和成本优势简直是降维打击。 最后是卷王 deepsea, 它的单价低到离谱,简直是强大的推理模式。它是唯一一个能精准指出我大纲里逻辑冲突的模型。虽然它在写文案前会产生大量的思考 token, 但单价只有 g p t 的 几十分之一。实话说,在内容创作上,它写的小说并不能算得上有趣,其实这也不是它的强项, 限于 p f 有 限只在文案能力上进行测试。如果你对不同大模型在代码能力等其他方面的表现感兴趣,不妨评论区留言,我会根据大家的需求再去产出有关的内容。在 ai 爆发发展的时代,与其追求最强模型,不如发挥不同模型的个性和优势。 聪明的创作者不应该只盯着一个模型用,而是要在 open code 这种多模型网关上根据任务难度灵活录用,这才是顶级开发者的机操。

半个月花了近两亿 token, 总结出把工作交给 ai 最低效,最花钱的事就是把所有工作都丢给一个 ai 工具。我这半个月连续给我的带货项目做了好几个自动化。一开始我的做法很简单, 也是大部分人会这么做的,直接让 open coil 自己写脚本,改脚本,跑脚本,结果他确实也跑出来了,但头肯消耗特别大,速度也比较慢,因为他经常会卡在一个地方,自己在那里转很久。而且我的 open coil 比较高冷,他不会主动告诉我现在做到哪一步了,到底卡在哪,是脚本错了还是配置错 了,他就是自己在黑箱里来来回回的修修补补。他一工作我基本就是两眼一麻黑。有一次我发现他来来回回好像在用同一套方法解决问题,我就让他先别改了, 先告诉我这个任务相关的 skills 跟脚本文件到底放在哪个目录里,然后我把这个文件路径复制给 codex, 让他去改一下。一开始我真的只是想试一下,看看换一个工具解决问题的方法会不会不一样,结果我发现就是不一样, open core 赚了一两个小时没搞定的东西, codex 三两下就改好了。而且更丝滑的是, codex 不是 把跑通的新代码发给我,让我再复制粘贴回 openclip, 它是直接在原来的文件路径里找到原来的脚本和 skills 直接修改。改完之后我回到 openclip 里,输入任务名,直接就能用。如果后面跑着跑着又出问题, 我也不用重新来一遍,我直接回到 codex 之前那个任务界面接着改就行了。从那之后,我就换了一种工作方式, codex 负责写脚本, open call 负责按脚本跑流程。以前是 open call 一 边想办法一边写代码一边调试一边执行,什么都要干,所以它容易打死结, open 也烧得快。现在 codex 先把脚本和 skills 改好, openclo 只负责调用它们去执行。这时候 openclo 不是 在临场发挥,是在跑一个已经设计好的流程。自从我这么分工之后,确实工作花的 token 少了很多。我没有严格的数据证明,毕竟我也没有真的认真算过同一个任务用 codex 跑比较便宜还是 open core 直接跑比较便宜?但对我来说,我的感觉和总花销就是我的证据。用 ai 提效,不一定是你换了一个更强的模型,而是你终于不再让一个 ai 工具承担所有角色。 写脚本的就让最擅长写代码的工具来做,跑脚本的就让最适合调度任务的 agent 来跑。 codex 造工具, open core 根据工具跑业务。这个组合是我最近用下来最顺的,也是成本最低的一套打法。

我用 ai 做了一个自动去看简历匹配度的一个 agent, 他 能帮我去便利我列表里面的所有岗位,然后提取岗位信息和我的简历,去进行一个匹配度的一个积分,然后把最终的结果发给我,但最终打招呼这波还是我自己去判断。现在正在跑一个测试岗, 我刚才拿我真实的这个简历信息去做了一个试跑和匹配,在跑的四十个岗位左右的信息里面,他给我推荐了三个我适合我投递的,非常巧的是,这三个里面有一个我真的投递过,而且拿到过面试机会。 我用大模型的能力和我给他设计的一套打分的算法结合起来,去评估一下这个 g d 和我的简历的匹配度和一些硬性条件的匹配度,最终得到一个打分,我可以去设定,比如说超过八十分就推荐我去投递,会给我生成一个推荐结果。这个是刚才我们在浏览器里面试跑的十个岗位,邮件里面会给你分成打招呼和跳过的,这个就是推荐打招呼,这个没有改,文案没有改, 我们看下这个简历,是我真实的岗位,是随便找的第一个推荐我投递的这个岗位要求有产品的一些基础能力经验,要求要有 ai 的 设计经验,要有金融、汽车教育背景。看下我的简历为什么是匹配的?前面是我自己的这个真实简历,十年的中后台经验,有过支付结算、叭叭叭叭这些经验, 所以我在方案设计的这个基础能力上是没问题的,但是缺乏 ai 相关的产品设计经验。我简历确实没有写他要求的这个行业,只有金融部分是做过一点的,其他的确实是毫无关系,但是他说的也是优先, 我们也没有完全卡死在我的简历里面。加分项是有数据能力,有团队观经验,扣分项是没有 ai 的 落地案例,所以它整体给我打了一个八十分,这个就比我自己在海量的这个 j d 里面去搜 low 会快很多。我们看一下打分比较低的啊,看下这个三十分的印染产品经理, 这个明显就是一个实物的产品经理,但是我不知道 boss 有 的时候会给大家推荐一些这种产品,完全不匹配,你还要点开去看,我们就可以直接拿 ai 把它删掉,就不用看了。 看一个这里面得分都相对比较高的,这个六十五的,看一看市场产品经理,行业研究生命周期要求五年内优先,新能源电力充电桩,看看这个为什么不符合技术能力的匹配度是比较高的,规划跨团队协助数据分析,但是业务领域完全不匹配。之前给我过的那个八十分的大家还记得吗? 有一点匹配,所以有得分,但是这个完全不匹配就没得分,这点要求这些领域都没干过,缺乏行业背景,可迁移性有限,所以就只给了一个六十五,不推荐投递。我觉得整体我这个打分逻辑做的还是不错的,我比较欣慰的就是我竟然把它跑通了。在做这条视频的时候想补充几点,第一就是我能感受到这些数据对于平台来说都是非常重要的资产,所以反爬做的非常厉害,我完全能理解, 我只是拿下来比对了一下,我就扔掉了。基于这些数据对于平台来说如此重要,那你们一定不希望三方拿过去再做一些进步的加工。但是对于不管是招聘方来说还是求职来说, 匹配简历去刷这地都是一个非常大量的体力劳动。我觉得如果 ai 的 能力能够实现更高效匹配的话,还是推荐平台主动去把 ai 能力接起来。 作为产品经理,我其实能理解,如果当下核心的计费逻辑是通过打招呼这种方式去计费,其实更高效的促成精细的撮合,对于平台来说并不是优先要考虑的利点,但是首先平台之间有竞争,谁先做出来了,谁就能获得一个更高效的招人和找工作体验。 其实作为先发优势方来讲,可以把这个产品打包卖一下,我们尽量尽量赚一下 b 端的钱。有一些着急招人的一些岗位,比如说让他买一个 ai 人才包或者这种东西,你通过就这种 a 针的匹配的能力,把 你把你库里的这些简历数据和岗位 g、 d 去做一个 a 针匹配和打分,把非常匹配的钱多少个人扔给企业,让企业可以更快的找到这些人,是不是也非常的不错?话术会来可以给 c 端提供什么价值?如果你有大量的他和岗位匹配的一些结果数据,其实可以帮他做 更有针对性的简历修改和能力提升的,建议帮他更好地匹配到市场上的职位,是不是比单纯的信息撮合会更往前一步?

搞爬虫项目不要再手动分析了,手搓代码了啊,咱们就 ai 能够来轻松实现国内各种爬虫项目,今天就来给兄弟们来看一下我最近的 ai 逆向的成果,以及究竟消耗了多少的投费。牛逼! 关于爬虫逆向 ai 工作流的搭建,详细的文档已经给大家准备好了,需要的话可以进行自取。哈喽,抖友们大家好,最近有人在问啊,就是我们这个 ai 逆向它到底行不行,以及目前我的 ai 逆向的研究进度是到了哪些水平呢? ok, 首先我向今天的话给大家来呈现一下我目前所完成的九个项目,那么这九个项目的话,我全程都是通过 ai 来完成的啊,然后它里面的话也是有很多的内容啊,可以看一下,一个项目的完成周期,有短一点的可能是一两个小时,长一点的可能有七八个小时,最长的像 cfo 顿的心跳包,目前的完成时长差不多要三十多个小时。 ok, 那 么这里我们简单来看一下我的目前的整体的项目的完成逻辑。 ok, 这里的话我通过我的绘画啊来做了一个整体的一个理解,目前的话这个是我们专门针对像目前市场的,也就是我们的验证码这个板块啊来进行的 edit 的 一个使用。 当然除了这个验证码板块之外,目前像在 web 端的 js 逆向端,以及还有像我们的 app 端也在陆陆续续的进行一些啊它的一些更新。那么首先我们可以先看一下这个是目前我们当前的这整个工程的完成结构,里面分别有第一个滑块验证码,纯协议逆向 看啊,滑块第一极延四,目前这个极延四的话是有完整的实现了纯算的参数加密和它的补环境的参数加密两个逻辑识别才能云码以及轨迹生成, 然后还有就是云片验证码,还有一个蜂巢的瓦块拼图验证码,以及 v 五的 web socket 验证码,还有这个是前程,呃,这个是五 u, 呃,那个五 u 啊,前程五 u, 然后它里面的一个滑动验证码,阿里的二三幺,然后这个的话是我们的 c f 盾,也是同样的采用了 note g s 的 v m 补环境加它里面这些逻辑也是纯协议完成。 然后其次就是阿里的验证码,目前阿里云的话,我们是分别有完成的三个阿里的五感验证,有分别有 v 二验证, v 三验证,其次还有个是他们的阿里的官网的 nvc 智能验证, 呃,简单看一下啊。然后其次你可以看一下这个是我们的总体逻辑啊,目前在里面的话有整体的项目结构,而且都是可用的啊,并且是有完整的项目文档,并且都是已测试已通过来获取参数生成加密,提交验证,并且获取对应的 ok 以及对应的登录状态,完整的都是成品代码, ok, 那 么这个是目前我们通过就是在验证码端口所来完成的一些工作,各位感兴趣的朋友们可以好好去玩一下啊。这里的话有使用了很多模型,不只是用我们的 deepsea, 像有 v 四 pro 版本,其实也有使用到了 gpd 的 五点四,然后也用到了像 colod 的 一些模型, 然后在最开始的时候我们也用到像阿里的这个,给大家讲一下,它里面有个混合模型,就是这个极致版的混合模型,目前它具体是混合哪些我也没有了解过,你们感兴趣可以去了解一下。 可以整体来讲啊,是非常不错。那么这九个项目的完成到目前的话,我们大概总消耗的话,积分的消耗额度大家可以看一下啊,这个是九千,当然这个九千是包含了很多其他的,目前就光验证码端口的实现的话,其实说实话他的整体消耗可能只有将近才三千多左右的额度, 才三千多积分的额度,整体来讲还是非常可观的,如果朋友们感兴趣,大家都可以去动手去试一试,来完成目前市场的一些 ai 逆向结构,那么。

我在 cloud code 里面使用 linux 微四 pro 写了一天的代码,那一天 talking 用了四点七二亿,关键是它命中的缓存非常的高,再加上它现在限时优惠,命中的缓存价格一百万, talking 只要两分五 啊,这个把整个模型使用的成本降得非常的低。下一期我会讲一下使用这四点七亿 talking 开发出来的一个工具,看看 linux 的 实力到底怎么样。

如果你写爬虫时经常被验证码拦住,或者你的 ai 一 访问网页就被识别成机器人,那么这个项目值得你认真看看。它就是 cloak browser, 一 款基于开源内核深度修改的隐身浏览器,通过在底层代码上打补丁,直接消除自动化程序的痕迹。 市面上大多数反检测工具走的是注入脚本或者修改启动参数的路线,网站一更新,这些手段就容易失效。 而 clock browser 的 思路不一样,它在 chrome 浏览器的原码上打了四十九个补丁,重新编出了一个定制版的浏览器。补丁覆盖的指纹维度非常全面,画布三维图形、音频、字体、显卡信息、屏幕分辨率、网络地址、加密协议特征等等全部做了修改。 在官方测试中,它能通过三十个主流反爬站点的监测,验证码评分从普通自动化工具的零点一直接拉到零点九,达到真人水平。 他还提供了一个人性化模拟开关,开启后鼠标移动走平滑曲线,按键有随机延迟滚动,模拟真实节奏,连空闲时的微小动作也做了模拟,从指纹到行为,相当于从头到尾把机器人特征修了一遍。 北京使用场景包括采集数据、管理多个账号自动化测试以及需要操作网页的 ai 项目。代码采用开放许可证,没有订阅费用。这个项目的核心价值就是不试图伪装脚本,而是从底层重构浏览器本身,让自动化环境看起来就是一个真实的普通浏览器。我们下期见。

在亚马逊上赚钱这么简单啊,昨天我讲过用 ai 来写书,然后发布到亚马逊上去去卖,我两个小时内就写了五本,然后现在已经发布上去了,已经有一些已经通过审核了看,比如说这一本, 我现在定价是十九块九毛五。这个事干起来其实不难,关键就是信息差。大概的过程我可以简单说一下,就是首先你把呃你要让 excel gpt, 然后帮你 选择题,呃,主要选择题的内容呢?就是选呃,一个痛点啊,就是说找到人们经常关注的痛点,然后有一些解决办法, 把这样的一些提示词告诉拆的 gpt, 让他帮你选题,他会帮你选出来一系列的题目。然后呢,呃,把这个题目再继续给拆的 gpt, 或者给 jimmy, 让他去帮你完成八到十张。第一步,先列个大纲,让他列一个八到十张的大纲, 然后呢,再继续让呃 jimmy 吧,呃,告诉他每一张写八百到一千个字, 这样这一本书就能够写完了。然后最后啊,要注意,你要是呃在亚马逊上去卖,你要肯定要有一个好看的封面,所以你可以用 kanwai 来帮你生成这个封面, 就这么简单。然后整个过程呢,其实你要如果说一步一步自己做还是有点麻烦,所以我把它写成了 skill, 这样就是你只要告诉他帮我写书啊,然后剩下这个视频,我就把整个的过程全都自动化了好了,大概的过程就是这样啊,如果 这个视频点赞超过一百,那我就把这个开源出来, 有人说你开园就开园呗,钓什么鱼啊?是这样的,就是呃,通过点赞呢,主要是想了解,想了解大家对这个事情是不是感兴趣。 点赞的人多就说明大家对这个事情感兴趣,那开园才有价值,否则的话开园出来也没人看,对吧?

scraping 的 文本提取速度是二点零二毫秒, beautiful soup 是 一千五百八十四毫秒,差了整整七百八十四倍。这个项目目前有超过四万颗 star, 今天一天就涨了一千多。写爬虫的你一定遇到过这三件事。 cloudfly 反爬,直接拦截,网站一改版,选择器全废,想做个完整方案,得组合三四个库, 这些就是 grappling 要解决的问题。 grappling 最厉害的地方是自适应追踪,你第一次抓取的时候 auto 下划线, safe 保存元素的精准特征。网站改版后, adaptive f 模式会通过相似度算法自动重新定位,支持 css、 xpath 文本搜索,正则匹配,甚至能自动找相似元素, 速度比 auto scraper 还快五倍。 grappling 的 feature 分 三层,第一层纯 http 请求,能伪装 tls 指纹。 第二层完整浏览器自动化,能渲染 javascript。 第三层隐身模式直接穿透 cloud fyre 的 验证,每一层都支持同步、异步和 session 管理,还内置代理轮换和 dns 防泄露。 spider 框架用 scrapey 风格的 api, 但加了很多工程化能力, 支持并发爬取多 session 混合路由。最关键的是断点续爬,按 ctrl 加 c, 优雅暂停,重启后自动恢复进度。还支持实时流式输出,边爬边处理,内置 jsn 和 jsn 导出,也支持自定义。 pieline 还内置了 mcp server, 可以 直接跟 cloud 或 cursor 集成。 工作方式是 scrapping, 先把网页的关键内容提取出来,再把精简后的数据传给 ai, 这样大幅减少了 token 消耗。 抖音让你的 ai agent 自动拥有了网页数据采集能力。四万颗 star, 四十五个版本迭代 bsd 三开源协议,完全免费,不管你是爬虫工程师还是 ai 开发者,这个项目都值得一看。关注我,下期继续带你发现开源宝藏项目!

一个命令就能让 ai 编程节省约百分之八十的 token。 这个工具叫 r t k, 安装完成后,只需一行初识化命令,它就自动插在 ai 和终端之间,你原有的操作习惯完全不用改。每次让 ai 处理任务时,终端会输出几百行内容。原本 ai 必须全部读取,每一行都在消耗 token, 但真正需要的其实只有关键信息。 r t k 会过滤掉这几百行代码输出,只把核心内容留给 ai 信息一点没少, token 却省下来了。它还会记录每条命令具体省了多少 token。 这款工具开源免费,支持 cloud、 cursor、 windsurf 等十二种工具,帮你自动滤除噪音,让 ai 只读有用信息,避免 token 浪费。

卡拉库的能够写几百万行代码,写个几百万字的小说应该没啥问题吧?番茄上这本解锁未来黑科技,我带国家充新计。这本小说就是我们小伙伴用卡拉库的全程写的,总共是五百张九十万字 头壳话费,这个就不知道了,今天就让我来带大家解锁这个新技能关,前提是我是程序员,不是专业作家。本期视频就纯粹的分享一下技术给大家, 让我们开始用豆包类网页。 ai 写小说最大的问题就是长文本的一致性,三十万个字以后就容易出现这种逻辑硬伤,比如前面某个配角已经死了,后面又突然冒出来了,又或者是世界观不一致,都是小说女主角重金求子,仙侠世界的老道长,但又不能把整本小说全部丢给 ai 模型,受不了,你的钱包也受不了。我们的解决办法就是用 color code 一个写代码的工具,按工程化的方式去构建小说,不是把整本小说全部丢给模型,而是选择性的进行处理,最后输出成小说。 具体的做法就是三步,第一是搭建这个整体框架,第二是约束 ai 在 框架内进行正反的创作,第三是让这个 ai 进行自动的审稿,有问题我们再回到整体进行修正,形成一个不断优化的这么一个闭环。为此我们是设计了 bug skill 技能, 现在有了 color code 加模型加 skill, 就 等于你的专属的小说创作平台,你就能够进行低成本的进行这种专业化的小说创作。其实那些付费的创作平台就是这么干的,现在你只要为大叔点个赞,你就能够免费的获得这个专业的能力,关键是修改的自主权全部都在你们自己手里,我们继续 这 bug skill 看上去很复杂,其实一点都不简单,好在所有的操作全部都是 ai 自动化的,你无脑的一路,下一步也能够完成一本及格的小说。 但是你要想拿高分挣稿费,你就必须得明白这里面的创作流程,然后不断地精进,然后我们要把它拷贝来,然后放到你的电脑里面。呃,这里面 windows 和和那个 mac 差不多啊,所以说我就直接在我的 mac 上面进行演示了, 然后拿到之后的话,大家把它解压,解压的话你可以改个名字,就是叫做我的小说,它就是个工程,然后我们就可以进入到对应的这个终端里面去,用那个 color code 打开 好,里面只有个 call 的 点 md 文件啊,时尚,它里面还有一个隐藏的目录,我们也可以用另外一个工具,用工具的方式把它打开,然后大家看的更清楚一点,那这里面的点 call 的 这是个隐藏目录,里面的话,所有的 skill 都放在这里面,你看像这个就是制作封面的 啊,就是封面相关的,这个制作是怎么怎么制作对应的这个技能,然后这个是制作大纲的,这个是进行一个编辑的啊, 然后这个 card 点 m d 的 话,它是呃告诉 card 到底怎么去使用这些 skill, 怎么进行一个正版的创作啊?它全部都是一个自动化的啊,自动化的。接下来的话我们就开始,我们先从选题开始。好,我们要进入到 card 里面去输入 card 好点吸引这个目录,我们先测试一下对应的这个,呃模型是不是畅通的啊?我们说一个哈喽,而且他你看他回了一句,呃,欢迎回到小说的创作项目,你知道他为啥知道这个这个项目是要创造小说嘞? 他不是说根据你的这个目录名字,而是他你每次发起任何请求的时候他都会把这个拷的点 m d 一 起发个模型,模型就知道。哦,你这是要创作小说了?好,接下来的话我们可以问他,呃我应该怎么开始 啊?比如说我们现在问他我应该怎么开始他这个时候他就会告诉你,呃,你要先创作这个选择题,然后再制作这个大纲之类的啊,可以呃我们先来创作一个选择题吧啊,就假设,呃。 创作一本小说,程序员被卖到泰国,然后变性成为女王的故事。 ok, 然后可以了啊,这个时候我们就开始创作这个选择题,这全都是自动化的啊,全都是无脑的。 好,然后我们就等这个时候,你看他这个是主题的技能,他利用这个技能然后去开始创作这个主题。 这个 token 的 消耗的话,主要是输入 token 输出的 token 是 比较低的啊,你看这里面总共才八百二十二个 token。 八百二十二个 token 才多少钱? 一百万个 token 才两块钱,八百二十二个 token 你 们自己算多少钱啊? ok, 基本上可以忽略不计,但是输入了 token 这个就比较多了啊,至少是上万的啊。 ok, 因为它对应的系统的提示词非常的多,它对应的这些 skill 的 这些技能啊,都全部都要发给这个模型,而且来来回回要发好几遍。 好,现在的话它就已经帮我们选择了三个题目,我被卖到泰国,靠代码成为女王,选美娱乐圈逆袭流,选 a 吧,选 d a, 直接跟他讲选 d a。 好,接下来的话他就会在这里面给你生成一个选择题的这个文本文件,就我们就可以进行下一步就是这个核心设定了。看这里面啊,他就已经生成了这个选择题,被卖到泰国,我靠代码成为女王。好,接下来的话我们就开始进入到这个核心设定, 我们直接跟他说继续简单这无脑下一步就可以了。但如果说你觉得这里面不符合你的这个要求,或者是跟你的预期有差距的话,你可以直接把它改,改完之后的话,到时候这个 color code 就 会基于你修改的这个呃,内容进行一个创作。 现在就是这样子的,就是如果你去做的话,那么你舞蹈下一步也能够打六十分,但如果说你想打八十分九十分的话,那么你就要在这里面投入很多的一个精力和心血啊,对它进行一个调整。 好,那个核心设定已经完成了啊,那系统问你要不要就按照这种方式啊?如果说你觉得不对的话,你可以让他先修改啊,那这点我们咱也不改了,就直接确定吧。 好,这样子他就会生成这个核心设定。呃,他的世界观等级,他的世界规,世界的规则,系统的等级,因为这是系统文啊,金手指的一个系统出发条件。 那如果说你经常看网文的话,那么这些你肯定比大叔还要清楚啊,还有他的主要的反派。接下来我们就要进行大纲,大纲是整个小说的一个核心,那我们直接点继续。 大纲总共分成三层,第一层是卷,然后第二层是他对那单元,每个每个小说的话大半,大部分情况下至少是五到十个卷,然后每一卷里面,然后再又是十几个单元,每个单元里面再是五六个章节啊,加在一起的话就将近 呃,几百个章节啊,这个时候的话他就要生成三份文件啊,就是先做,先是卷整体的卷,然后再是单元,然后再是大章。一般的话我们是先创作一些前面第一卷第一个单元,前面五六个章节, 然后去番茄上试一下,如果觉得行的话我们继续写,如果不行的话我们可能就要换一个风格。好,分卷大纲的话已经完成了,总共我们是五个卷啊,第一个卷是新生崛起、博弈、涅槃加冕。 好,确定,这个时候我们就做好了这个分卷大关,第一卷,第二卷,第三卷,第四卷,现在我们开始写第一卷的。呃,剧情单元,十二个单元,每个单元是五个章节。 好,这第一卷的十二个单元我们终于是搞定了啊,然后我们让他继续。 好,这个时候这是第一卷的巨型单元,总共是十二个,待会的话我们就要创造第一单元的。呃,前面五个章节的一个大纲啊,看这个,这个,这整个的大纲是层层递进的,先是大,先是卷,再是单元,再是章节。 他现在的话让我们创建这个。呃,第二卷的巨型单元了,我们就先先别让他创建,我们先。 好,我们的第一张大纲写完了,我们确认啊。好,这个时候的话,分卷大纲已经有了,剧情单元大纲也已经有了啊,然后这个是第一单元的章节大纲,第一章、第二章、第三章, 第四张和第五张。好,接下来的话啊,我们就可以开始创作了啊,可以,即使你这个时候你呃退出去重新再进来,对吧?一般情况下,如果说你用网页 ai 的 话,那么对应的这绘画就丢失了, 然后这个记忆也就丢失了,但是的话,你用 color code 的 话就没有这个问题了,因为因为他待会创作的时候, 你看现在我们重新进来的话,是一个新的绘画了,这个时候你让他继续开始创作的时候,他一定是按照你的选择题,你的核心设定,你的标签简介,你的分卷、分卷大纲和矩形单元和分卷大纲去进行创作的,他绝对不可能去瞎创作的啊。这个时候的话,好,接下来的话我们就可以跟他讲,呃,开始创作第一章, 甚至你直接说继续都可以啊。好,我们还是指令还是发清楚一点啊?创作第一章 点确定好,这是第一张我们就已经写完了,我们我们让他开始写第二张 啊,他下一步是审稿,我们就先不审稿啊,我们先把前面五个章节全部写完之后我们再再进行审稿。 好,这里面第二张也已经写完了,那第一张,第一张,第二张, 我直接让他编辑第三四五张吧,我们直接开始编辑第第三四五张。 哎,他编辑之前他不会直接瞎写的,一定要把之前的进度给他读一遍他才知道怎么写的,有记忆的话他会保持一个一次性啊。 好,已经写完第三张了, 第四张也已经写完了。好,现在开始写第五张啊,第五张写完之后的话整个一单面就已经完成了啊,然后的话我们就可以进行一个呃,审稿了。 好,全部都已经写完了,这里面输出的话已经是八点九 k 啊。 像这种文像这种操作的话你是可以随时中断然后随时继续重新开始的啊。你不会说我我写完之后下次不小心断电了之后我又得重新开始啊。这个不会 开审,第一至五张 审稿, 反正基本上这个有手就行,但是刚刚大叔这样子一路下一步操作的话那这个质量肯定你想拿高分肯定是 要要碰运气的。基本上写完之后你得自己看,你得自己一张一张把它给看了,然后觉得不对的要随时给他进行调整,但也不要太细了,因为很多时候你觉得不对可能读者觉得对或者你觉得对的地方读者不一定感冒, 所以说我们还是得去拿到市场上去验证之后才能得到这个效果你才能够有有这有这个网感。当然了这个我不是专业作者啊,所以说我发表不了专业的意见啊。 他这里面会进行打分啊,他是本单元质量已经达到九十分。九十分以上啊,优秀了,但这东西就是他自己省的,自己自己打分。确实你不能够完全相信他啊,所以你还是得自己去看。我就直接说请修复 好完事啊。呵呵,那我们这个演示就差不多就结束了啊,当然还有一个封面图没制作啊,那么待会儿我们也演示一下,帮我制作 封面图参考选择题,要让你强制跟他说一下,你也给自己按一个啊。 好,这个就是它的修改,我们可以选择这个,让它直接自动化全部修改。 我们的修复已经完成了啊,这个时候差不多你就可以把,你就可以直接把它上传到这个番茄小说去了,去试试水,如果做那个读者感觉还行,我们就可以继续往下更新,不行的话我们就可以去调节,构建一个新的故事。好,这个这个是封面提示词, 这个封面提示词的话也很简单,我们就直接把它复制过来,然后用豆包去生作图就可以了。 嗯,你也可以用别的模型啊,自己去调,反正这个都不要钱。 被卖泰国,我靠,代码成女王。可以可以。 哎,感觉差不多啊,这风格。这是谷歌的 gamer。 最后我们来看一下到底用了多少这个 token 啊? a p i 开放平台, 然后用量信息,今这都是。这都是今天用的啊,总共是花了一块钱啊,如果我用那个就不用这个 pro 模型,用这个 flash 模型的话,这个价格应该只有它的三分之一,大概就是三毛钱的样子, 一个章节估计就是五分钱,哈哈,这么算下来的话啊,我我我算一下吧,假设,假设我们就按一毛钱来算,三百个章节乘以零点一, 那也就是三十块钱啊,看一下你们能不能把这个 token 的 钱给他挣回来啊,当然这个还不止啊,因为你还要审稿了,还要改之类的。 最后我们总结一下,直接在网页上和 ai 对 话,无法写出这种专业的小说,必须使用 color code 这类本地的强 a 技能才行。第二是小说创作,三部曲 搭建框架,论文创作和逻辑神稿有问题,再回头改形成一个闭环。第三,收藏不等于学会行动才是。那估计有人就会泼冷水了,网文市场是一片红海,卷的不行了,现在还能够挣到钱吗?说的也对,如果说你想着一下子要写出一个爆款来,靠它年入几十个 w, 这不切实际。但如果说你就是想把你的幻想变成小说给自己看,或者给你周边的人看,这有什么不行呢?你就是想学习一下,接触一下 color code 的 这类专业的 ai 工具。从小说开始的话,这是成本最低的,因为它的 tokyo 的 花费相比做视频的话,它的成本是它的几十分之一。 前 open ai 的 技术总监卡帕西曾经说过,判断一个人有没有跟上这个时代,就看他每天有消耗多少 tokyo, 让更多的人能够跟上 ai 这个时代就是我做视频的初衷。前段时间一直是忙着挣税,营停更了几个月,真的是很抱歉,但纵使生活不易,我还是想为大家坚持这份热爱,我们下期视频再见!

我上个月花了四十个亿的 token, 相当于花了多少钱?那今天就跟大家来聊聊这个事,就是关于 ai 时代的 token, 它是怎么样去算钱 啊?先拿我那四十个亿的 token 来举例啊,如果用的是克劳德这个模型的话呢,大概就是两万多美金,也就是十几万人民币, 如果换成 deepsea v 四的话呢,大概就是几千块钱吧。好,那么聊到这里呢,呃,你最近有没有经常听到你身边的小伙伴,或者是经常刷到别人说 啊,我动不动就花了多少多少 token, 多少多少 token 呢?其实 ai 时代的 token, 我 们如果换成一个简单的理解的话,你可以把它理解为 ai。 呃,读书写字时候啊,消耗了这个计量单位, 嗯,他不是一次性付费的,他是按照干了多少活来给你去计算的。举个非常接地气的例子,就类似于你去打印店 打印资料啊,他并不是说你完成打印资料这一件事,他的价格是固定的,他要看你打了多少张纸 来算钱的,就是每一张纸的定价是多少,然后按照你最终的这个数量来进行算钱的。好,理解了这个概念之后呢,我们接下来就要讲到下一个知识点,就是我们如果去用 ai 的 话, 怎么样去节约 token, 就是 我们怎么样用到最少的 token 去做最多的事情。特别是我们现在很多 企业当中,如果要运用 token 的 话呢,那么这条视频应该蛮有帮助的。在讲这个之前,再多植入一个概念啊,我们 token 分 为两种, 一个叫做输入 token 啊,另外一个叫做输出 token, 你 给 ai 的 东西就叫做输入 token, 然后 ai 还给你的东西就叫做输出 token。 举一个比较简单的例子,就好比你要厨师把菜谱炒出来就贵了。 好,那么其实最终的总结就是决定我们用 ai 做事情的价格的是三个因素,第一个,你用的模型是便宜的还是贵的?第二个,你是输入多 还是输出多?第三个,你有没有重复的塞给 ai 很多没有用的内容 啊?就很多公司其实它透坑烧得快,它并不一定是 ai 本身用得多,而是这个公司的用法比较浪费。比如说你想让 ai 帮你去改一个标题,但是你却给了它一整本这个产品的宣传手册, 那么如果你这种用法的话呢,就会非常的浪费,因为你的输入很多,然后输出只有一点点啊,这就好比你上学的时候,暑假作业有一道题不会做,然后呢,你却把整本学习资料全部扔给老师,你说我其中一道题不会做 啊,那么老师就要把所有东西全部看完一遍啊,再再还给你,就是这个道理。所以看完这一期视频的小伙伴就可以以后 啊,用 ai 的 时候呢,就可以先自己思考一下,我需要用这个 ai 去得到什么,那么我可以怎么样的给他最少的东西,让他给到我我最想要的这个东西? 嗯,这个以后是一个蛮值钱的技能,因为啊,所有的人都能用 ai, 谁用更少的 toc 做出更多的东西,就会在 ai 时代变得更加的有竞争力。

哎呀,编程有很多坑啊,我分享一下我踩过的坑。第一个踩过坑什么呢?就是我以前开发社会,一个个去问就遇到什么问题,哎,这里有 bug 给我修复一下,遇到什么问题提一下,就想到哪里就跟大家做,等他做完再提, 这样效率很慢,然后其实效率不是很快,然后呢?他的号拖克号非常高,这样效率非常,这是一个坑。那怎么解决呢?就这个西红柿,他是可爱,这个是我改过一个版本的他,你看他的我改是怎么改的? 呃,他是首先先要他要归档这 task, 就 每次重新开始之前他就会帮我把这个 task 的 任务归档一下,就把做完的就算做完的把我清理掉,放到放历史里面去, 这样的话我后面可以去锁眼,去干嘛去,去追踪都可以。好,清空之后第二步是干嘛?第二步是找我这个开头有没有任务了,没任务我就跳到步骤十, 持续优化模式,就是他会自己过去优化改十个优化建议自己去优化好,如果有任务那接着做,如果有任务展示信息,展示任务信息开始执行,按执行完成,立即边写怎么做的,他会告诉怎么做边说明写入 task。 这个我踏实任务踏实个里面去,不要等后面统一写他的前,前面就开始写一条,就去做一条让他写,做完之后再去执行验证流程,他就做完之后他会验证一下 好,然后这个在这一个并标记成,如果是做完了,标记个叉并添加完成时间,并并实时说明验证结果,对吧?把这块都都写清楚,并每一条完成之后立即去写禁止 统一下,这里是重复的形式。好,如果当前任务因为什么依赖什么阻设的话,那么直接就依赖原因跳到第八步,继续下个任务哈。嗯, 就这样,它会一直循环,就哪怕它做完了之后,它还会去写,给我写十个任务,再接着做,直到等我这把。因为 vsco 的 吗?它是以按绘画来计算的,所以说我一次绘画可以跑二三十个任务,然后呢? 直到它上下文不够,它自己给我断掉,然后再接着跑坑,这一天跑两条,跑两次绘画,那两次绘画嘛,就消耗百分之一二个点了。 好,这是第一个坑,第二个坑。那么测试时候就比如说发现了个 bug, 对 吧?发现 bug, 好, 我要去修复它,修复它时候不要去,不要去说,哎,修复这 bug 不要这样去做,因为你会你会测出很多 bug, 所以 你再去修复的话,你会一直在测测测时间很长时间,你可以找一个 skill 测试,给它全自动化的模拟人模拟界面去测试,你看我的一些 m c p 里面有应该有很多测试的 skill, 我现在一下不好找,就找一个测试 skill, 让他用 ai 去找,就说帮我找个测试 skill, 测试前端优化,前端测试后端测试接口验证数据的,怎么去验证,对吧? 好,找了之后如果你发现一个问题,你就跟他说帮我排除类似的问题,并排除一下,这样的话它就会全部排除下,就没什么问题了。所以说测试啊,测试这样提高性能的好。第三步, 当我们其实去交互的时候,要写很多文档,其实也可以用 ai 去写文档,像什么有一个 ppt 的 一个 skill 啊,专门写文档的,它可以做成 ppt, 还可以做成视频,有些需要视频介绍的话可以做成视频去介绍, 嗯,这也是个 ppt 的 skill, 对 吧?就我这里面会有很多很多 skill, 嗯,然后会把还有还有就是二卡时候他老是会用到一些新技术, 因为新技术的话,嗯,你不要呃,每次都要去说,哎呀,不要用新技术或者是什么会把你档案搞乱,其实这个也是可以可以去避免的,就是把我们的规则啊,把我们这个项目,比如说我们这项目里面规范啊,然后一些环境规则呀,一些 一些已知的一些需求啊,勾勾个 ai, 让它吃透,然后代码,对吧?就第一句话就说,你先深度理理解我这个项目,然后分析我的需求,然后理解我的需求和并且 你讲的秘密规则,然后并且把它们做成 skill, 把把秘密规则做成 skill, 把环境做成 skill。 然后你再加一句,不,如果现有技术已实现,就不要去用新技术,这样的话他就不会去把你的代码搞乱,而且然后再加一句,他会去,因为我这个任务他会去归短的话, 所以说他每次做的东西他会都会把你的需求归短,好,下次他也不会做乱。嗯, 这个时候踩过的三个坑都可以往上解决了,如果在开会中还遇到什么坑,可以在评打到评论区,说不定我已经踩过,或者说我评论区,我评论区里面很多高手,有同行的技术人员,他会给你答案。关注我,每天分享一点 ai 编程技术。

哈喽,下班了,在写托困津学的稿子。哇,到了交稿日必须得加班搞定了,我一下子用了好多的 agent 抗体,哈哈哈。 呃,告大家一个小窍门吧,怎么把这个在 work body 或啊在 cold body 里啊,它可以把这个抗体的激发出来。就是你跟他说 啊组建一个 agent team 或者叫呃,启动一个 agent 小 队类似的吧,就是有的情况下是可以把它调出来的,它就可以开多个窗口帮你去做同样的工作啊。我这次写书的过程中体会到,哇,真的是 啊。认知就是可以扩展认知,比如说你对第一张修改的内容修改的一些基本的原则,就扩展到第三张,第五张啊,第七张去。对,就它可以有这样的一个效果。 呃,然后也深深的感觉到了这个就是 ai 生成内容还是有很多不完善的地方,然后还是需要你去跟他磨。就是因为里面有很多的逻辑错误,比如说从 a 推到 b, 这个 a 到 b 中间的逻辑的思维链是断裂的, 这个还是挺明显的。呃。然后还有就是未来我觉得人的注意力非常宝贵,然后消耗更多的 token 去减少人的注意力消耗是一个必要的事情。所以这两天看到 opencloud 的 创始人,他说他消耗了九百多万。呃,一百多万美元, 折合下来是九百多万的人民币啊。一个月我是多少有点理解的啊。但是这个事情是不是可持续的,或者说是不是所有人都能够有这样的资源去用啊?是不一定的啊。今天已经没劲了,改天再跟大家讨论这些问题吧。嗯,拜拜。

你写的那行代码哈,在法律人眼里跑两种路,一种是跑在授权之内,另外一种是跑在边界之外,调个 a p i, 拿点数据,在你眼里,那只不过是几行代码的事,没偷也没抢,但是在法律人眼里,他不这么看,做开发的也好啊, 搞数据的也罢,你手里的那个所谓的合法的账号,那串 token, 那 把钥匙,可能正在替你打开一扇通往高墙的大门。 老杨啊,一个搞智能化平台公司的老板,中标了一个规划项目,需要查一些数据,合作方公司就从被害单位一个科技公司手里借了一个收益辅助系统的临时账号,转手就交给了老杨。老杨登进去一看,哇,这数据全细, 之前心里的算盘就开始打的啪啪响了,于是啊,他就让他的员工上了爬虫,四十八小时六万次的请求,一千八百万条的数据被硬生生的搬空了,那么被害单位这个科技公司的监测系统就亮红灯了,被迫关停 啊,业务就瘫痪了,被害单位就报警了。罪名,非法获取计算机信息系统数据罪。老杨到案之后还嘴硬,账号是给的呀,数据是全部能够 合法合规的看到的,那么爬虫他只是提速,怎么可能是犯罪啊。那么有账号有授权,这个到底有没有可能构成犯罪啊? 很多人啊,听到这,尤其是写代码的兄弟们,可能会撇嘴,有账号不就是合法的吗?我就是多下载了一点数据,这个顶多算违约,怎么可能就刑法伺候啊。这话啊,在茶馆里边是有道理的,但是控方他不这么认为。控方的逻辑其实很简单,第一, 老杨他虽然有账号,但是临时账号的授权范围,他是封顶的,时间有限,条数有限,导出有封顶, 那四十八小时六万次的访问,一千八百万条的数据,这个远远超出了授权范围。那么在空房眼里,这个就叫超越授权。第二啊,就是技术手段,在空房眼里,他是非法获取微信聊天记录,里边老杨的员工 写着感觉要把他们的服务器搞崩了,我就担心他们发现我们使用的数据量太多了,这个在空房眼里就是明知越界,你仍然干了, 妥妥的主观有故意。那么第三就是情节严重,一千八百万条数据,被害公司系统关停,直接的经济损失九万多块钱,这个就达到了司法解释情节特别严重的标准。三步走完,在空房眼里罪名成立,量刑三年起步。 那老杨的这个操作技术上,他到底越了什么界?空房他凭啥定他是非法?那么辩护的空间又在哪? a p i 啊,烂大街的词大家应该都不陌生, 应用程序编程接口,说白了就是系统它对外暴露的一个端点,那么你按照协议的格式发送 http 请求, 服务端它按照接口规范返回数据,但是啊,它每个端点的后边都挂着访问控制策略,谁有权限来调这个接口?那么请求的频率上限是多少?返回的字段范围有多大?这些啊,全部都由服务端说了算。那么服务端它正常的一个健全链路是这样的, 先是用户登录,之后服务端叫验凭证签发 token, 客户端他携带 token 在 请求 header 里按照授权的范围访问 api 资源,那么每个 token 他 都绑定了权限的策略,可访问的 api 端点,单次响应数据条数、 访问频率、域值,白纸黑字,这个都斜死在了服务端的 r b a c 策略表里边儿。老杨啊,他手里的这个临时账号儿,就是这种模式。 被害公司给的权限明明白白,登录时段受限,查询的条数有上限,单次导出量有封顶啊。也就是说,他这个 token scope 是 收着写的,只给你读的权限,不给你批量导出的权限, right limit 卡着呢,一分钟掉不了几次。你是客人,只能是待在客厅里边,卧室是不准你进的。但是老杨他没有老老实实坐在客厅,他让员工写了一个专用的爬虫程序。 那么正常用户啊,他在前端页面上操作,他走的是 b s 架构的渲染链路,他受前端 ui 层的分页限流空间的约束,一条一条的看啊,一批一批的导。 老杨的爬虫呢,他直接绕过前端的渲染层,向系统的后端 api 端点发送高频的 http 请求。他把页面级的浏览,硬生生的拉成了数据库量级的批量搬运。打个比方啊,你进图书馆,借阅证上边儿写着是每次借三本, 那么你不,你偏偏是搬了一个传送带到图书馆里边去,一车一车的往外拉,那么你手里是有借阅证,但是你干的这个事,他早就不是在借阅证的借阅范围里边了。 被害公司,他设置了三道反爬措施,密码验证下载范围限制、条数速率限制。这三道老杨的爬虫,他一道没碰,一道也没破,他根本不需要去破,因为偷啃,他是合法牵发的健全中间件一路放行, 它只是在授权通道内把请求 qps 和数据吞吐量拉到了系统设置的极限之外。这个才是关键啊,授权给你看招标数据 啊,你把全库的原始记录全部都搬走了,那么在这个 api 健全模型里,这个就叫阅权访问合法的身份啊,越界的操作。那么问题就来了,超越授权, 或者说是越界操作,他在这个刑法第二百八十五条第二款规定的非法获取计算机信息系统数据罪这个范畴里边,他不仅仅是一个商务授权,他必须要做技术的一个考量。 老杨他手里有合法的账号,他走的是正常健全通道登录的,那么 token 是 服务器合法签发的,他没有破解密码,他也没有植入木马, 也没有绕过 w a f 防火墙,没有对健全中间件做任何的攻击,没有触碰任何一道安全防护措施,它只是在授权的通道内把请求 q p s 和这个数据吞吐量 超出了这个 scope 的 约定。那么从计算机技术的角度来看,非法侵入它的内核,一定是突破系统的安全防护措施,你得先破防,之后从破防的地方进去,这个才叫侵入。老杨他没有破防,他只是拿着合法的 token 进了门,只是在授权的范围之外多翻了几个 api 的 端点。 简单来说啊,就是老杨的账号,它虽然是一个临时账号,但是它也是一个授权账号。从技术层面来看的话,它是系统主动签发 token 的, 它调用的 a p i 端点也是授权通道内的,即使老杨它存在扩大使用范围这个情况,但是它是在没有突破系统的安全防护措施的基础上, 服务端正常的一个交互。所以在服务端来看的话,老杨他是一个正常的访问,正常的使用,所以他并没有超越技术上的授权范围。所以本质上来说的话,即使老杨有超越授权的这个情形,也是超越了商务上的授权, 所以他不属于绕过安全防护措施之后拿走了里边的数据,所以应该是构不成非法获取计算机信息系统数据罪的。这个变点啊,是指指定性,那么定性一变天地宽。 还有一个问题啊,就是九万块钱的损失,这个裂缝在哪?认定情节特别严重的支柱啊,是被害公司系统关停期间九万块钱的既定服务费的损失,这个地方要仔细看啊,系统关停 他是老杨的爬虫直接搞崩的,还是被害公司发现异常之后自己关的?如果是公司自己主动关的,那么关停期间的这个损失能不能全部都算在老杨的头上?那么因果关系在这断了一节,你主动关门歇业,那么这个损失却让这个爬虫背全部的锅,这个啊,他是站不住脚的, 九万块钱,他是犯罪造成的直接经济损失,还是被害方他自主决策的间接损失,这个一字之差啊,情节特别严重,可能就变成了情节严重,量刑档次直接降一档,甚至有可能达不到坐牢的标准。最后啊,还是给所有跟数据打交道的兄弟们 两句忠告吧,第一就是合法授权,它不等于无限授权你手里的 cookie, token, 账号,这些都是绑着权限边界的,越界就有可能是越限,越限就有可能会入行。那么 api 是 门,它不是洞,钥匙,它也是有开门的范围的, 它不是通票。第二啊,就是一旦出事了,第一件事啊,不是删代码,是保全证据。你的调用日制啊,授权协议啊,接口文档啊,聊天记录啊这些啊,都有可能是辩护的,重要的证据丢了的话,那么你可能真的就只剩嘴了。 代码啊,它是工具,不是我们的护身符,授权,它是边界,也不是通票,那么技术,它是没有法外之地的键盘,它也不能替我们挡住法锤。江湖路远,守法平安!关注幺律师,为自由辩护,为正义发声!