多模态理解和生成的区别以及结合点！#InfoQ #大模型 #腾讯混元 #编程 #程序员

codex多模态是什么

10

1

3

分享

举报

发布时间：2026-05-14 10:13

粉丝2.2万获赞12.5万

相关视频

01:05
GPT 5.6现身？Codex更新加速 Codex 环境疑似提前出现 GPT 5.6 记录，说明新一轮模型测试可能已在后台推进。同时，Moonshot 与 DeepSeek 合并传闻升温，Kimi 也被卷入整合讨论，或将影响多模型与多模态能力布局。
#GPT5 6
#Codex #OpenAI #DeepSeek #Moonshot #Kimi
查看AI文稿
AI文稿
在 gpt 五点五这条线里， codex 环境又被发现出现更早的 gpt 五点六记录，像是在悄悄做新模型测试。更值得注意的是，五点五刚上线不久就被抓到五点六的痕迹，说明这条迭代线可能比外界预期推进得更快。更耐人寻味的是，外界还把内部代号 g p t spot 拿来对照，猜测它可能是 g p t 五点六甚至更强版本的前身。虽然目前更向后台试跑，但这类信号通常意味着新一轮能力升级已经在路上，值得持续关注。据了解， monoshock 和 deepsea 正在走向合并，如果这一步最终落地，带来的就不只是团队重组，而是技术路线的重新整合。外界更关注的是双方是否会借此推出面向多模型的新能力，把原本分散的技术战统一起来，直接影响后续产品形态和竞争格局。 kimi 也被卷入这次合并传闻，外界普遍解读为产品线和模型能力可能要重新整合。若传闻属实，最值得关注的就是他能否补上多模态与多模型协同这块短板，直接影响后续产品竞争力。关注全球 ai 速递，获取更多 ai 前沿资讯。
18全球AI速递
00:48
每天半小时AI知识 | OpenAI Codex不只会写代码你以为Codex只是个写代码的工具？OpenAI刚刚发布重大更新，把Codex从"编码助手"升级为"全能型助手"（Codex for almost everything）。现在它不只能写代码，还能直接控制你的桌面——打开应用、浏览网页、编辑文档、执行命令，就像一个真正的助手在帮你工作。这是OpenAI对标Anthropic Claude Code的重磅反击。AI的边界正在从"代码编辑器"扩展到"整个操作系统"，从"单点工具"进化为"系统级能力"。想象一下，你只需要说"帮我整理这周的会议纪要并发邮件给团队"，Codex就会自动打开Outlook、提取会议记录、生成总结、发送邮件。这不是科幻，这是现在。
查看AI文稿
AI文稿
你以为 codex 还只是个写代码工具？ openai 这次直接把它升级成了能真正替你做事的全能型助手。以前的 ai 只能告诉你步骤，现在的 codex 已经跳出编辑器，能直接调用你的整个操作系统。它靠多模态视觉和 o s 级控制看懂屏幕、操作鼠标键盘。你只要说整理本周会议纪要并发邮件给团队，它就会自动打开邮件提取记录，写好摘要并点击发送。这就是 openai 对 cloud code 的正面回击，也意味着 ai 正式从单点工具走向系统级基础设施。所以，别再把 ai 当成打字机了，给他一台电脑，他就是你真正能干活的数字分身。
40AI酋长Andy
04:22
我试了 Codex 最新 Chrome 插件，已经不像 AI OpenAI Codex 今天上线了全新的 Chrome 浏览器插件。
这次更新最大的亮点是：Codex 已经能够连接真实的 Chrome 浏览器，在不打断你当前操作的情况下，自主运行独立标签页；同时，还支持多个 agent 并行开启不同标签页，协同处理任务。
从“写代码助手”，正式进化为真正可执行、多线程协作的 AI Agent。

#Codex #OpenAI #Chrome插件 #AI #Codex更新
查看AI文稿
AI文稿
好，我们一起来看一下 codex 呢，在五月八号进行了一次最近的更新，增加了一个昆姆扩展的插件，那这一次呢，我们一起来看一下这个插件和相比于其他的方式去操控昆姆有什么区别？好，我们直接点击这个电脑操控这里呢，大家可以看到这个会有存在一个啊昆姆插件这么一个选项，就是我们点击管理可以看到增加了非常多的配置，比如说像权限历史记录下载上传，那这里呢提供了非常丰富的这种权限控制。嗯，我们可以通过安装这个插件和 codex 呢进行建立关联，这时候可以看到我们的这个 codex 呢就连接上了当前这个浏览器，那出现了这一个绿色的图标，就说明我们的 codex 呢已经可以完全的托管这个浏览器了。那我觉得这是 codex 呢像全自动操控浏览器迈出的一步哦，我就挺有趣的，所以今天给大家做一个分享。那如果你把这个开关打开之后呢，接下来呢我们就可以直接去操控了，但是你会发现一个小细节，就是如果你是在国内的环境下，你就直接点击这边去打开呃，安装插件的界面，你会发现这个商品并不能够安装，所以大家呃可以通过我提供的这么一个压缩包去进行补充这个啊插件，好吧，呃，我们来往来看啊，首先我们来看一个很容易被大家混淆的东西就是，嗯，目前 codex 本身来说是有浏览器，那他操控浏览器和我们的这个插件有什么区别呢？比如说我们在这个 codex 中使用软件到一般是这边新建一个窗口，在侧边会有一个浏览器的选项，那其实这也是我们的第一步，就是我们的这个呃， in app browser，这是我们的一种内置浏览器，它本身来说是用来调试的，用来开发的，所以和我们这个插件更新是没有任何关系的，所以大家不要搞混了。那第二种呢？叫做 browse user，这个是用来操控类似浏览器的，这是相当于前面的这个 in app browse 呢，又往前走了一步，比如说我们在这个设置这边呢，哎，去又往前走一步，这有一个，这个什么有一个啊？ browse user，它可以让呃我们的 codex 呢去操控这个类似浏览器，去完成一些操作。好，那也就是第三种呢，就是我们刚刚现在讲这种叫 chrome browser，它可以帮助我们进入真实浏览器状态，去操控我们整个浏览器。那有小伙伴说了，那其实我的这个 pry white mcp 也可以操控浏览器，或者说我这种外置这个 computer user 也可以操控浏览器，那和这个有什么区别吗？而且区别很全面，对吧？呃，区别的话，呃 computer user 呢？它本身来说它并不是浏览器的插件，对吧？它是一个操控电脑的 g y 能力的这种插件，比如说它可以通过你屏幕去操控你调出那些图形应用，就比如说我们现在常见的这种，呃剪辑应用，对吧？微信，对吧？它都可以操控，但是你如果单独的话去操控这个浏览器的话，显得并不那么智能，所以 codex 提供了一个新的能力，就是这个 codex com，那我们可以通过这个 codex com 去完整的操控我们整个浏览器。举个例子，比如说我现在想让他看到我们整个这个浏览器上有多少个标签页页，对吧？我们就问他，我说，哎，现在当前浏览器上有哪一些这个标签页？比如说你看是吧？他可以告诉我们现在到底有哪些标签页，我又让他在第一个标签页输入 a，第二个标签页输入 b，也可以，我再让他把某一个标签页固定也可以，就能够做到很多之前做不到的一些事情啊，分的更加的细了。那如果说你细心的话，你会发现，呃，这个插件它其实包含了很多细节的功能，比如说他通过这个插件和 codex 进行关联之后呢，就可以直接在 codex 里面去操控浏览器的所有权限，比如说审批，对吧？比如说历史记录，你可以让他看到你今天到底有哪一些详细的记录，包括你上传哪些文件都可以使用它，比如说你允许上传哪些，允许下载哪些，都进行了完美的这种配置啊，对吧？非常的清晰。好，那接下来在最后我们想跟大家聊一下，就是为什么要使用这个呃，这个酷路亚插件呢，对吧？为什么不直接使用 pro white 的能力呢？其实很清晰啊， pro white 的本身更像是一个外部的这种工具，而这个呃这个 com 插件呢，是一个内置能力，如果说你使用这个的话，你会发现其实很多东西它都需要一步一步的去哎，去跟他讲，去分析，那它通过这些 m、 c、 p 的能力去一个一个去提供。那如果浏览器更新了呢？它并不啊同步更新，但如果是 codex 呢？它就同步更新的，它更像是一个完整的产品，对吧？也是 codex 官方提供的真实浏览器的一个执行通道。而 pro y m c p 呢？它只是一套通用的浏览器自动化引擎，对吧？所以呢，你可以相当于它是一个小缩放。而这个，呃， codex 捆绑插件呢？还是更像是一个完整的企业级的真实软件的一个执行通道？它也可以通过现成去控制，并且呢，能够降低了很多我们调试的成本，比如说我可以让它去帮助我去做一些自动化的事情，对吧？是吧？非常的方便。好了，那以上就是这几个的区别，我是小刘，那我们下期再见。
384程序员晓刘
03:37
要写PPT或者图片直接拆成PPT，GPT+Codex 真的快的不行。#chatgpt #codex
查看AI文稿
AI文稿
你看啊，这张图不就全部帮你拆成 ppt 了吗？ gpt 加酷 max 目前啊，是我认为最有效的 ai 工具组合了，不要总想着去订阅一堆工具，才能提高你的工作效率。欧本 ai 现在已经非常全能了，做 ppt，做插画，剪动画素材，做编程，还能养养电子宠物，基本上啊，还盖了你在工作中的大部分场景。那废话不多，先来看看做 ppt 到底有多简单。我们出发 ppt 这个东西啊，肯定是属于我们都市牛马的必备技能了。当我们需要做一个全新的 ppt 时，第一个难题就是要找个模板先参考一下，要不然啊，总感觉很难下手。好，那这个好解决啊，我们直接上手就用 ai 来搭建一个模板，一切问题啊，迎刃而解。先到网上找一张自己觉得满意的风格图片，直接贴给扣带斯，让他根据图片的风格设计一个 ppt 模板，我们来看看他的分享，深空星河、暖色地平线、山脉剪影、精细型典风格拆解啊，都很到位，要你自己来说啊，这话你可能还描述不出来，毕竟啊，现在 g p t 的识图能力和作图能力已经是第一题对的了，绝大部分风格啊，都是手拿把枪。其实呢，现在也有很多 ai 工具啊，都可以做 ppt，我自己啊，也有试过一些，但是呢，总感觉差点意思。好的啊，这里啊，他已经完成了，我们来打开看一下怎么样，这个风格啊，是不是比较简约？时间线啊，逻辑线啊，也都是比较清晰的，其中的任意元素如果有什么需要调整的，都可以手动来调。当然啊，如果通用的模板你还觉得不够用的话，我们就再给他升级一下难度，把这个 ppt 模板改成更适合题案，而且适用于新品上市的投放计划。或者还有更简单粗暴的方法，直接跟他说出你的需求，要调研什么，达成什么目标。如果你没有思路的话，就跟他聊，聊出你想要的内容之后再让他生成 ppt，一气呵成。好，我们来看一下成果，依旧是这个简洁的风格，注意看啊，投放计划的元素都有保留哦，包括人群、场景、节奏，必要的元素啊，全部都有了，怎么样？就这么两三句空话就搭出一个 ppt 模板，老板还满意吗？那么接下来啊，我们来说一下做 ppt 的第二大痛点，引用和借鉴。平时我们在做 ppt 的时候啊，看到一个不错的内容，或者说啊，做的不错的模板，想引用借鉴一下的时候啊，却发现这是一个 jpg 或者 pdf 文件，没办法编辑，这个时候的心情啊，往往是崩溃的，还我没事，现在我们来试着解决看看啊，先去网上找一个复杂的 ppt 样式，就拿这个图为例吧，我们使用一下这个 skill，跟他说帮我拆成 ppt，你看这不就搞定了吗？每个元素都是可以编辑的，这样是不是省事多了？当然啊，关于图片转 pdf 这件事啊，有很多工具都是可以办到的，并不算稀奇，但是呢，可能需要收费，或者就是要你看一段讨厌的广告。那既然如此啊，还不如直接就用 codex，因为叉 gpt 实在是太全能了。没想到除了编程能力以外，别的啊也是样样精通，不管任何需求，全部大白话跟他讲就可以了。那总体来说啊，这个 ppt 功能就已经让你省心省力，提高工作效率了，基于提升生产力的消费投入都是智慧票价的。好，今天就分享到这里，大家还有什么想知道的评论区留言，我来帮大家试试。我是阿月，我们下期再见。
156阿悦很严格
01:22
试试用codex上的新插件Hyperframes做个视频豆包的多模态还是很厉害的。
（看工程文件名有claude，应该是搬运过来的。
#ai #mackbookair #agent #豆包
查看AI文稿
AI文稿
qq 加星插件，这个给了一个稿子，用 have a design，给他一个命令，帮我把这个演讲稿制作成一个可以播放的视频。好了，现在让大家搞好了，现在做完了，看一下这个东西，画个图。但在另一边已经有一批人开始用它的这类 a g 工具，让 a 效果还行，就是这种典型的 html 的动画风格。另外一个声音做的一般，我觉得这个声音可以用豆包做一下，我再试一下，但这个效果确实做的不错，豆包就用它的这个超能模式啊，直接把这个东西给他。这是稿子给豆包，说帮我将这份演讲稿做成单人的播客音频，好发一看，现在等一下。好，豆包，现在搞好了，听一下很多人对 ai 的理解还停留在让他写文案，改标题，做。这个声音是个男生的，我觉得不是很动听，我们来让他换一个，把声音换成女性温柔性感的声音。好，现在再等一下。好，来听一下这个新的声音。你有没有发现一件事，现在很多人对 ai 的理解还停留在这个新的声音。你有没有发现一件事，现在很多人对 ai 的理解还停留在这两个都导入剪辑，剪辑一下啊，能力早就不只是写代码了，他真正厉害的地方是他开始做的，看看效果吧。你有没有发现一件事，现在很多人对 ai 的理解还停留在让他写文案，改标题，做总结，画个图。但在另一边，已经有一批人开始用 codex 这类 agent 的工。
93Zinx🥔
01:16
一定要想尽办法用上Codex！ #AI #AI编程 #Vibecoding #程序员 #技术
查看AI文稿
AI文稿
一定要想尽一切办法用上 codex，至少啊，我不允许我的粉丝还没有用上 codex 或者是 cloud code。如果你周围的朋友从来没有谈论过 codex， cloud code 或者是 java，恭喜你，刷到这条视频就是你改变命运的机会。有人问， codex 到底是个什么东西？官方给他的定义啊，就是一个编程助手。但如果你真的这么理解，那你太小看他了。黄仁勋呢？现在让他所有的员工都要使用 codex，这是全球市值最高的公司，老板都让他的员工用它，为什么？因为他就是未来的财富密码。你最近看了这么多新闻对吧？什么纳斯达克又来创新高了，恒大股市涨疯了，重组芯片又缺货了，这么多乱七八糟的新闻，其实都在讲述同一个故事，这个故事的源头就是因为这几个东西啊。虽然说这个东西对大部分人的门槛还是比较高的，但是如果说你前两个月问我 codex，我可能还会犹豫，但是这两个月它每周都在更新，甚至有段时间每天都在更新。现在 codex 能力真的是憨爆了，它就是现在目前最适合普通人上手的 ai 工具。如，如果你现在是大学生，或者是你是创业者，那你太幸运了，你现在就迎来了一个弯道超车的机会。他就像在食堂打饭排队，突然旁边开了一个新的窗口，那这时候呢，你就得赶紧去这个新窗口去打饭，打的饭才是最香的。
32吉时AI前沿社
01:22
端侧多模态AI agent已经发展到这种程度了吗.jpg？视频AI含量拉满了：
所有代码均由ai编写（codex+claude），app完全由端侧ai驱动（gemma4-e2b）
视频本身也是ai生成（codex+hyperFrame），这个还没有做精细打磨，针对编辑场景做微调的甚至。。。
对于小作坊而言，端侧的优势是无服务器成本，对用户而言省钱，劣势是智力比服务端大模型低，但是gemma4真的已经很猛了，实测效果非常惊艳。
而这种相册app又非常好的契合，不需要那么高的智能，但是又高度隐私，不适合全都高到云端去处理。起码比现在的手机里的相册记忆强多了。
总结就是：利用端侧ai强大的多模态理解能力+流程agent包装，素材的管理搜索召回，剪辑建议，你不满意的自己跟agent沟通改，感觉真的很强。
查看AI文稿
AI文稿
专测的这种多模特的大模型去做这种应用，然后我来抛砖引玉一下，这是谷歌的那个 g 码四 e 二 b 版本，你看一下他这个在手机上的运行速度，中高端手机速度准确，然后他的描述的详细程度，对图片的深刻的理解，我觉得已经做的非常好了。然后我就在想怎么去做一些有意思的事情，然后我就做了一个这种端侧的这种相册 agent，然后它大概的功能就是说，呃，可以把你的手机里面相册内容扫出来，然后去给他做一个智能的聚合，基于这种多媒体的理解去做这种智能聚合，然后你可以跟这个 agent 的去直接对话交流，去修改他的内容，然后这样的话就能怎么说呢？就是能够我感觉这个体验是能够超越现在的那种手机相册的。手机相册的 ai 现在其实是一个非常简单的那种简单的聚合分类多模态，对这种素材的理解，他可以把你所有的图片用真正的多模态的能力去做，这种就是非常详细的标注，比原来那种简单的聚合分类，人脸识别那种都详细很多很多。然后你还可以在基础上自己去他聚合好了，你不满意，你还可以去改，类似于提升这种现在这种 a 的能力，简单的一个指令步骤，我做了一个简单的编排，就类似于你现在这种啊， cloud 区那种，这是一个相当于是一个相册的 agent，而它有一个非常相册，就是这个有个很好的，那就是它不留在本地的，然后你手机电脑都可以，都是你本地的，不需要云端上立，然后效果也非常的好，哇，我觉得这个事情真的非常的震撼我。然后最后再提一眼我们这个 app，这个视频也是完完全的由这个 ai 制作的，就是 codex 加上 hyperframe，总之就是太震撼了，太震撼了。
11复燃可千万
06:31
谁更能自己开发自己测？国产AI能操作本地电脑了 screenclaw 能让所有多模态AI大模型读懂你的电脑截图，并基于截图坐标，操作你的本地电脑。大部分操作能无感操作，不会抢占你的鼠标和键盘。
配合openclaw、Hermes、claude code、codex、trae等agent，还能远程遥控AI操作电脑。
查看AI文稿
AI文稿
你是否纠结过，国产大模型那么多，它们能力如何？到底怎么选？刚好最近 ai 圈有两大新闻， cloud 发布了 oppo 十四点七，酷酷 x 支持了操作电脑任意软件。但尴尬的是，它们要么国内用不了，要么只支持苹果电脑。很多 windows 用户都在问，难道我们没有平替吗？国产大模型能不能直接操控我的本地电脑？今天我就用自然开源的视觉自动化工具 scrinkler 做个小游戏。那是大国产原生多模态大模型。出来溜溜，看看在真实场景下，谁更擅长看图操作电脑任务。我们先看游戏目标，这是原网页，一个苹果官网页面。游戏目标是让大模型自己扒原码复刻，自己打开浏览器访问开发好的页面，自己测试并调整现实一小时。猜猜这些复刻作品分别出自谁？有四位玩家， kimi 二点六 co preview、小米 miimo vr pro omni 三点六 plus、杜包 seed 二点零 pro，还有两位旁观者， g l m 无 turbo mini max m 二点七，揭露结果前，我先叠个假。本次评测也就图一乐，不代表各个大模型的真实实力。本评测的唯一目的是展示 ai 结合孙克劳工具在真实场景下的可能性。本评测的唯一目的是展示 ai 结合孙克劳工具在真实场景下的可能性。本次游戏里，我主要考察三个维度，任务完成质量、人工干预等级，人工干预次数，质量越好，干预越少， ai 越是能自主操作电脑。好，先上餐前小菜，看看智谱和 minimax 的作品，这是没有多模态的产出效果，大家留个底作为基础。接着阅卷正式开始。第一位选手是本次的优等生 kimi，一个均衡型选手。 kimi 在这次任务里的还原度是最好的，有基础也有审美，即使没能完整复刻，凭着自带的代码审美也能不难看。视觉感知，他的读作表能力偏弱，除了地址栏基本都没点中，对样式和布局的细节差异也看不准。融合推理表现一般，虽然漏了一些细节，但大模块差异还是成功识别到了，并做了代码修复。任务规划存在人机血统短板，运行处理截图和八元码挺好，可一旦被我人工打断输入新信息，就容易弄丢。之前的代办清单尝试成执行目标漂移，而且上下文注意力较差。比如测试密码时没点中按钮，他直接放弃跑去修其他 bug，修完后又想偷懒跳过点击直接去访问页面，还容易忘记之前读过的文档，需要我反复提醒，编程能力发挥稳定。第二位是中规中矩的选手，密某读坐标很给力，但审美一般，视觉感知读坐标较准，其他细节感知一般。多次自主尝试下，他命中了地址栏表单和动态刷新的验证码。融合推理多模态融合推理交叉，没能发现两个截图的具体差异。他 c 遇到视觉与代码冲突时，缺乏交叉验证能力。他识别到截图里是两行三列的排版，源码里是一行六个，但不思考推理为什么盲目相信源码。任务规划优先级排序较差，人际协调能力较差，例如只有他将实现顶部的哈弗悬停，动效比修复网页基础布局更重要。我书新要求后，他容易忘记。回到之前的代办主线，动态调整。业务能力较为缺乏常识。承任务执行，执行能力较差，上下文注意力较差。在已经知道我是问系统下回车键、杨洋传 mark 的 return 键，读了 a p i 文档，依然多次执行失败，需要人工干预。编程能力稍有一千问，前端样式存在错乱，但基础审美有点差，比如数后卡片都贴边了。第三位选手千问，用三个字形容就是自信加看数据。他被人工干预最少，因为他过于自信，视觉感知读坐标较差，图片越往下越容易丢细节融合推理多模态融合推理能力极差，千万没能从两张图片找出大差异，政委完全一致，也没能理解图片内容，幻觉严重。例如在忘记密码页，可没有输入成功，也没有跳转成功，他却输出已经成功。任务规划，任务切分合理，任务代办能按规范创建，员工打断输入新信息后，也能按照 screen 三角色代办尝试承任务执行，主观能动性很强，一直点不中。他知道用快捷键页面滚动不成功，知道用滑动，也把之前试做成功的单条指令按照技能说明打包成批量指令发送。他被员工干预最少，全靠自己主动解决，但无奈视力太差，拖了后腿。编程能力正常发挥，中规中矩。最后一位是大起大落的豆包，很机智，但很傻。一上来豆包惊艳到我了，严格按照技能文案拆分任务和执行，很标准很规范。而且他很机智，别人都是老老实实写前端，他直接利用脚本把苹果的原网页原码全爬下来了，然后改了资源路径，所以首页还原度最高，视觉感知感知细节能力非常差。找个地址栏坐标应是触发了我的最高级感愈，且缺乏环境适应力。被提示多次后，也未能像其他三位选手那样，按照稳当说明调整坐标网格参数来获取更清晰的坐标。如何推理基本契考，因为它走捷径直接超了目标页面的原版 html。任务规划不合理，其他选手都是并行视觉分析和拉取圆满，唯独豆包是分开干。在等待资源下载过程中，他又主动停止任务，需要我输入才能继续尝试成任务执行，开局完美，越做越傻。在任务刚开始时，豆包表现很惊艳，精准的按照 screenclock 技能文档划分代办切角色执行任务。但随着上色文字多，特别是中间经历过一次压缩后，豆包逐渐越来越傻。典型例子，一个地址栏的点击输入回车，我从初级干预一直到高级干预，手把手教他操作，结果第二次类似场景，他依然把成功经验忘记，又得重新提醒。编程能力复制圆满没能提现。最后我演讲几句。目前 ai 大模型的各种评测分数只能参考各种榜单，还可能被刷分，所以通过真实场景评测是必然的方向，既能体现 ai 能否干活，又避免刷分。但大家也看到了，因为这种测试的题目中间步骤交互物都不固定，很难自动化评测，纯靠人力评测，又费时费力，且容易假带主观变量，结论难以服众。所以再次申明，这个视频更多是展示 ai 通过 sky 操作电脑的可能性，不是专业模型评测， coco 目前已经在吉他开源，不管你是用来自动化办公打游戏，还是用来测评你心目中最强的大模型，只要你自己跑过一次，你会看到一个比刷榜跑粉有趣一万倍的世界，一个 ai 开始掌控所有软件的世界。我是建新，感谢大家的收看。
78智序星河
01:44
满血codex+hyperframes，确实强 #codex #openai #chatgpt #ai
48丘刀鱼
02:28
第112期丽姐的AI悄悄话-Codex这个多线程设计，让你的AI打工从不摸鱼！
#codex #codex使用 #AI #agent #多线程
查看AI文稿
AI文稿
你还在一个个手动开绘画吗？每个任务都要排队等 codex 呢？这个多线程设计，让你的 ai 打工从不摸鱼。还有人不知道可以在任务执行中直接插嘴问问题吗？欢迎回来，上期基础技巧没记住？没关系，这期呢，全是让你效率翻倍的进阶操作！首先技巧一就是多现成绘画。 codex 的绘画列表呢？它不是普通的列表，它是多现成的体现，这是什么意思呢？就是说明你可以同时开五个，十个任务，每个都是独立的，相当于你有十个 ai 同时给你打工，不用排队领号，做文案的开一个，做代码的开一个，查资料的开一个，效率呢，直接翻倍，谁用谁知道。技巧二就是项目隔离加权限的管理进阶玩法，在对话框里可以指定项目，指定后所有的讨论都会在这个项目下进行，不会污染其他绘画。而且还有权限功能，默认权限自动审查，完全访问权限按需开启，企业用户不用担心信息泄露。私人项目呢，也能够设置访问门槛，项目隔离，让每个对话，让每个话题都有专属的空间。技巧三就是自动化加定时任务，左上角那个自动化按钮，给我点它，你可以设置定时任务，比如每天早上九点自动生成日报，还可以操作插件自动执行，比如定时调用某个插件整理文件，设置一次躺平一整年。技巧四，引导绘画，边干活边擦嘴！重点来了，这个功能叫做引导绘画，超级实用，你有没有遇到过这种情况？ ai 正在给你干活，你突然想起，哎，能不能把这段改一下，能不能再加个什么东西呢？以前呢，你只能等他干完然后重新发一个指令。但是在 codex 里呢，直接说直接输入，他会把你这句话直接追加到当前绘画里。 ai 呢，会结合你刚才的补充继续往下干。比如你让他写一篇文案，写到一半觉得开头不够吸引，直接说开头。换成更炸裂一点的 ai，立刻接收到指令，把开头改掉，继续完成剩下的部分。这就是 codex 的引导绘画机制，你随时可以引导它走向新的方向。不用等，不用重启，不用重新描述上下文，一句话就能微调效率，直接拉满。
138丽姐的AI悄悄话👩‍💻
01:52
为什么我热衷于codex？ #codex #chatgpt #一人公司
查看AI文稿
AI文稿
普代斯能做什么？他有什么功能？为什么我要锐重于这个工具？他能给我带来什么？首先声明啊，我是一个小白，我不会开发，不会写代码，但是我拿它开发了六个小程序，写了五本小说。普代斯开发程序，那真是没话说，是我目前为止用了这么多的盖的，我觉得非常好用的一款。从二月底开一人公司，满打满算整整两个月了，截止目前的收益是多少？这个结尾给大家公布，我一共写了五本小说，两本已经完结了，三本正在写发到平台上面呢。我只发了两本，每本只发了四十多张。有人会问，你都已经写完结了，为什么不发呢？因为 g p t 写小说太过于严谨，有些词语啊，不符合人类的阅读，有些绕口。比如啊，我穿过一条缝，原来他是想说我穿过一条缝隙。还有啊，他一直会用压这个字，比如啊，这几行字一压下来，其实他想表达的意思是，这几行字啊，一看就发现了问题。再比如啊，我人物的小说反派叫赵无极，他会说，赵无极这张网终于不再只是压人了。其实他的意思是，赵无极如天罗地网一样，但终究是压不住我，反正很多问题。然后我就用普列斯开发了一个写作工具，可以自己锁定打杠，可以自己锁定章节，上下文对齐，写作风格和类型，到时候可以根据自己的需求去进行设定，可以帮助你把写小说需要的设定都帮你完善。目前开发到收尾阶段了，但是 plus 掉了，等充上后再继续完善。有人会说，你是不是来割韭菜的。我先声明啊，我不卖课！我不卖课！我不卖课！在 ar 盛行的时代，你想学习任何知识， ar 都可以替你解决。如果你为了学习 ar 还去报个课，我觉得找个班上吧，这一行不适合你，一人工资也不适合你。最后我再问一句啊，做 ar 漫剧的伙伴们，你们还好吗？下一集我们来聊聊 ar 漫剧。
2七月（OPC）
02:43
吹claude的都是没用过codex的，真可怜账号注册难度暴打claude
复杂任务长时间开发暴打claude
token使用费用暴打claude
桌面软件控制成功率暴打claude
claude有的我都有啊，可是我有的claude都没有啊
查看AI文稿
AI文稿
那些吹可傲的牛逼的都在后面给我排好队，全部都给我看过来，你看看最新的扣子 x 都牛逼成啥样了，还在那吹可傲的呢。我们先看他的第一个能力，就是复杂任务的长时间处理，我这里把需求告诉他之后，让他不要停，按计划开发。他已经连续跑了两个多小时了，现在还在跑呢啊，还在跑呢，并且他不是自己开发的，他会把任务拆解，然后交给智能体去开发，看到没有也就说他不干活，他只做监督，他智能体干完活之后呢，他进行一个验收，如果这个过关了，他就会把这个智能体关闭，他会根据任务复杂度自己判断需要生成几个智能体去干活，比如说生成两个就表示有两个智能体在同时干活。哇，这效率真的是直接拉爆了，太强大了。但这还不是他最强大的地方啊，他最强大的地方是这里有一个插件叫 computer use，一定要去用一下这个插件啊，他可以完全的控制你电脑上的所有的操作，我给大家演示一下，比如说这边是我自己写的一个程序啊，是一个叫船长代办，这是一个任务看板系统啊，这边你可以去啊，通过拖拽，然后完成卡片的任务的更新，然后这边有项目，那我先切换到这个收集箱，然后我希望他呢，我给他一个任务，我让他去给我切换到这个这个任务里面，然后把这个给我勾选掉，我们看一看他能不能完成，这是我给他的指令，然后在这里点上加号，选择这个插件。插件呢，选择这个电脑看到没？好，接下来就回车，然后你就等待奇迹出现的时候就行了，看他已经识别到这个应用已经打开了，看到没有，然后他马上就会进行操作，他能看到这个应用上面的，那注意看，就同这个鼠标是他的啊，不是我的，他自己搞了一个鼠标出来，看他马上会点这个，像我啊，点这个中转站好，它已经切换过来了，然后你看它一会会记到勾选哇，完成了刚才演示的功能，还只是它目前具备的功能，不知道大家有没有了解啊？ open color，也就是龙虾已经被 open 员收编了，也就是说未来龙虾的所有的能力都会集成到这个 codex 里面去。那如果未来这 codex 还支持聊天对话的话，支持，比如说接入飞书，接入微信的话，那国内的所有的什么这虾那虾都没得玩了，以后只要一个 cold s 全部搞定。
3917黑胡子AI大冒险
02:27
Codex你用错了！这7个隐藏玩法太强了！很多人对 Codex 有个误解，就是觉得它只能写代码。这期我直接分享 7 个我自己真的在用的隐藏玩法，看完你会更清楚，它到底有多强！
#codex #vibecoding #OpenAI
查看AI文稿
AI文稿
如果你只会用 codex 写代码，那么很可能你错过了它百分之八十的功能。距离上一次聊 codex 已经过去了一个多月的时间。这一个多月里，我又发现了 codex 另外七个特别好用的隐藏用法，简直打开了新世界的大门。先说第一个，前段时间 opencl 很火，但你真装了就知道，最烦的不是装不上，是装完之后老出 bug，比如定时任务失败、消息不回复等等。不管 bug 是大是小，对小白来说就是灾难。这就是适合 codex 出场的时候，你把环境给他，把报错给他开权限，他会自己去看日制，看配置，开始改，直接就把问题解决了，你以为这就完了？这还只是开胃菜。第二个隐藏用法，家里的设备，比如群晖 nas、路由器，甚至你买的服务器，这些东西一旦出问题，往往比软件更头疼，自己查官方文档或者找客服，经常一查就是半天。 colex 就很适合看这个，之前我的群晖文件同步失败，交给他，让他进去改，很快问题就迎刃而解。但如果你觉得这还是太即刻，下面这个案例，每个人都能用得上。第三个，隐藏用法这个痛点应该很多人都有，电脑明明没装什么，结果突然就提示空间不够了。以前得靠第三方的清理软件，现在你可以直接让 colex 帮你查是谁占了硬盘空间，他就可以去扫大文件，扫重复文件、扫缓存，扫那些很久没动过的目录，然后帮你清理干净。如果你是创作者，那下面的这三个用法你肯定会更感兴趣。以前你想做动效要会 ae，门槛很高，现在不一样，你把想法讲清楚，用 codex 加 remote，它就能帮你直接写成动效代码，这就像你雇了一个动效设计师。除此之外，还有一个更高频的场景创作视频写脚本。我习惯把 codex 接入 ocdian，根据我给的上下文来写我想要的脚本内容。比如这期视频的脚本就是它帮我修改的，虽然它文字能力不是最强的，但是多改几轮也能用，有很多脚本出稿就是这么出来的。那如果文案都能写，简单的整理工作他当然也能做。第六个隐藏用法，特别适合 oc 点的用户，因为笔记库用久了一定会乱，文件没归位，该链接的没链接，就内容一直堆着。整理这件事不难，但特别麻烦。而 codex 很适合看这个，告诉他规则标题怎么命名，文件怎么归到，链接怎么补，结构怎么统一，然后他就能够按规则去重新整理。第七个隐藏用法，自动化任务。那这个用法在一定程度上能取代你养的小龙虾。比如让它每天定时发 ai 新闻到邮箱或者 telegram，把值得看的内容整理好再发给你。这个东西一旦跑起来，它就不只是一个工具了，它更向你后台请了一个助理，每天固定交付，不用你盯着。你还有哪些 codex 的隐藏用法？评论区一起聊聊。
2740我是戴伦
04:46
Codex 多账号管理 Cockpit-Tools 你是否为管理和切换多个 Codex 账号而烦恼? 本期视频, 科技博主 DP 将手把手教你使用 `cockpit-tools` 这款强大工具, 轻松实现账号的快速导入和一键切换. 视频不仅详细演示了操作步骤, 更重点强调了如何安全地使用该工具, 通过导入本地官方 App 授权信息来保障账号安全. 告别繁琐的重复登录, 让你的 Codex 使用体验更加流畅高效!
关联资源: https://dpit.lib00.com#AI#AI编程#OpenAI#Codex
查看AI文稿
AI文稿
hello，大家好，我是 d p，今天我们来分享一个 codex 账号快速切换和账号管理的一个工具。首先我们还是进入准备环节，你需要做的是打开 d p r t 点 love 零零点 com，在这里搜索切换，然后找到视频对应的文章打开，打开以后你需要知道的是视频关联的所有内容在文章里都可以找到，然后现在就可以通过文章的关联资源部分使用。第二个链接叫这个 tools，这个文件打啊这个这个目这个链接，打开它的 github 页面，当然如果你直接搜索也是可以找到的，如果找不到你就到我的文章里来拿链接就可以，然后在右边找到 release release 以后找到最新的一个版本，我们现在用的是零点二，零点一七，然后在下方找到你对应平台的版本进行下载，下载以后就拖拽到你的呃应用程序里完成安装，完成安装以后你就可以打开这个程序，打开以后它这边有仪表盘和一些切换，我们直接切换到 codex 就可以了。然后现在你可以看到我这边只登录了一个个人的测试账号，是 free 的一个账号，百分之九十六的周额度，现在我这边本地是本地，这边登录的是一个 plus 账号，有五小时刷新和周刷新的。然后现在我怎么快速的导入这个账号呢？很简单，在这边点加号，然后前面的这些授权不推荐大家去使用，直接选择导入导入，然后直接获取本地账号。还记得我们说过的原理吗？直接导入本地通过 codex app 登录后给你的信息的账号，不要用第三方程序来做登录，这是对你的安全的一种基本的保障。然后这边就可以看到他已经把 dpe 这个什么账号导入进来了，然后他的那个五小时和周额度也能正确的刷新到，我们来这边对比一下是没有问题的。 ok，然后需要切换账号也非常简单，用这边这个按钮就可以完成账号的切换，然后你这边重启程序就能看到，然后切换回来也是这样简单。然后如果要刷新配额，就在这儿点一个刷新，它就会完成一个配额的刷新。好的登录账号刷新、配额，切换账号都在一起控制是不是很简单？但是下面我要说一些大家需要注意的点。第一，这个程序它包括非常非常多的功能，但是我只推荐大家用账号切换这个功能，并且账号登录一定是从官方 app 登录以后得到本地文件，然后从本地导入，而不要用他的 o o 色之类的方式去做登录。有人可能跟你说啊， o o 色也是一样的，但我告诉你不一样，如果是通过官方 app 完成的登录，那么这些东西都是官方给你的，官方可能有自己的痕迹在里面，它是能够校验的，而且官方 app 自己生成的文件，它自己在使用，一定是百分之一百没有问题的。但如果您使用 os 之类的方式去做登录，可能会有不可预期的问题，那么最简单的就是用官方 app 登录，登录完了在这边选获取本地账号，把它导入进来，但是你切换是没有任何问题的，因为这个东西是官方 app 给你的，你在这边来回切换，切换完了以后官方 app 一看，哦，这个是我自己生成的，即使他去查后台，这个 talkin 里面的轨迹也都是官方 app 自己的。好，这个我说完了，这是安全。第二是关于双刃剑的观点，可能有点啰嗦，我还是想说，如果你通过我的视频看到了这个程序，那么请在我推荐的范围内去使用。如果你想尝试其他的范围的内容，那么你需要为他承担风险。但这个东西我又不能不跟大家讲，为什么呢？因为这个早晚大家都会接触到。那我觉得我提前讲，告诉大家哪些能用，哪些不能用，或者哪些用需要谨慎，那么是对大家负责的一个态度。好的，这就是这一期使用这个工具快速地实现 codex 账号切换以及配合刷新查看这些功能视频的全部内容。如果这视频对你有帮助，请帮忙点赞和转发。如果你有相同的经验，想要分享或者遇到相关问题，欢迎留言。我们最近正在录 codex 相关系列视频，如果有兴趣，欢迎关注。我是 d p，谢谢！
119DP_IT
01:49
⚡ 告别复制粘贴！Codex 浏览器插件来了， Codex 浏览器插件来了，一句话操控所有网页
OpenAI 最新发布 Codex Chrome 插件，现已支持 macOS 和 Windows，能在浏览器里直接和网页、应用深度联动。最爽的是它支持多标签后台并行工作，干活的时候完全不打扰你浏览，真正的「AI 在背后默默打工」。
#OpenAI #Codex #ChatGPT #AI编程 #ChromeAI #AI神器 #AI工具 #程序员 #AIAgent #人工智能 #效率工具 #跨境电商
查看AI文稿
AI文稿
大家中午好，我想了想，我还是要跟大家录一下，因为最近 codex 跟 anthropic 的 cloud code 真的太火了，昨天晚上 openai 也发布了 codex，现在已经可以直接支持谷歌的 chrome 以及 windows，就是 chrome 在 macos 和 windows 情况下，呃，可以直接调用 codex 的。我快速录一个视频，教一下大家怎么把这个功能激活。首先呢，我们要打开最新版本的 codex，如果不是最新版本的，可以在这里去检查 update，就是要确保更新到最新版本的 codex。更新完之后，打开这个插件 plug ins，打开这个插件， plug ins， chrome 的这个选项就会出现了，点击这个 chrome 点击吧，因为刚才我已经点击了啊，可以直接点打开，打开它会直接跳到你默认浏览器的这个 codex 的激活界面啊，如果你默认的是 chrome，就会正常蹦到这个 chrome 的界面 crom 蹦到之后直接点击艾特 crom 就 ok 了啊，因为我认为接下来会很精彩的。其实 cloud 大家能看到我的 cloud 已经支持了，就当我点开这个 cloud 的时候， cloud 的无论他调用自己大模型也好，还是还是 cloud code 也好，他可以直接操纵我的 crom。那现在呢，就是我把 code 也加入到 crom 之后， open up code 也可以直接调用我的 crom 吧。因为今天我想录这个视频的原因就是我认为接下来整个电商的搜索逻辑都会因为世界头部的几个大模型公司会带来天翻地覆的变化。比如我现在自己日常的使用已经不用去打字了，我调用的是 tapis 会比较多，所以现在目前，哦，现在才五月份，我觉得其实 ai 的风向已经调了好几次了。比如年初的 open code 火了一阵子， openclaw 就是龙虾。那其实我认为到现在为止了， open opencloud 的风风口或者说营销热度已经完全消退了。那接下来就是 webcoding。那目前最主流的就是 codex 和 android 的 cloud code。就是 cloud 的 code 啊。好吧，今天就跟大家快速录一下。我估计可能很多伙伴不知道怎么在 codex 里面去添加 chrome，在 chrome 里面去激活 codex。好吧，那今天先这样，拜拜。
78凯文不要嗨
04:35
Codex 真把 Claude Code 反超了？ Codex 最近更新后，社区里开始有人说它在部分能力上超过 Claude Code。这个视频不做简单站队，而是拆解 AI 编程工具真正该怎么比：模型写代码、终端工作流、多 agent 并行、Skills、Automations、电脑操作、浏览器、PR review 和安全边界。#ai新星计划 #青年创作者成长计划 #ai #Codex 、#claude
查看AI文稿
AI文稿
最近有个说法挺刺激， codex 更新之后，有些能力已经超过 cloud code 了。真的假的？我觉得这个问题不能直接回答，因为你先得问清楚，你比的是谁更会写代码，还是谁更像一个工程团队的操作台。接下来几分钟，我们不站队，拆开看，看完你大概就知道为什么这次 codex 的变化不只是模型变强了。以前聊 ai 编程，很多人默认 cloud code 是标杆。它在终端里很顺，能读代码库，能改文件、能跑测试，开发者的心智负担很小，你让它修一个 bug，它真的像坐在你旁边的工程师。但最近 cloud code 新后，社区里开始冒出另一种声音，怎么感觉 cloud code 某些地方更爽了？有人拿它和 cloud code 对比，有人说自己被 cloud code 搞崩后换了工具。先别急着下结论。这个争议真正有意思的地方，不是 cloud code 赢没赢，而是大家发现 ai 编程工具已经不是一个命令行聊天框了。如果只拿一个 bug、一个重构、一个 delete code 题去比，你很容易比错，因为那是在比底层模型的局部能力。这个当然重要，但它不是全部。现在的 coding agent 更像一个小型工程流程，它要理解需求，要改代码，要跑命令，要看浏览器，要处理 pr，还要知道什么时候该停下来让人确认。你看，问题一下就变了，不是谁补全的更准，而是谁能把一件工程任务从头推到尾。这也是为什么很多人会觉得 codex 这次不一样，它不是只在代码框里变强，而是在代码框外面长出了手脚。 codex 最近最关键的变化是产品形态变大了， openai 官方把它讲成一个可以委派真实工作的 agent，它不只是改文件，还强调多 agent 工作流，内置 worktree、 skills、 automations、 pr review、多文件、多终端、远程 devbox，内置浏览器，甚至电脑操作。注意这些功能单看都不神奇，但放在一起，味道就变了。以前你让 ai 写代码，更像叫一个人坐到你的电脑前。现在你可以把任务拆成几路，让不同 agent 同时跑，一个修 bug，一个写测试，一个看前端页面，一个整理发布。说明，这就不是代码助手了，它更像一个工程指挥台。这个词有点大，但很贴切啊。克拉多瑞弱了吗？不是，克拉多瑞的基本盘还是很硬，它的优势是终端原声跟开发者每天用的工具贴得很近。你在项目里打开它，它读代码，跑命令，用 git 接 m c p，很多动作都在你熟悉的命令流里发生。它还有一个很重要的，气质，谨慎，默认，会问你哪些命令能跑，哪些文件能改。这对真实项目很关键，尤其是老项目、大代码库、线上事故这种场景，你不一定想要一个到处乱点的全能 agent，你想要的是一个懂代码、懂命令，还愿意听你刹车的人。 cloud 会有，在这块儿还是很舒服。 codex 更容易赢的地方是任务开始变宽的时候。比如你不是只要修一个函数，而是要做一整个小功能，先看需求，再开分支，再改前端，再跑测试，再打开浏览器确认视觉，再写 p r 描述。这里 codex 的优势就出来了，它可以把文件、终端、浏览器、工作区放在一个工作台里，还能让多个 agent 并行。更关键的是，它不止服务程序员，文档、表格演示、自动化检查，这些原本不算写代码的东西，也能被放进同一个流程。说白了， codex 强的不是某一权特别重，而是它开始会组织一套组合权。这是很多人突然觉得它反超的原因。但如果你的工作方式很终端很连续很工程师， cloud code 还是会让人上头。你在一个复杂仓库里追依赖，看日制、改测试、处理 c i，它的节奏很自然，它不像一个大平台，而像一个强力命令行同伴。还有一点容易被忽略， cloud code 的简单反而是优势，入口少，心智清楚。很多时候，你不用管理一堆 agent，也不用想工作台怎么摆，你只要说帮我把这个问题修掉，它就顺着代码库往下钻。所以我不认为 codex 全面超过 cloud code。更准确的说法是， codex 在工程流程组织上开始领先，而 cloud code 在终端深度开发上仍然很强。所以这次真正值得关注的不是 codex 有没有把 cloud code 打趴下，这个说法太粗糙了。真正的变化是， ai 编程工具正在换赛道，第一代比谁更会补代码，第二代比谁更懂代码酷。现在开始比谁能组织工作，谁能并行，谁能跨工具，谁能长期跑，谁能在关键时刻把权限交还给人。以后程序员可能不只是写代码的人，而是调度一组 ai 工程师的人。听起来有点夸张，但说实话，这一天来的比我想象中快。
217言琰的知识补给站
01:30
GPT-5.5+Codex封神！5分钟做自媒体选题工具我用Codex+GPT-5.5，只花了5分钟，就做了一个自媒体选题工具！
不仅可以一键给选题打分、分析流量潜力，还能自动生成封面图，效率直接翻3倍！
这就是今天要给大家分享的「GPT-5.5 + Codex氛围感编程」工作流。
它解决了AI开发两大痛点：单轮生成无法迭代优化、没法同时推进多个项目。
搭配Codex桌面应用，你不用写复杂代码，可以直接像搭积木一样就能做出能用的产品。

使用方法超简单：
第一步，新建项目文件夹，给出基础提示词，搭核心框架；
第二步，边跑边迭代，在终端实时修改不用重来；
第三步，跨项目无缝切换，还能调用Claude优化前端样式。
让AI帮自己干活，可以解放更多劳动力！！
#AI学习 #AI工具 #AI知识 #科技 #codex
查看AI文稿
AI文稿
我用 callix 加 gpt 五点五，只花了五分钟就做了一个自媒体选择题工具，不仅可以一键给选择题打分，分析流量潜力，还能自动生成封面图，效率直接翻三倍。这就是今天要给大家分享的 gpt 五点五加 callix 氛围感编程工作流。它解决了 ai 开发两大痛点，单轮生成无法叠代，优化没法同时推进多个项目搭配 callix 桌面应用，你不用写复杂代码，可以直接像搭积木一样能做出能用的产品，使用方法超级简单。第一步，新建项目文件夹，给出基础提示词，搭核心框架。第二步，边跑边叠带，在终端实时修改，不用重来。第三步，跨项目无缝切换，还能调用 cloud 的优化前端样式。下面给大家分享三个实战场景。场景一，自媒体博主开头给大家展示的这个工具，高智能筛选、高潜力选择题，自动配图，帮你少走弯路，快速解号，节省大量创作时间。场景二，副业创业者，十几分钟搭建 size 创业验证器，前后端一次性配齐，快速验证商业模式。场景三，自由职业者不用每次手写题案，直接一键生成专业客户方案，自带报价交付系统和服务流程，专业度拉满，省时又专业。如果你在做副业自媒体，或者是觉得自己的 ai 产出又丑又难用这个玩法，一定要试试！我是天眼锁，关注我，解锁更多 ai 落地实操技巧，记得点赞关注哦！
1223氪研所
01:18
多模态研究这样发三四区论文真的很容易#多模态 #人工智能 #SCI #研究生 #论文写作
查看AI文稿
AI文稿
你以为多模态研究就是把图片特征和文本特征拼一下？如果你现在还在这么做，论文做不深，真的一点都不圆。因为现在多模态最忌讳的就是表面融合，看起来你加了图像，加了文本，甚至又补了音频，模态挺多，症状挺大，但审稿人一看就知道你这不是融合，你这是硬拼。真正会做多模态的人，早就不在卷加几个模态了，他们卷的是这些模态到底有没有真正对齐，什么意思？不是把两个项链拼一起就完了，而是图像里的关键信息能不能和文本里的核心语义真正对应上。不是所有模态都在的时候效果好，而是少一个模态的时候，你的模型还能不能稳住。也不是每个模特各学各的，而是他们最后能不能进入同一个语言空间，说同一种语言。这才是为什么有些人的多模特论文看起来不花哨，但就是更容易被认为有深度。因为他解决的不是多放点信息，而是怎么让不同模特真正协调起来。我们之前有个做情感识别的学生，一开始只做视觉端的小改动，创新性很弱，后来补进语音特征，再做跨模态对齐，整个问题定义方法、逻辑和实验价值一下就立住了。所以你现在如果做多模态，还总觉得像两张皮。别急着堆模型了，先把对齐这件事想明白。我整理了一套能发顶会的论文缝合大法，里面专门讲多模态对齐的底层逻辑、常见架构思路，再到如何写出一篇顶级的缝合式论文，想要的打缝合，于哥来安排。
126发论文的鱼哥🐟

热门推荐

热门分类