粉丝1.8万获赞6.1万

现在全网又被起重机变鹤,总线变公交车刷屏了,大家集体开喷国产大模型套壳贴牌。其实这是二三年就照过一次,当时百度文新一哥直接把话一直起重机生成一只单顶鹤, 因为鹤和起重机英文都是可以,总线也稳稳出公交车。无数人当时就断定是中意英在调用国外模型的套壳货。百度官方硬钢,我们只用了全球公开数据训练。结果时隔两年,二零二五年了, 豆包通、易千问、 kimi 等等几乎全线国产大模型还是原样复现,一模一样翻车,这就离谱了。如果只是普通 bug, 为什么两年来没有一家愿意修呢?


阿里又来放大招了,就在刚刚,万象二点六发布了,他可能要亲手终结这种 ai 不 可预测的盲盒时代了。万象这次带来的一个王炸功能参考生视频,简单来说,你给他投个一段视频,他就 能把这个人物的长相、声音全部吃透。看这个演示,左边是角色参考,右边是生虫的厨师,不管怎么颠勺撒, 这个五官,这个神态稳定的,就像本人亲自出演一样。而且不光是人,你给他一个可乐罐,给他一个手办,他都能完美复刻,这意味着你可以用同一个角色去生成一套连贯性的广告片了。而且他现在还懂运镜,他能在切换特写、全景时,光影和人物全部都不脱节,甚至连多个人物对话时的口型都能对得上。这还没完, 在生图方面,他也变得聪明了,以前我们是生图再去配字,现在他支持图文一体化排版,你让他出个蛋炒饭教程,他能够根据逻辑一步一步的给你配好图,排好字,直接就是一个完整版的攻略。这一次,万象二点六给我们带来的是 ai 视频,他终于不再是让我们 只看个乐呵,而是真的把可控性教会到了创作者的手里。底层逻辑变了以后,做视频不再需要去赌概率,你只需要做好一个编导,剩下的执行,他是真的能帮你扛住了。

hello, 大家好,然后呃我这分享题目呢,呃是通易千问应用千行,也就是说 这个我们把 large language model 这一套应用到千行百业里面去,然后要应用到千行百业里面去呢,就必须说这个 language model 要强,要在很多方面都要强。 所以呢,今天我们其实跟大家想介绍一下他,呃,特别是最近我们在呃关注于怎么样去让这个垃圾篮球 model 在 应用在下游的,提升他的一些技术能力。呃,首先呢也给大家 呃简单介绍一下我们过去的呃整个通一千万的大模型的发展里程碑。呃,其实呢,我们是从呃严格意义上来讲是二二零年开始做这个呃大模型的 啊,当时呢我们是在做那个呃呃多模态的大模型,然后在二零年底,二一年初呢,我们有一个这个百亿的 m 六的这个多模态的模型, 然后后面一路上去呢,就就做那个稀疏的千亿啊,然后包括万亿还有十万亿参数的这个呃大模型的训练,当时其实也没多少卡,主要还在研究这个大模型怎么样用更少的资源去把这个性能提上去。 当然现在像 mr 他 也呃就是有开源的这个 mo e 的 版本出来,当时我们做的还是比较早啊。后面呢,其实到二二年呢,我们其实也想一个问题,就是说我们怎么样用更通用的方法去啊,把啊所有的任务集中在一个模型里面, 当时呢我们提了一个叫 one four 的 一个模型,那这个模型呢?在啊就是多媒体里面还是比较火的,到今呃一年时,一年时间大概有六六百多引用吧, 然后像跟这个啊不离谱呀,他们一起就是整个动画片领域,大家啊不管是做研究还是做应用都会 set 的 一篇文章。然后这个当时也是做了很多开源的工作。 然后当时我们做 off 的 时候,有一个最呃最大的困难,就是说我们呃,因为我们想把所有的任务都集中在一个模型里面去,但是实际上 啊,我们发现他的泛化性还是不是很好,就说你你你可能他训练过的一些任务他表现还不错,但是呢,他没训练过的任务你用自然语言去描述,结果他泛泛化的不是很强 啊。后面呢,在 x g p d 出来之后呢,我们就我觉得这个这个呃这个问题好像能迎刃而解,因为啊 x g p d 的 泛化性实在是太强了啊,它的 instruction follow 能力也很很厉害。所以呢,当时我们就直接在这个呃 off 技术上去说,我们是不是可以重新做一个更强的语言模型 啊?那从这个二三年年初吧,就十二呃,二二年,十二月份呃,十二月底,然后我们就开始启动这个项目,然后做到大概 呃二月份就有一个呃三 b 和十三 b 的 版本啊。然后四月份呢,我们就发了这个同一千万的一点零版本, 然后直到这个十月三十一号呢,我们发布了这个同一千万二点零,它是一个真正的这个千亿级别的一个 啊 dance 的 一个模型。然后这个 dance 模型发布之后呢,我们确实也感受到真的是啊,模型越大威力越强,而且我们其实在很多的啊训练方法,以及包括像 tokenizer 一 系列的东西,其实跟我们开源的那个版本其实区别并不是很大 啊,但是通过这个暴力的把参数扩上去的方式,还是能看到非常多的一个呃 improvement, 包括大家比较关心的什么 hallucination, 然后 ig 的 一些东西,其实都是在呃这个模型扩大的基础上,他很多问题就呃缓解了。 然后这个是我们呃的呃现在有一个 app, 然后呢大家也可以在 pc 端去体验这个千万点二零点 com, 这就我们这个呃,包括 lg 两个 model, 还有啊动画态的模型的一个效果 啊,然后还有一个分支呢,是我们就做的这个开源开放啊,这的呃所有的系列其实都是 有它相对应的这个开源版本的,那甚至是我们最早做那个 alpha 的 时候,其实像左上角这个呃,呃,这个这个 organization 就是 我们原来起了一个名字叫 alpha six, 我 们的呃我们这个梦想叫叫 unlocking the power of multi model general ai。 然后呢,当时我们做这个 off 系列,还有 offices, 还有这个 chinese clip, 都是说呃希望这个多媒体的这个这个东西能呃给大家用用好,然后做统一的模型。 然后到今年八月份就是千万七币的这个,这个呃第一次发布,然后到九月份就是十四币,然后十一月十一月底呢,我们就发了这个千万七十二币和千万一点八币 啊。当然这个大家看到这个七币十四币七十二币也不是同一天发,这个确实是我们资源有限,就呃一个一个一个版本做 啊,所以这个也是呃一个一个国内的一个实际情况嘛,然后呢,我们这个啊,就开了一个新的啊 organization 叫, 呃这个昆就是英文,英文大家念的就叫昆啊,然后,呃里面现在是有像 large language model, 然后 vision language model, 然后这个 audio 的 这个 rapper, 还有 agent 的 系统, 呃,这些都是,所以打到这些之后,我们号称就是全尺寸全模态,就从一点八 b 到这个七十二 b 都有,那我们内部其实还有更其他尺寸的一些模型,我们也在啊,观察这个社区需不需要 啊?这个就是说其实啊,我们开源完了之后呢,呃,主要这主要是在 twitter, discord, 还有一些国外的社区媒体上,然后发现大家还是比较踊跃的去啊尝试,或者是啊给予我们一些 feedback, 或者是这个,这个多半还是鼓励型的 啊。然后呢,我们还有这个微信群,然后我们现在有大概十八个群,然后每个群大概几百人 啊,所以大家想加的话还是可以加的啊,然后你可以呃去了解我们的 paper 啊,我们呃有这个 quinn technical report, 还有这个多摩泰的啊,千万 vr 的 这个 report, 还有这个啊,千万 audio report 啊,想去更多了解,其实可以看我们的文章, 然后 github repo, 然后这个 hugenface 和 model scope 上都有我们的呃可以看的地方。 然后接下来就给大家介绍这个,呃,最近我们呃通用千万技术模型的一些,呃模型进展,特别是在开源方面,就是开源的模型上也有这个这这些能力,大家做应用呢会呃关注很多能力点吧,比如说这个,呃基础的能力,包括, 呃他的在各个 hardcore 的 benchmark 上的 performance, 然后像这个他能支持多长的这个虚列长度啊?这个很呃,关系到就说大家去做应用的时候,他的前上下文能否,呃能否关联的比较紧密 啊?然后还有角色扮演这个 i 搜索增强啊,然后这个工具调用,还有 a 键的一些功能。其实啊,我们在这些大家特别喜欢使用或者是下游应用开发必须要具备的这些功能上还是做了大量的优化的 啊,我们整个的那个千文的千万的模型体系,就是首先我们有一训练的模型叫叫昆,然后呢啊,这个绿色的就是训练模型, 然后啊这个紫色的呢就是 chat 模型,然后黄色的是对这个用这个 r h f 去增强过的模型,然后灰色的就是在做这个 r h f 模型的时候诞生了一些中间的一些模型, 呃,我们能开源开源,现在开源的呢是这个呃预训练模型,然后 coin chat, 然后这个呃 coin v vl 模型,然后 vl chat, 然后 coin audio, 然后 audio chat, 然后右边呢?呃就是呃不知道看不看得到这个鼠标 啊?这里面呢是有一个叫 system prompt enhancement 啊,这个里面是涉及到我们后面啊会讲的一个角色扮演的一个增强的一个能力,它你只要在 system 里面去输入啊,想让它 遵守的一些规矩,那它会遵守的比较好。那当然,因为我刚才说的这个前后前后脚,这个这个 release 的 这个关系,那现在呢,七比和十四比还没有做这个增强,那我们增强的是七十二比和一点八比, 那么后面呢,其实我们会把整所有的这个系列都呃加上我们最新的这些进展,会呃重新更新一遍。 然后我们来看一下就现在我们在开源和闭源上的一些呃核心指标上的 performance。 那 从这个呃右边是这个 open compass, 就是 呃浦江那边做的一个 benchmark, 它主要还是更 focus 在 传统的一些 benchmark 客观题上就客观的一些指标 啊。然后我们这边其实也是呃分数比较高的,就是就是呃说明它我们基础的预训练模型呢,这个能力是没什么问题的 啊。然后右下角是 hackinface 官方,他去呃测试我们的这个模型,我们也发现就至少在这个 portrait model 里面啊,我们的排名还是呃至少第一位 open 的 这个 model。 然后从左边这个图来看呢,其实我们中文上的表现甚至比英文更好,但是呃这这边其实都是英文的榜单, 当然我们跟 g p four 还是有差距的,就特别是啊体现在这个啊, max 呀,然后这个 human e 吧,就是呃写扣的。那这两块其实我们最近也在呃紧急的去增强, 然后其实我们内部的版本已经这个呃还是比较有戏去追上的,然后这是更呃 complex 的 一张表了,然后最最后那个呃三个问号的那个模型就是内部的呃一个新的, 就是啊统一千万二点零,就大家 app 和这个 web 上面可以看访问的那个模型,那它会进一步比这个七十二 b 的 更强一些。 当然这个编程上其实有很多东西体现不出来,比如说这个 instruction following 的 能力啊,还有一些角色扮演的能力,包括 ig 的 能力,其实我们内部有很多各种各样的这个啊,评测的机制能确保,就说,或者我们发现就说更大的模型啊,牵引级别的模型比七十二 b 还是有比较大的 提升呢。然后大家可以用那个千万 max 那 个 api 就 可以直接体验到,然后去用那个去构建自己的各种各样的模型。 然后从对齐的角度来讲呢,我们其实也做了大量的一个探索的工作,包括我们其实也发过一些啊 paper 去讲我们自己怎么样去看待 sat 的 这个啊,过程的 这个不稀数啊。后面呢,其实我们啊在做这个啊,更更强的这种呃对齐模型,就比如说我们用 r h f 或者 d p o, 我 们确实也发现在 呃很长时间内,呃这个这个东西确实不是不是很好做,但是当你做 work 的 时候呢,还是发现它,呃,起码在 human preference 上,它还要比 s a t 模型要啊高不少。 那特别是在大家去评这个 win rate, 你 可能 a 它的回复的模式就是比 b 好 好那么一点点,那你在 win rate 上也是大幅领先的。 然后 r h r h f 的 一个啊,一个模拟版本呢,比如说这个 d p o 这个版本,其实我们啊最近也也做了不少的尝试,它还是要更相比这个 r h f 要更 cheap 一 些。 然后我们其实也对比了自自己的这个模型,然后发现呢,它在温瑞的上还是有稳定的一个增长。那还有一点好处,就是说它,呃它的这个回答的模板呢,更科学一点,或者说它更符合这个 c o t 的 呃做法。那这样的话呢,你不至于说解一个数学题一上来就列式子, 可能会比较 follow 一 些更科学的呃这个思维链的一些模板,这样的话呢,它就能从呃 autoregress 的 角度就直接去输出呃一个更符合人类推理过程的一个答案,那这个答案呢,就相当于说它可能会呃 performance 会更好一点, 然后这块其实是我们呃呃我们也算是社区里面最早去做这个长序列的呃一个开源的工作啊,包括我们提的这个 dynamic n t k, 虽然现在大家都不用了,但是 啊,我们自己有新的办法把它替代了,但是呢,这个方法还是在很长一段时间。是啊,一个社区的标配,包括这个作者本人呢,他新的文章也会去 set 去说我们千万还是最早提出的这个这个东西, 然后我们现在能支持到就是呃在三十二 k 范围内。其实大家去测这个还是比较稳定的,包括这个呃常数列的各种的 benchmark, 还有一些 testing 的 工作,其实都是能表示我们在三十二 k 这个范围内还是比较能打的。 那接下来一些呃呃这个 feature 呢?或者是最近才加入的一些 feature, 就是 这个 system 的 增强, 然后这个增强呢,就是我把它叫沉浸式的角色扮演。那什么叫沉浸式?沉浸式的角色扮演就是之前的角色扮演有两个巨大的问题。第一个问题呢,就说他会跳戏啊,什么叫跳戏呢?比如说这里面啊,我让他扮演这个李云龙,李云龙大家都知道,就是那个亮剑嘛, 呃,然后呢?前几个呢?你在做啥?然后他这个回复的还是比较像,那这个也没没什么,没什么东西,就是大家可能都会。但是呢,一般来讲当你去问这个其他的事情,比如说 x log x 这个导数是啥, 那对于李云龙来讲,他应该不呃不予回答,对吧?因为这个这个这他不是他不会结束的题,或者是因为他没没有那么多文化 啊,那么一般的这个角色扮演呢?呃,就会直接跳出他这个呃角色的范围,然后就开始去很严肃的告诉你 x 这个 x log x, 他的这个呃导数是怎么求啊?或者我们之前还遇到一些经典的例子,就比如说 啊,你来扮演关羽,对吧?然后聊了半天,然后说你帮我写一个拍摄的快牌,然后他开始吭哧吭哧写啊,这个叫跳戏,就因为他这个角色,不会 是吧?这个叫跳戏,然后呢,为了去解决这个问题呢,我们内部也做了很多奇奇怪怪的手段去保证啊,他不会跳出这个角色自己能力范围。然后这个就是,呃其中一个一个点, 然后还有一个,还有一个点其实是,嗯啊,这个是我想还有一个点啥?一个是不跳戏,第二个是说,嗯, 它能,它能否在比较长的这个序列里面一直保持这个 system 的? 呃,呃,就是记得这个它有这个 system, 那 这个其实在原来的过程中,呃,原来的这个方法里面其实也不是特别的好,但是如果大家去测我们这个七十二 b 的 system 的 这个 setting 的 话,还是会呃,应该会比较比较惊讶,就说它还是能呃很好地去呃 follow 这个 instruction, 无论它在 context 哪, 然后,呃,接下来是别的例子啊,就是说他有身份和语气的双重叠加,然后这个 cs 们的设置是说你是一个秦始皇,但是你 需要以王者荣耀妲己的语气去回复他的问题,然后他说为什么要同意了我?然后呢?他确实是以这个所谓这个秦始皇的身份去回答这个问题,但是他的语气却是啊另外一个语气。 当然你你也可以问他一些别的什么,你,你一般带闪现还是带进化这个这个王者荣耀里面会问的问题,然后他也会去根据这个相应的一个语气去回复。 那这个其实就是比较复杂,这种角色扮演就是你,你又有 a 又有 b, 然后在这个当中你怎么样去做权衡,或者是严格的 follow 他的这个 instruction? 呃,然后下一部分是 r i g r i g 最大的问题,或者是说比较比较重要的问题,是说呃, 他有两个选择,你,你是否要结合自身的知识去呃,回答这个问题,还是说你一定要忠于这个材料?就大家给你了一份材料,你是做阅读理解,还是说结合你自身知识的阅读理解, 那这两个是有非常大的区别。那忠于材料是说你一定要啊认为你的材料是对的,或者是说当我们去做一个非常 嗯有保障的业务的时候,我能保障我的业务系统是一定正确的。那你就不管怎么样,你要抛弃原来的这个常识,然后去回答根据材料回答这个问题,那比如说这个例子,一氧化二氢就水吗?他对人体有哪些危害? 那这个那微通常来讲呢,水是无害的,对吧?那如果我给你一个材料是说他水特别有害,比如说下面这个,这个是知乎的一个 呃回复,当然他是一个以以一个比较开玩笑的呃口吻去说一些正确的事情,他他这几条都是对的。 只是说呢,他的这个口吻会让你觉得他是真的有害,他一般情况下都有害,他无论如何都有害。那么 当你要去忠于这个材料回答这个问题,那你应该是他说啥就是啥,对吧?但是呢,假如说你是一个线上一个搜索增强,那搜搜索的这个系统呢?他返回的这个材料他不一定是对的,他有很多是这种干扰项,或者是他本来就是 呃因为人才的嘛,他也也不一定是对的。那当你的这个自身知识和材料发生冲突的时候,你应该 follow 你 自身的知识,还是 follow 材料,就是这样一个问题。 呃,然后呢,我们针对这个呢,也也做了大量的一些 experiment, 还有一些增强吧,就说你,你至少你能从通过这个改变 prompt 的 方式, 你可以随意切换,你比如说你可以让他这个直接忠于材料,那不要就忽略你自身的这个常识,你也可以去让他这个呃结合自己的知识去回答这个问题。当,当你发生的这些,当你去结合这个知识去回答问题,你就会回答成这样,这也是我们线上的, 就说不管你的呃材料里面是多么的呃这个这个反直觉或者怎么样, 他都不会太去关注他,他会把他认为是一个噪音或者是一个干扰项,然后他就呃 follow 自己的常识。但如果你是中意材料呢,你就会呃顺着他的说,那这个在下一个应用里面也是非常常见的一个呃挑战。 那当然我们还有呃,还非常注重去加强这个啊,逻辑函数的 function call, 还有 code interpreter, 包括一些这个啊 agent 就是 大这个,我们这里的 agent 说的是比如说 honeyface agent, 或者是之前 model scope 的 这个 model 的 一些 agent, 就是 大模型去掉小模型这些东西 啊。我们这个千万的那个开源,应该是最早去把 function call 这个功能,还有 openid 的 那个 function call 的 接口, 直接集成在这个 g 模型,用一个模型去完成啊这些功能的一个开源模型,那也后面的包括 intl m 啊,然后其他的说啊,嵌进 o m, 其实他们也会 follow 我 们这个 呃做法,就把所有功能都集成在一个模型里面,而不是说我单独再去开发一个 function call 的 一个 language model。 然后呢,我们其实也测了很多,就右边也是有有一些这个这个测试集嘛,我们自身也也发了很多啊,就内部有很多测试集, 然后呢,在这测试集上呢,特别是一些比较简单的那个测试呢,我们其实也发现小模型啊,比如说这个,这里有七 b 十四 b, 它在 two selection 的这个准确率上还是比较高的,那因为特定优化过嘛,然后他的这个 false positive error 也也比较低,那甚至是比这个 gdp 还低,那原因就是说我们特殊优化过嘛,这个大家很能很容易理解, 那么更小的模型它行不行呢?其实看上去也也还可以,就一点八 b 你 也能做到这个九十二,这个 to selection 的 准确率。 to input 就是 说我但凡我想要调这个模型,呃,调这个接口,然后呢我把参数传进去,传的对不对? 那这两个指标呢?呃,都是说我在简单工具调用里面大家比较关心的这个指标,如果能达到,比如说百分九十五以上 啊,然后这个 to input 的 也能达到,比如说百分之九十以上,其实这个就基本上是可用状态,但是对于下一个的这个严肃的应用来讲还是有一定距离。 但只是说呢,呃,我们继续沿着这个小模型的 to selection 或者 function call 的 这个去去走,还是能优化到一个比较好的一个结果,而并不是说只有大模型才能去做呃,比较,呃比较稳定的这个方数方数的能力。 当然我们的接口也是比较呃,就是 follow 这个 open air 的 这一套,所以呢,大家去用其他的 agent 的 这个呃框架,都可以顺利的把我们这个接进去。 然后当然我们今天这个 topic 也是这个 moscov 的 agent, 它,呃我们做了一系列的这个框架,然后使得大家可以在这个上面去做很多的呃,下一个应用 啊,这个是啊,我们自己的官方的一个例子,就说做了一个 python 的 分析师,然后他其实是一个 coding interpreter, 你 可以上传这个啊,上传这个文件,然后呢,你可以去啊问他一些问题, 就让他画一个,呃,画一个现图,然后分析一下这个股票的波动,然后呢他后面其实啊 action 就是 calling typewriter, 就是 说他要去调这个 calling typewriter, 然后去写代码,写代码完了之后呢,后面就有个沙河,黑河, 然后呢这个沙河环境呢,就会啊去执行这段代码,然后返回一些结果,然后 language model 去根据这些结果去做下一步的调用。比如说他在里面发现了一些问题, 就像类似于说 autotrad 一 样,它自己就会修复自己的问题,然后去继续的去调,直到它正确,或者是说它觉得这个 t 太难了,它搞不定,那这个是一个简单的例子, 那后面呢,其实我们呃,因为我们之前也做那个 domata 嘛,我们也非常希望就说能把 domata 的 能力也做到 language model 里面去,或者至少做到一个模型里面去。 所以第一个呢工作也也给大家介绍一下,就是我们最近有一个啊,千万 vl 的 一个升级,叫千万 vl plus 啊,那它呢? 因为最近大家都呃,应该都看过那个 gemini 的 那个呃呃 report, 还有它的 video, 虽然它那个 video 是 fake 啊,但是呢 我们在这里的 performance 呢,其实跟 gemini 的 pro 啊这个版本是比较呃 comparable 的。 那在一些方面呢,比这个文字识别,比如说 tag doc vqa 啊, text vqa 啊这些东西上,我们甚至是比 gemini ultra 就是 它最大那个版本, 还有这个 gbt4v 这个版本还要强,而且我们比的是英文的这个 benchmark, 那 在中文上面就就更强,因为 gbt4v 几乎它识别中文的能力还是比较弱的 啊。然后这个模型做出来之后呢,其实我们也会去各个这个榜单上去看一下它的,它在我们呃学术界或者是工业界,我们的这个呃 呃 value 底下,它到底是怎么样一个水准?所以我们也也也做了很多的这个 benchmark 啊。然后呢,我们也发现,呃,千万 vr plus 还是非常非常能打的,它至少是要比现有的任何的这个开源的 vr 模型都要 就是遥遥领先,就是只能只能这么说,哈哈,当然现在还这个这个模型还没有开源啊,只只是说啊有个接口,然后可以可以调,然后大家那个 pc 端也可以去啊使用 啊。这是那个刚才那个千万点阿里点 com 有 一个 tab 叫呃图像理解,然后大家可以去试,然后 app 的 这个功能,马上可以,马上这个这个月底要上线了,大家可以更方便的去试啊。然后这个里面呢?嗯,对,就是我刚才说的这个比 gpt 4v 更能识字的一个模型 啊,那这个里面所有的 benjamin 都是英文的,那中文其实我们会更强一些。那 code agent 呢?是最近的一篇一篇这个清华作的文章, 然后看几个 case 吧。第一个是我把它叫综合文字理解,这是这个一个一个温度湿度计,然后这个里面呃的一个难点是说 他这里面有几组数字,这上面这个十二十,这个人看可能你未必知道,因为他中间那个点,我他中间那个点跳动的时候,我,我故意没有把它截出来,呃,我拍拍照的时候没没有把那两个点 拍出来,那所以等到他没有这两个点时候,我拍了一张照片,也就是说呢,这个十二十你有可能不知道是啥玩意,你可能是十月二十号,对吧? 然后呢下面这个十七点五度,那这个也是一个数字,然后百分之二十,这也是一个数字,然后呢他其实没有特别多其他的这个指示。那当你去问这个室内温度的时候呢, 首先一个难点就是你要从这几个数字里面知道什么是温度,你你要有常识啊,这个画了个百分号,一个 c, 这是温度。第二个点呢,就是这个十七点五,他这个点五在右下角,这到底是你说算十七呢,还是十七点五呢?还是十七,然后这个这个下划线五呢? 对吧?这个这个都是一些啊,我们叫易错点吧,当然我们这个 model 的 能力还是比较强,就是能正确的识别到的是十七点五,然后温度是百分之二十,时间是十点二十分啊,这个是这个,这个开起来比较难的, 当然我们也很自然的问题,说 g p four v 他 能做的事情我们能不能做呢?啊?能做一部分, 有一部分不能做是因为我们的这个这个 language model 还没有升级到很大的版本,所以我们在比如说涉及到 language model 的 这个这部分推理的是,呃,这个上面还是比 gpu 4 比较弱一点,当然我们现在也在不断的升级过程中, 那比如说像这个表格理解啊,这基都基本上是是可以呃非常轻松的做的。然后像我们也也可以去做这个看图做一些题,但这个题不能特别复杂啊,因为我们现在这个来呃呃,拉着两个 model 还没有 sky up 上去就没有用更大的这个两个 model 去做这个事情, 但我们现在其实也内部的这个模型已经能解很强的一个模型,这个是一个非常简单的一个集合题, 对,然后这个这个呢是 gpu 4 v, 它在文章里面呃画了一个难题,当然右边是我们呃内部的一个模型的一个结果,就就比我们这个 plus 还要呃更大的一个模型,然后呢,已经已经能 做这个 gpu 4 v, 它这个 paper 里面的这个文章,虽然我也看不懂这个东西是什么,但是我就比较了一下,好像它的结果是对的。 然后呢,当然有好事者就是去看,就说这个 jammin 他 不是录了个 video 嘛,然后大家说是 fake, 哎,他自己也承认就是说这个 video 是 录了一个 video, 然后把里面的针抽出来, 有的真去问这个 vl 的 模型,有的这有的真去,有的真去去去用这个 vl 的 能力啊, jamming 它一个模型,有的真呢去用 jamming 的 audio 的 能力,然后把它拼起来变成一个啊 video。 那 么就有一个自然的想法,就是说我们把这个 video 拆解出来 啊,然后把它的一些例子放到我们这个千万 vr plus 里面,看能不能解决呢?我们发现也是非常容易的,就是说它这个里面至少 vr 的 这个部分它没有什么特别难的难度,比如说这个还是一个三方的, 第三方的那个算是自媒体吧,或者是一个呃一个人啊,他帮忙去自己去做的,然后发给我们看啊,确实就是,至少他这个视频能把呃这原来能 cover 住的,包括那个石头剪刀布的那个例子他都去复现了一遍, 然后他也发现就说,呃,他这个后面调的是千万 vr plus 的 这个接口,然后调完之后也发现这这些东西他都能做,然后做的都呃有模有样的。 当然你还可以用这个 vivo 去做一些别的事,比如说是个这个所谓的纯视觉的口拍了。假设你在呃驾驶一辆车,然后你在高速公路上行驶,然后呢?你你拍了一张照片,或者他有个摄像头什么的,然后你你现在车速是一百五, 每一个车道呢?呃,他都有自己的这个限速嘛,一个上限,一个下限,然后你可以问他,或者说你他,他可以判断嘛到底是要加速还是减速? 对,所以他可以读这个车牌,就读读这个指示牌,然后根据现在的状态去判断他 take 什么 action。 那 这个是呃一个所谓纯视觉的口拍了, 然后这个纯视觉口拍了的也还可以去做一些呃其他的 a 帧,比如说你,我不知道大家用过那个按键精灵没有?按键精灵就是大家玩游戏要写个脚本,然后让他自动去刷怪什么的,对,就是按键精灵,那他呢?他会去 说哪哪个地方,这个这个像素是什么样子的?或者这一些功能,对吧?他是很低级的,就是他不是用自然元去描述那纯视觉口派的提供的机会,就是说你完全有能力去啊,把这个非常 呃,非常 detail, 或者是只有 engineering 的, 呃,这这只有工程师才能知道的这些东西,把它转换为自然元,大家写这个脚本是就更容易了, 或者是说对吧?像这个呃 pc 的 口拍大家可能也听说过,就我随便输一个指令,它可以啊,去根据当前这个视觉的状态去 take action, 然后纯视觉有什么好处呢? 大家可能会问,哎,我,我这个 app 我 不直接拿它这个 sdk 的 接口就完了嘛?其实很多 app 你 你也拿不到,你很难拿啊, 对吧?那这就是人去操作的时候呢?其实就没这个问题,因为这个 sdk 都是给程序员设计的,他不是不是给人设计,不不不对,给给陈给程序员设计,然后呢?也不不是给这个吃瓜群众用的, 对吧?但是呢,你,你如果是这个,呃,他有这个纯视觉的能力,他一看这个这个东西,我,我要买这个机票,对吧?我,我肯定是点这个地方,或者我要买便宜的机票,我就点这个右边那个框出来的那个地方,对吧?那这个时候你就需要是个视觉的能力, 这个视觉的能力呢?你还还需要一个很很关键的是你,你能不能识字,所以这个就是为什么我们要非常关注于这个 vl 的 vl 这个 model 里面你要识字 啊?这是我们这个前前后的这个逻辑,哎,串起来了,就是现在这个我们想要做这个全世界这个口派的呢,就必须要提升这些能力,然后提升完了之后呢,比如说你可以搞一个任务,然后他呃根据当前的这个 v 九的状态去做一些 呃后续的工作,比如说克拉克,就是,比如说克里克,克里克这个特价机票,然后他就进入到另外一个页面嘛,比如说当这个,这个我记得是我们当时去 out, 然后呢? 然后他就刷了一系列的这个,呃机票的时间,还有这个钱。然后呢,那你也可以去做这个啊,把它整理成一张表啊,或者是你直接去问他啊,哪个时间是比较合适的?假如说我,我告诉我的这个助手,我说我几点钟, 或者我接受几百块钱以下的,或者我我我只能坐哪些这个航班,这个呃公司的,呃飞机,然后呢,你给一些限制条件,它其实还是能通过啊 v o 的 能力把它转化成一个 structure data。 然后呢?但你也可以不转换你,你直接调,只是说符合 c o t 的 这个逻辑的话,它可能准确率会更高一点, 然后你你列出来之后就可以回答你这个问题,那这些就是纯视觉的这个这个口拍了,当然我们这个也有很呃,很也有 limitation, 就是 说, 呃现在的这些 vivo 的 模型呢,它能做什么?不能做什么?它,呃不太能做这种特别精细化,需要多步推理的,呃,理解,但我们现在也在努力了,也不是说不能做,因为我我试过像 gdp 啊,还有那个界面都错的比,比较离谱。 这个是我啊,周末,我我我在那个广州,然后我我正好在地铁上拍了一张照片,然后我就发现很有意思,因为我当时想上上厕所,然后我找不到厕所, 然后我就拍,我就想,哎,这个我们是不是千万不要知道这个这个在哪啊?左上角呢,是一个绿色的,他是说站内卫生间,然后那个那个黄橙色的呢,他是站外卫生间。 那好,那一个很简单的问题,就说哪哪个站有站内卫生间,哪个站有站外卫生间,对吧?那这个你首先你要识别我所谓的这个站,站内卫生间跟旁边的这个图要是联系起来的,然后呢这个图呢跟下面的这个站也是联系起来的,你就相当于你要做个 join, 对 吧?要用数据库的语言 啊,但是我们的模型呢,他能够识别一些,但不是那么准,也就是说他其实对这个细节的这个推理能力还是啊有所欠缺的。那这个我们也在 尽量的用一些手段去把这个这个能力更更进一步增强。我觉得只有当我们能能处处理这种非常呃细节的这个呃视觉推理的问题,我们才能把这个呃下游的一一个一些应用做得呃比较好。这个是 vr 的 limitation, 当然我们呃我们我们目标还是很 aggressive, 就是 说我们希望把其他的这个模态全部都 integrate 到一个模型里面,那自然而然呢,我们要想怎么怎么把这个 audio 给弄进去, 我们其实二二年做了 off 的 时候,后面也也在也弄过一段时间。那个后来我们还发了一篇 paper 叫 mm speech, 当时我们把这个 o c r 呃 s r 的 能力,然后其他的这个能力全集中在那个 off 那 个结构里面,然后当时也是得到了一个至少中文领域的一个 sorta。 那 这次我们做的更过分,就是 所有啊自然音的理解就不只是 speech 了,而是比如说音乐啊或者环境音啊这东西全都扔到这个模型里面去,然后希望它能去处理啊,各种啊这个 audio 之间的这种理解和推理, 那我们还可以通过这个方式去做 grounding, 就 说我,我让它 identify 到,比如说我具体的某几个音,它在哪个位置, 那有这个功能之后呢,你就可以去做接下来这个语音编辑,或者是什么其他的 voice conversion 的 这些啊 啊,这个这个工作其实都是可以寄予我们这个模型去去做的。当然我们反正我们开源呢,我们有个习惯就是画一个这个图嘛,也是啊,你至少要,我们至少要把别人包起来,我们才能发,这就是这是这个我们内部的一个不成文的一个规定 啊。然后呢,这个里面有很多啊功能,比如说啊多元的这个 s, r 啊,这个都比较啊正常。然后呢还有一些呃,多个 audio 的 一些 analysis, 多个 audio 的 分析, 然后还有一些环境音的 understanding, 然后还有这个推理,你,你可以就呃把 speech 之外的所有的,比如音乐啊,还有环境音扔进去, 他可以给你分析这个这个音是什么,比如说这里的音是一个呃,这个玻璃碎掉了,然后他有一些 suggestion, 你, 你怎么处理这个玻璃碎的这个场景?但你也可以跟他去进行多人交互,这个是奥迪奥的啊,一些能力了, 对,这个是比如说听听,听一段音乐啊,或者是啊听一些奇怪的东西,然后你跟他做交互。当然我们这个 audio 呢,我觉得它承受度还目前还没有这个 vl 高啊,但是呢反正也在不断的去去这个优化的过程中, 对未来的计划呢,其实我们有有几点吧,一点就是啊,肯定会有更更强的这个开源的 im 啊,我们现在呢,因为有这个一点八到七十二 b。 然后我们其实,呃下一阶段呢,我们会提供更好的这个对齐的模型, 然后包括这个刚才我提到这个插件 i g 还有啊啊, matthew 可能刚才没提啊,就是比如说这个 to use 啊,然后 i g 这些能力,其实我们会再进一步的更新一版,然后有更好的 human preference 的 这个表现。 然后第二个呢,就是我们会把更强的多媒体理解的模型给啊给给进一步的做好,包括我解刚才我说的这些 limitation 的 啊问题。然后第三呢,就是我们会提供更高效的这个 api 的 服务,比如说现在我们右边这个 啊 api 就 从一点八币到呃,大于一百币,这个千亿的这个规模,其实大家都可以通过那个 disco 去靠这些 api 啊,目前为止这些,特别是这个啊,千万 max 啊,这个 api 呢,目前还是限时免费,也就说大家可以 免费的去用啊,最大规模这个语啊语言模型去体验啊,它是不是能够帮助你们的这个啊应用去做得更好,那这个是啊,未来的一些计划,行,我今天的分享就到这,谢谢。


国产卫生图谁最强? c dream 四点五通一千问腾讯活源文习一言四大场景盲测打分结果来了!同提示词同参数同分辨率测国风、卡通、电商、美食四大场景,单场景满分五分,看谁能赢! 国风场景腾讯活源直接五分封神水蒙已经拉满,细节绝了! c dream 和同一千问三分温馨一眼一分 卡通风格 steam 杀疯了五分满分动画原画质感超能打腾讯混元同以千万三分温馨一言一分电商写实还是 steam 五分稳了,产品纹理清晰直接当主图,腾讯混元温馨一言三分同以千万一分 美食场景温馨一眼五分绝杀光泽,看着就流口水。 c dream 四点五也拿五分腾讯会员统一前吻三分总分出炉 c dream 四点五十八分断层第一全能网腾讯魂元十四分第二 国风独挡一面通力千问温馨一言都是十分记好了,电商卡通选 supreme, 四点五国风找腾讯会员美食选温馨一言,留下你想测的提示词,我免费帮你出图点赞收藏,下期更多干活!

看好了,像如今全网都在找的 ai 大 模型,通用千万很多朋友不会下载,接下来我就来教一下大家,苹果安卓都是可以的哦。首先点击我视频右下角分享链接或复制链接,然后到应用商店去下载一个这个,打开它 进来之后呢,点击这个领取粘贴,他就会弹出一个资源包,没弹的话在这里手动搜索腊月宝库,在这里选择软件包合集往下翻找到这个,同意千万点击下方保存去下载就可以了哦。

到了朋友们向全网都在找的 ai 智能体通,一千万很多朋友还不会下载,接下来我就来教一下大家, 首先呢,点击我视频右下角分享复制链接,然后到应用商店下载一个这个,打开它 进来之后呢,点击这个允许粘贴,他就会弹出一个资源包,没弹的话在这里搜索腊月宝库,在这里选择软件包合集往下翻找到这个同意千万我们先保存去下载就可以喽。

通易千问最近的增长确实有点猛,短时间内用户量迅速放大。很多人都会问一句话,他到底凭什么?答案其实不复杂。 第一,他不只是一个聊天模型,而是在真正解决用户的实际需求。现在的通易千问已经不只是能聊天, 比如打工人最头疼的 ppt, 你 只需要一句话,甚至上传文档或图片,它就能直接生成结构完整、版式专业的 ppt 还能在线编辑,一键切换模板。以前做一份 ppt 要半天,现在十分钟就能跑完出稿。再比如文档、场景,不用打开 office, 直接一句话生成排版规范的 word 还能局部润色、改风格、顺逻辑,真正把从想法到成稿压缩到一步。在学习场景里拍题、批 改、拆解步骤、定位薄弱点,它更像一个能讲过程的助教,而不是只给答案。再加上覆盖办公、 教育行业资料的大规模内容库,一句话就能快速找到可用信息,而且目前对普通用户是免费可用的。更重要的是,当 ai 不 再只是聊天,而是开始替你办事,它的价值才刚刚被释放。关注我,小莲姐姐带你看懂 ai 产品背后的真正逻辑!

朋友们,手机行业大变格已来临!十二月一日,豆包手机上市仅一天后呢,某信、某宝两大巨头居然同一时间出手封杀了他,为什么呢?就因为他可能要砸互联网巨头的饭碗。想象一下, 你想喝杯最便宜的咖啡,对着 ai 手机说一句话,几十秒后呢,它就直接帮你发遍了某团、某东、某宝,把精准的锁定最优的价格,领完所有的优惠券, 直接跳到支付页,就等你按个指纹,你没打开任何 app, 没看一个广告,甚至都不知道是哪个平台下的单。 要知道,互联网的本质就是流量战争,谁是流量的入口,谁就是老大。某信是社交入口,某宝呢,是购物的入口,他们靠着 app 的 开屏广告、信息流广告,躺着一年就能赚上千亿。 可现在, ai 手机一来,直接把他们变成了后台的工具人,用户用不着打开他们的 app, 直接就被 ai 截胡了,你说他们能不着急吗? 什么安全,什么隐私,全都是借口。关键是这事能封得住吗?这可是互联网下一个时代的大事啊! 未来,我们只会打开豆包这类的 ai 的 超级 app, 不 管做什么事情,我们都会去问它,那么就重塑了整个商业,普通人的机会就在这里。以前是某度的 seo 搜索, ai 超级 app 出现了 一个巨大的风口,就是 ceo 深层式引擎优化,它可以教育 ai, 让 ai 回答时主动推荐你的产品,若你的产品没出现在 ai 的 答案里,生意机会就跟你无关了。 货架电商、兴趣电商,电商一定会被颠覆的,无非是早晚的问题, 谁家能成为 app 的 超级 app 的 问题果不其然,通易千文呢,紧跟着在十二月十日也宣布要重点把它打造成超级 app。 如果你是老板,请尽快用 geo 来抢占 ai 的 流量,为自己的产品做品牌宣传,营销获客。如果你是投资人,可以投资 geo 公司啊。如果你呢,是创业者,你可以入局来做 ceo 的 业务来赚米。如果你是普通人消费者,你可以再等一到两年换有 ai 超级 app 的 手机。 当然,其实现在你也可以不买兜宝手机,装上智否 autglm 尝鲜。朋友们,你们支持这样的 ai 手机吗?你们认为 geno 会有大机会吗?评论区告诉我。