粉丝4267获赞1.2万

介绍一篇 lanchen 的 vlog 啊,这篇文章主要是介绍多模态的这个 r a g 的应用在呃,就是类似于在 ppt 的这样的一个蹦哒上面的一个应用场景啊,然后他们提供了两种方式啊,给大家介绍一下这篇文章啊,目前 v 版本出来之后啊,包括 google 的 节目里,哎,这些大模型出来之后,就是模型开始往多模态的这个方向在发展啊。 r a g 的应用的话,之前呢,主要还是应用在一些问答的文字类的这样的一些应用上面啊,它主要还是聚焦在一些文字啊, 能不能把一些图片的一些资料也在 ig 应用里面能够实实现呢?他这次这个篇博博客主要是讲这个的,他讲了两两种方式来解决这样的一个问题啊,通过用户能够给一张图片啊,根据一些问题去回 回答这个用户的一些问题啊,这个也是一个多模态的这样一个 r a g 的应用啊,主要是在 ppt 这样的一些应用场景啊,我们一起来看一看啊。首先的话介绍了两种用 r a g 应用怎么支持这种多模态,特别是图片的这样的一个问答。这里面啊,他讲的第一种方式呢,就是本身 in getting 的时候呢,就用一个多模态的这样一个 模式啊,目前呢,他们介绍了目前多模台 in building 的话呢,他建议用这个要用 open click 这样的一个开源的这样这个 呃多模态的图片的 in bedding 的 in beddings 的这样一个模型啊,他可以把这个图片啊生成文字啊,这个文字呃生成摘要啊,他是通过这种方式去做的啊,他直接通过多模态的模型来 让 r a g 的这些应用啊,就检索深层增强的这些应用能够支持多模态啊,这是一种方式啊。第二种方式的,这种 方式的会比前面一种方式他自己实验了一下,准确率会更高啊,但是他是怎么做的呢?他是用多个 invector 呃获取的这样的一个技术来实现的啊,他是怎么来做的呢?他他还是要通过这个图片多模态的这样的个 inventing 的这样的一个操作,但是呢,他会把这个图片 生成的这个摘要和文本的这个这个摘要他都会放在像量数据库里面啊,他通过这种方式,那么他把那文字的 invading 跟图片生成的摘要的 in inbeding 都放在这个像量数据库里面啊,他是通过这种方式去做,那放到像量数据库里面之后呢,会有多个 vector 这个 retriever 的这样的一个对象啊,那么他就相当于是他在使量数据库里面也可以既可以获取文本,又可以获取图片的这样的一个应该领的这样 他的一个呃获取相似度的这样的一个连锁器啊,他的他是通过这种方式来做的啊,那么通过这种方式的话也简单的讲了一下啊,他大概是怎么做的啊?主要还是把这个图片啊,通过一个多模太音改定生成摘药啊, 把它变成文字啊,是一种。第二种的是把这个图片啊,他先生成一个摘要啊,再加上 x invading 这个东西在分别存在这个向量数据库里面啊,他把图片的这个摘,呃摘要和文字的这个 in bedding 分别都放放在向量数据数据库里面之后的话,当用户来问的时候的话,那么他就会从这个向量数据库里面分别获取这个 text 和这个图片的这样的相关的 in getting 这个内容,然后再回答相关的问题而加在上下文里面。好,那么他们也实践了一下,他做了一个评估啊,那么这个两 两种方式的话也做了一些评估。呃,一个是他的这个结论啊,他用 learn smith 呃作为一个呃追踪评估的这样一个技术啊,他有一个 c o t 的这个准确度叫死死死 go 啊。那么如果用纯的文本的这个 r a g 的应用的话呢?他的准确度是非常低的,因为他输入的是文本, 所以他并不能知道这个图片里面的一些东西,所以他只有百分之二十的准确率啊。如果他用了这个多模态 invading 的这样一个操作的话,他准确率可以达到百分之六十啊,当然也不是太高啊。那么如果他用多个像量的 retriever 的这样的一个技术,分别把图片的摘要跟文本的摘要分别放在这个向量数据库里面,相当于有多个向量库啊,那么它的这种结合的话,可以把这个准确率提高到百分之九十啊,那么你能达到百分之九十的话,基本上是可以进行呃 生产线上面的使用了啊,所以他就介绍了这两种方式啊。后是前面这种方式多模态 in bed 的这样一个增强啊增强版本啊,那么这个就是他讲的他们实践的这样的一个结果啊,他在这个 这篇日志里面呢,他也讲了一些亮点,呃,亮点的话,他还是可以呃通过这个多呃多模态呃呃,这个就是 tax olay 的 r e g 的这种应用,它是可以用在这个多模态的这个场景里面,而且它的性能呃百分之二十到百分之六十到百分之九十啊,它其实做的还是不错的,它建议是这样啊, 那么用呃 g d 四 v 的这个版本的话,会比较好的能够抽取一些图片的这样的一些结构化的 text 的一些文本啊。它这个里面也讲了一下,用 g d d 四啊抽取一些这个片的这个本的一些内容的话, 他的能力是会比较强啊。目前啊,目前就是以这个呃多模态呃,以这个图片为中心的这样的一个呃获取的话,其实还还是有很多挑战,他的准确率的话目前也只有达到百分之六十啊。用 oppen kips 的话,虽然 在开源界里面目前已经是最强的这样的一个模型,但是它的准确率还是不是太高的,它还是要通过这个 呃 tax in bedding 的这种方式啊,来进行增强啊,然后能够达到这个图文问答的这样更高的一个准确度啊,他是这样来介绍的啊。 哦,那么这篇文章的话,大概就介绍了这样的一些内容啊,他的核心的话还是介绍了,就是目前呃很火的这个多模态的图文问答的这样的一个应用啊,应用是可以通过 rag 来进行增强的,然后实现也有两种途径和方式啊, 分别也做了一些实践,然后换种方式, provected retriever 的这种方式的话先来看它的准确度是最高的啊,好吧?好,呃,今天的话就问,呃,这个话题就跟大家就介绍到这。

