一分钟告诉你，什么是多模态大模型！ #ai #人工智能 #大模型

什么是多模态英语教学

145

11

67

50

举报

发布时间：2026-05-09 10:54

复旦阿甘玩Ai

粉丝2735获赞4602

相关视频

12:24
今天我们来讲讲：多模态Vision Transformer #人工智能 #大模型 #AI大模型 #大模型学习 #大模型教程
7039AI大模型学习
03:06
什么是多模态 #中视频伙伴计划 #科普一下 #多模态
查看AI文稿
AI文稿
你知道什么是多模态，是什么意思吗？看完这个视频你就知道了，多模态是一种信息交互的方式，他利用多种感觉通道和多媒体形式来表达和传递信息。随着技术的发展，多模态技术已经成为计算机信息领域的重要研究方向，并在人机交互、智能家居、智能交通等多个领域得到了广泛的应用。首先让我们了解一下什么是多模态。在人类日常生活中，我们通过不同的感觉通道，如视觉、听觉、触觉等来感知和交互世界。例如，当我们与他人交流时，我们不仅会用语言来表达自己的意思，还会使用表情、肢体动作和声音等非语言信息来增强表达的效果。这种通过多种感觉通道和多媒体形式来表达和传递信息的方式就是多模态。在计算机信息领域中，多模态技术是指通过多种感觉通道和多媒体形式来采集、处理、分析和呈现信息的技术。他利用计算机视觉、语音识别、自然语言处理等技术来实现对图像、音频、文本等多种媒体信息的处理和分析。通过多模态技术，计算机可以更好的理解和处理复杂的信息，并为用户提供更加丰富、自然和直观的交互体验。多模态技术的研究和应用可以分为以下几个方向，一、多模态感知和处理通过多种感觉通道和多媒体形式来采集和处理信息。例如，计算机视觉技术可以用于图像识别、目标检测和跟踪等任务。语音识别技术可以用于语音转文字、情感分析等任务。自然语言处理技术可以用于文本分类、机器翻译等任务。二、多模态融合和建模将不同模态的信息进行融合和建模，以获得更全面和准确的信息。例如，可以将图像和文本信息进行融合，以获得更丰富的语义信息。可以将语音和肢体动作进行融合，以获得更自然的交互体验。三、多模态交互和体验通过多种感觉通道和多媒体形式来与用户进行交互和体验。例如，可以通过语音指令来控制智能家居设备。可以通过手势识别来与智能汽车进行交互，可以通过表情识别来与机器人进行情感交流。总之，多模态是一种重要的信息交互方式，他利用多种感觉通道和多媒体形式来表达和传递信息。在计算机信息领域中，多模态技术已经成为了一个重要的研究方向，并在人机交互、智能家居、智能交通等多个领域得到了广泛的应用。未来，随着技术的不断发展，多模态技术的应用领域还将不断扩大，为人们的生活带来更多的便利和智能化。跟我来看视频涨知识！
233阳光书单
00:30
可本地部署的多模态大模型#干货分享 #有ai就有无限可能 #多模态大模型 #英语学习搭子
517刘傲的AI实践
06:12
AI公开课第二十五课：什么是多模态模型#人工智能 #知识分享 #科普一下 #多模态大模型
129HAI生活实验室
15:02
绝了！多模态教授动物常洁 Amazing animals 绝了！多模态教授动物常洁 Amazing animals 小学英语三新课堂 #英语公开课 #课堂实录 #英语优质课
1143骑白马的荒野
03:05
轻松搞懂AI术语单模态和多模态大模型
#人工智能 #热点 #科普 #职场 #培训
409健哥聊AI
06:24
阅读课中的AI赋能。这是一节初中的阅读课，主要体现了图片、视频等多模态的赋能模式。#AI赋能 #英语公开课 #ai赋能教育 #英语教学 #阅读支架
查看AI文稿
AI文稿
hi， everyone welcome back to my channel today， we're still going to learn how to use ai in our english class？ hi，大家好，欢迎回到我的频道，今天我们要继续学习如何在一线教学当中实现 ai f 呢？本节课我们所学习的素材来自于大家看二零二六年刚刚结束的浙江的一个调研和展示课。这节课选自七年级下册第五单元的一个拓展阅读，这节课堂当中，它的语篇来自于三个 vlog。我们都知道 vlog 实际上是以这种视频的形式居多的，在今天这节课堂当中，它以文字的形式作为语篇的输入材料，帮助同学们去了解如何能够写出这样一个 vlog 的文案。我觉得这也是一个非常新颖的切入点。大家会发现无论在初中还是高中，课程标准当中都引入了不同种类的新型的语篇的素材的输入。这也要求我们一线老师和我们的同学们越来越明白，语言作为一种工具，它不但能够帮助我们表达含义，同时随着社会的发展的语言多种形式的表达方式也应该让更多的同学们去接触，去了解。在本期视频当中，我们要重点关注的是陈老师结合旅行这样的一个话题，如何利用 ai 实现多模态的输出，即图片转视频、语言转视频 now let's get started 讲解，首先这节课是一节阅读课，有三个语篇材料构成不同的 walk。节课的最终目标是同学们通过阅读以及完成相关的阅读活动，最终能够输出自己的 vlog。同学们在输出自己 vlog 的过程当中，主要包含以下两个方面，首先从内容上要注意，从语言上要注意，从内容上同学们要写出你是谁，在哪里，发生了什么这种类型的信息。从语言上同学们要注意使用连词，学会表达自己的情感，这个就是我整节课最重要的目标。为了完成这样的教学目标，结合我们的教学的主题，陈老师通过哪些手段和途径实现了 ai 赋能？我们来看一下。最简单的方式就是将图片转成视频，这个方法还是比较简单的，我们可以用豆包完成即可。第二个，在介绍三个 vlog 的过程当中，我们的陈老师还是使用了文字版视频的方法，也就是说陈老师根据 vlog 文字的内容加以 ai 的编辑和整合，使之形成了一个真正的旅行 vlog。老师是怎么做的呢？据我的分析，我认为可以通过以下方式来达成这样的一个目的，首先我们可以去 b 站找出相关的巴黎旅行的素材的视频的片段。接着我们可以打开剪映，将在 b 站找到的这些旅行素材视频内容都通通放到剪映当中进行创作。接下来我们打开即梦 vlog，一来举例，一当中的小女孩有自己正面的人物图片，我们在即梦当中教材当中的人物图片为参考图，生成教材当中的人物在巴黎铁塔下拿着手机与朋友进行拍照的视频，这一点是吉梦可以帮助我们带来的。接下来我们整合所有的视频素材在剪映当中，然后进行 ai 配音，配音之后，我们整个基础素材加 ai 素材共同创作出的人物的 vlog 就已经成型了，我给大家从头到尾演示一遍。我们先打开吉梦输入提示词，如果你提示词写不好，你就用豆包帮你输入提示词。输入提示词之后，我们就等待吉梦给我们生成女孩们在埃菲尔铁塔下自拍的画面。大家看这个是我前期收集的在巴黎的一些素材，包括最后我们用吉梦生成的主人公在埃菲尔铁塔前拍照的视频。那有了视频之后，我们现在我们就要进行一个 ai 的配音，先把教材当中的文字粘贴进来，然后大家看选择一个声音，我们选择一个活泼的小女孩的声音，点击确定之后，我们可以试听一下。 hey， i'm sandra from lisbon welcome back to my channel。然后我们就导入插入到我们原来的视频中，这样一个比较完美的后期利用 ai 生成的与课文相结合的旅行 vlog 就完成了。在整堂课当中，为了实现多模态的表达，陈老师主要从这两个方面进行了 ai 的辅助教学。在此基础之上，我们在回顾他这堂课的过程当中，其实我们仍然可以再次的发挥一下自己的想法。比如说无论是初高中，现在都在倡导的叫做教学平一体化，这三个层面上我们都可以进行 ai 赋能。在这节课陈老师的基础之上，我们发现他把大多的 ai 赋能的相关内容放在了教上了，也就是说如何利用 ai 进行多模态的呈现。如果大家去了解的话，其实在 ai 赋能领域当中，在评价方面更多的老师选择了使用 ai，例如我们以这节课为例，这节课老师的最终教学输出是让同学们创作出自己的 vlog 文案，在课堂当中，孩子们也确实创作出来了，这里我们就可以结合 ai 赋能的相关途径进行一个 ai 评价。如何操作呢？我们来看一下。此时此刻，我们让 ai 来评价学生的 vlog，我们可以给 ai 赋予不同的角色，它就会生成不同的有趣的内容。比如说，我们让 ai 当一个巴黎的本地人，或者我们让 ai 去扮演一个 stranger，了解学生的 vlog，让 ai 来判断他愿不愿意去。或者我们可以让 ai 就当一个 ai 去扮演一个博主 vlogger，可以去办一个 vlogger 这样一个短视频的博主，他是一个专业的博主。来看我们同学所生成的文案如何，会不会吸引很多很多人的关注呢？所以说我们可以给 ai 赋予不同的角色，让他站在不同的角色去评判同学们的内容，没有绝对的好与坏，只有侧重点不同的特点，进而去进行评价。我相信这也是一节非常有趣的课。这节课堂当中，陈老师自己用了两种 ai 的方法，一是图片转视频，二是文字转视频。在此基础之上，我们从教学平一体化的方向来思考。我们说在评价方面，我们也可以用 ai 辅助的方式来评价同学们所生成的 vlog 文案，就已经达到了我们最终想要的这种 ai 在评价方面赋能的情况。 so that's all for today， everybody see you next time。
57思佳的英语妙妙whim
00:43
多模态和大模型是什么关系？ #人工智能 #AI学习 #多模态 #大模型
查看AI文稿
AI文稿
老师啊，多模态和大模型的关系就是这么回事啊。多模态只是大模型其中的一部分，大模型是一个更大的范畴，大模型里面有语言大模型，有语音大模型、图形大模型，有多模态大模型、全模态大模型，就是这么一个关系。 ok，当我这个大模型只能够识别语言，识别文本的时候，就叫所谓的 l l m large language model。如果我的这个大模型又能识别语言，又能识别图片，这就是所谓的图文多模态大模型。如果还能够涉及到一些语音视频类的，那就是全模态的这种多模态大模型就这么回事。你可以理解成我们平时用的一些，比如说 deepsea，它就是一个叫单模态的大模型，单一语言模态的大模型就是这么一个关系。
88朱老师AI趣谈
01:00
2025年，多模态特征融合只会更火 #深度学习 #多模态特征融合 #人工智能 #神经网络
1968（资源简介自取）AI工程师阿文
01:32
一分钟📕学懂多模态一分钟📕学懂多模态：大模型、大语言模型、视觉模型、多模态大模型有什么区别？多模态的模态是什么意思？
#多模态#大模型#多模态大模型 #多模态ai #多模态融合
293小月亮讲AI🌙
02:25
两分钟掌握基础知识#llm #多模态 #token #agent #ai
查看AI文稿
AI文稿
hi，有没有听过这些说法？是不是一头雾水？没关系，花两分钟带你用最通俗的语言，搞清楚这几个常见的 ai 术语，不要被吓到。 l n m 其实就是 large language model 的首字母缩写，你肯定听过它另外一个名字，大语言模型。我们常见的 deep seek、豆包、千问、 chart、 gpt 都是 l l m，大就大在超大参数、超大数据的支撑语言，是在于它专攻自然文本，所以 l a m 可以通俗理解为一个读了全世界海量书本人的资料，超级会听懂人话，还能自己写文字的超级智能聊天大脑。如果说大元模型是一个会认字、聊天、写字的大脑，那多模态模型就是什么都能看懂的全能 ai。文字、图片、声音、视频，每一种都是一个模态。使用多模态模型，你给他任何一种介制内容，发段文字，拍张照片，发段语音，传个视频，他都能看明白。可以通俗理解为 ai 模态里的全能学霸，看书、看图、听声音全都会。常有人问到这个词的意思，专业上将它解释为 ai 的最小文字单位。目前官方部的规范域名叫做词源，我们可以理解为 ai，他不认识完整的字和句子，他需要把我们的内容切成一小段一小段，这每个一小段就是一个词源头衔。而考虑到应用场景上 token 多少决定我们需要消耗的相关费用，我个人会跟人解释时，把它类比为手机的流量情景，再赋予它一个算量的含义。词源就是 ai 世界里通用算法单位，我们输入内容的长短与 ai 反馈答案的长短，最终都会以算量多少来合算，所以我认为 token 就是像 ai 的专属流量，既能帮助 ai 读懂文字，也是我们衡量我们使用 ai 多少的重要标准。 aj 就是 ai 智能体，普通的大模型只能被动接受指令，你说一步，他做一步，但 ai aj 你主要说出最终的目标和要求，不用拆分细节反复提醒，他会自己理清步骤，先分析要做哪些事，再按顺序一步一步执行，还能主动调用各类工具辅助完成。简单总结，普通 ai 是聪明，但摸鱼的员工要去催促，而 ai aj 更像是一个自带思路的专属小助理，具备独立思考和自主办事的能力。最近半年爆火的小龙虾就是一种 ai agent，个人认为它也会是未来一个伟大的趋势与起点。以上的解释欢迎讨论，还有哪些希望突出了解的，咱们评论区见。
26答案玩AI
01:11
科大讯飞小学多模态口语
初中英语备考听力模拟考试
#中高考＃真题模拟考试环境
查看AI文稿
AI文稿
家里有科大讯飞学习机的，千万别浪费这保障功能。像我们科大讯飞小学部分英语模块，它是有一个同步单词的功能，这里面呢，我们随便点开一个小号到这个单词，我们下面呢会有一个发音跟读，包括多肽口语练习。那我们的多肽口语练习呢，是行业独一无二的，其他学习机它是没有的。我们可以一边看外教的这个发音，然后一边呢对着镜头自己去进行镜头描榜，然后 ai 实时打分出错发音准不准呢？嘴型到到位，一眼就能看出来，不用报班，孩子自己就能练口语了，每天五分钟敢开口发音证，小学轻松英语轻松拿捏，有学区学习机的可以赶紧用起来了。那我们切换到初中界面，然后我们点英语模块的专项备考。像我们全国多地呢，中考已经陆续开展英语听说考试了，与传统的听力题不同呢，中考英语听说有模仿朗读、听选、听力、转述、回答问题等形式，考试难度特别大，考察的维度也多，对于很多孩子来说呢，平时基础少，十分的有挑战性。科大讯飞学习机呢，为中高考英语听说机考提供人工智能辅助测评服务，累计服务于二十九个省市高考一百三十二个地市的中考，年服务于一千六百万家的考生。学习机上的 ai 听说模拟考试呢，采用了中高考的同源技术，不仅可以让孩子跟着中高考的专项练习英语听说，而且它的步骤是百分百还原考试流程的，包括试音、答题、考试界面，可以让孩子提前适应高考环境，每一次练习都是实战。
2科大讯飞大连开发区亿合城店
15:05
多模态下的高效英语课任玲儿新教材 the weather 多模态下的高效英语课任玲儿新教材 the weather around us #英语公开课 #课堂实录 #英语优质课
917骑白马的荒野
01:49
多模态理解和生成的区别以及结合点！#InfoQ #大模型 #腾讯混元 #编程 #程序员
10InfoQ
00:26
Ai升级-黑话翻译（8）Ai里的多模态是什么？#Ai知识 #Ai博主 #Ai升级 #流量玩家 #跟着大光用Ai升级
查看AI文稿
AI文稿
家里的多模态是什么东西？其实特别简单，就是 ai，它能同时处理多种信息，用人话讲就是他不但能看能听，还能说，你给他发图片、文字、语音他都能理解和回应。但要记住一点，功能多不代表他很好用，关键不在于他有多厉害，可是这些功能对你来说有没有用？多模态只是 ai 的一种能力，不要被他的概念吓到哦！关注我，一起用 ai 提升自己！
6AI布布布丁
01:12
DeepSeek多模态来了，网页和APP上线识图模式。 #AI #人工智能 #多模态 #DeepSeek #DeepSeekV4
查看AI文稿
AI文稿
deepsea 多模态识图模式上线网页和 app，部分用户已经窥测到了网页和 app 中快速模式专家模式识图模式并列石头效果如何，请看分析。我把自己的一张照片发给他，他给我的分析报告不仅是识别，更有推理逻辑。一他盯着左下角的时间戳，二零二五年十二月十日十八点二十六分，自己跟自己较劲。他说，如果这是真的，冬天的这个时候，天早该全黑了，可照片里天边还有晚霞。他在用物理常识去推理，去质疑我看到的世界，这让我汗毛都竖起来了。二真正让我觉得恐怖的不是他的逻辑，而是他的眼睛。他突然指着图片顶部的天空区域告诉我，你看，这里有非常明显的 h u d 抬头显示或中控屏幕的倒影，可能显示着导航信息。三甚至指着一个模糊的暗斑说，这可能是玻璃上的灰尘和污渍。我看了这么久的车，从没注意到这些细节。这已经不是识别了，这是比我自己的审视还要细致的审视。所以， deepsea 的识图模式到底强在哪？他不是简单的拍个照告诉你这是啥，而是用逻辑去推理，用超越人眼的观察力去审视。他看到了我忽略的世界，这就是多模态 ai 正在被打开的大门。关注我，价值翻译官帮你翻译价值，看清前沿 ai。
1710地理视界
00:55
上海初中英语新题型多模态阅读做题方法#上海英语 #上海民办学校 #沪教版英语 #上海英语新教材
查看AI文稿
AI文稿
上海六七八年级期中考试告一段落，我们拿到了很多学校和区的试卷，需要的可以在下方留言或者进我们的粉丝群。首先这篇是卫浴的八年级 a p n 讲 ai 如何使用，这篇是我们的市北 a p n。关于非连续性文本，讲的是中国的传统艺术活动，这一个是杨浦的 a 篇文章多模态，这个是两张海报，讲的是我们的一些这个艺术活动。大家可以看到他们的共同点就是什么。我们的 a 篇阅读就不再是一篇连续性的文章，而是通过图片或者是段落的形式给大家提供信息去做题。这种题目它的共同点是什么呢？就是获取里面关键的词语，关键的信息不再是长篇大论，而是从最少的语言里面去获取，所以这种阅读理解题目要多做。这种题目前市面上没有很多的练习，所以大家要多收集试卷。我们有一个群是专门给大家收集试卷的，需要的可以在下方留言进我们粉丝群。
3上海英语理查德（栗子）
07:00
当代大学生不懂大模型 / Prompt，和文盲有啥区别？大模型LLM、提示词prompt、token、多模态、上下文这些词你是不是经常听到？
但每次都像听天书一样，今天就用最通俗的语言，让你彻底搞懂AI核心概念。
大家还有哪些不懂的AI专业名词，可以在评论区留言！
#ai新星计划 #大学生必看AI百问 #2025开学季 #开学的精选 #AI术语
2.5万大师的AI小灶
01:28
深度学习动画系列📊
一眼看懂：什么是多模态大模型（Multimodal Large Models）#你的互联网学习搭子来了#算法动画#深度学习动画#深度学习#多模态
37无碘盐.

热门推荐

热门分类