提到 r p c q, 友们可能首先会联想到 g r p c java r m i 等熟悉的名字,但近日,一条重磅消息公布,腾讯宣布 t r p c 框架正式开源。 t r p c 将核心功能抽象封装成独立插件。它具有多语言、高性能的特点, 首批支持 go 和 cpp 两种编程语言,让不同编程语言的开发者都能找到属于自己的舞台。他还设计了爱面管理接口,让服务管理变得触手可及。育儿 pc 的丰富插件生态和可扩展性为未来的技术创新奠定了基础。 它支持流逝 rpc, 适用于大文件上传、下载、消息推送、 ai 类语音识别和视频理解等多种应用场景。 trpc 框架的开源是腾讯对开源社区的重要贡献,预示着 rpc 开发将迎来新 新的里程碑。让我们一同期待 t r p c 如何引领我们走向更为广阔的技术未来。
粉丝2.0万获赞11.2万


话跟大家介绍一下的是 new re talking 的这样的一个开源的项目,这个项目的话呢也是腾讯和腾讯 ai library, 和清华 university 和那个西电这个大学他们联合 写的这样一篇论文,这篇论文的话呢主要是讲这么怎么把这个用户的 talking head 能够通过这个,呃,就是 talking head 可以就是比较好的能够把它给呈现出来,我们来一起来看我们的星星数也不是太多,这个项目刚刚也是刚刚开源出来, 在两个两个月前他把这个项目的代码给放出来了,这个项目他主要是告诉你你可以输入一个带有头像的这样一个对话的这样一个视频, 就是一个人这个对讲话的这个视频,让你再输入一段的这他这个声音可以驱动这个头像的视频,能够把这个声音能够把它给嘴巴动,包括脸部的表情 能够比较好的把它给呈现出来,他主要是做这样一个项目的。那么这个项目其实大家看到我最近的那个视频上面也是有一个头像,头像呢也是用类似技术做的。微信他们 做的这样一个 video re talking 的这样一个项目,它有一个比较好的东西,就是它不需要长时间的去训练一个三 d 的模型,因为我原来是用的一个叫 r a d 这个项目,他就是需要你先输入五分钟的这个对话视频,他去帮你训练出一个模型出来,然后你再输入这个声音,然后再跟这个模型去匹配,生成这个 talking head, 他等于是这样,就就是生成用户这个有表情的这个说话的这个视频,他等于是这样,但这个项目他是不需要任何训练的, 他之前都是预训练好的,他都是有预训练好的模型,就直接利用预训练好的模型,甚至我看到也有人只有一张图片,他就可以去驱动这张图片 去说话,他等于是这样,这个项目他也是有些价值。那么我们看看他这个项目他到底是怎么做成的,他是怎么做出来的?他本质上他就是把人的这个嘴部的嘴部的这样的一个区域加了一个 mask, 加了一个空白的这个区域, 它是用训练的这种模型,它叫 air net。 air air net, 它就是这个嘴部的那个合成,它有一个 network, 就是神经经网络,然后通过这个声音去驱动这个嘴部 的这个神经神经网络的去产生这个嘴部的这样的一个视频的这样一个动作。然后他还有一个呢创新点,他在这个里面有叫有一个叫 d net。 d net 这个东西呢挺, 所以它这个框架的它可以表现出你很开心的这种对话的方式,它也能够表现出你很 angry, 就你很愤怒的这种表情,它可以通过你的这个表情的叫 template 表达的这种模板, 当然也可以比较自然的去表达它,它是有它有一个叫 d 杠。 net 的这样的一个东西,它可以通过这个文字的驱动它叫 pose pose 的这个参数去驱动这个 d net 这个东西,然后能够产生这个人的这种带有这种表情的这种视频, 然后他再把那个嘴部的这个视频跟你这个脸部的这个表情的视频进行合成,合成完了之后呢,他才会做一步增强。 根据你这个脸部处理完了之后,他有一个叫 e net 的这个东西,最后做一个这个脸部的这个分析和他的这个牙齿的这种这个这个增强,他把那个牙齿可以做的更清晰一点。他等于是这样,通过这个三个 a net, a air net, d net 和 e net 这个三个域训练的模型,可以将一个输入的视频或者一张图片,根据你的这个声音,然后产生这个用户的这个说话的视频,他等于是这样。这个项目是 是这样,我给大家看一下他做出来的这个效果。 that white euro has this is the major challenge, it is not out of the streets, it is normally catechable for thought to social office officers has been dominated by the global financial crisis my biggest weaknesses is asking for help when i need it i'd like to do better at that and to be used whenever, it will be necessary again in stressful formed others will be discontinued and need to be replaced by view benchmark rates formed others will be discontinued and need to be replaced by view benchmark rates need to finalize a reform。 对这个这个项目的话,我看下了,他对英文支持还是相对会比中文支持的要好。 他,他的这个像好我。我们看看他到底,呃用了哪些内裤,他还是跑在那 touch 一点九版本之上的?他建议还是要用那个英伟达的 g p u 跑在那个扩扩大上面,呃,他也要用到拍 touch 的一个 vision 的这样的一个 内裤。其他的内裤它都是一些比较标准的,你可以通过 p i p in store 杠二这个 requirements 点 t x t 去安装一下,我自己在机器上也装了一下。它的这个使用方式还是比较简单的,或你就下载这些预训练的模型,放在这个点 checkpoint 的这个目录下面。这个这个预训练模型的话呢,还是蛮多的,我看了一下,他下载下来大概有将近四个 g 左右,他有非常多的预训练模型, 你打这个命令就可以了。 python 哦,他这个是做渲染的,输入的这言就是输入的视频驱动的这个 order, 这个声音,你的这个结果放在哪个目录下面?你只要打这样一个命令,那么他就会按照我前面讲的整个一个过程,他可以把它给做出来。 他的这个表达方式他也有两种,他有欲训练的两种表达方式,一种的话呢就是比较自然的一种呢,就是带有微笑的,比比较 带有笑容的这种表达方式。他的脸部表情的话呢,他也有两种,一种呢是比较惊讶的,还有一种呢是 angry, 就是比较愤怒的,他有两种。当然一般默默认情况下,你这个表达方式跟你的 up face 这个参数是不用设置的。好的呃,这个项目我给大家看一下我做出来的成品,因为我昨天跑了一下他的这个成品, 今天会跟大家介绍一个开源的项目,叫 bug 项目,它的优势是在于它可以把人语音,它主要是能够支持各种各样的多多语言。 bug 这个项目也是基于这个 transformer 的这样的一个模型,它它这个项目的话,最主要的是我看了一下它的 眼睛,我的这个眼睛这个区域还是有些问题,包括这个嘴巴,他有些时候可能还是有些有些问题,他等于是这样,因为这个可能跟他的这个模型也有关系,高清的划分还是有点问题的,清晰度如果比较一般的把文本转成 成语音的这样的一个模型,那么吧,他的嘴部的表情应该还可以,嘴部的表情要比我原来用的那个 r a d 呢呢服的那个项目要好,大概是这样,他生成,我原来生成这个视频的话呢,大概中了七分半钟,大概要一个半小时,这个项目 他 cpu 跑不满,说明他需要的时间还是比较久的,他得因为他就要经过三个 night 来跑的。我原来用那个 r a d nf 的那个项目跑的话呢,他只要几分钟,大概是四呃八分钟,七七八分钟他就可以算完了, 但是通过这个项目算的话呢,他时间会比较久,但是前面那个项目他就是他要训练一个三 d 的一个模型,这个模型可能会花的时间会比较久,他等于是这样,所以这两个项目各有各的优势。这个项目的话相对来讲比较新, 基本上是二零二三年他刚刚推出来的,他这个论文的话呢,是二零二二年是推出来的,也是中国人推出来的。这个好,今天的话呢,我就跟大家就聊到这了。