Deep Speech #语音转文本 #文本转语音 #机器翻译 #语音识别 #Python

deepspeech识别效果

11

1

3

分享

举报

发布时间：2024-05-23 11:58

查看AI文稿

粉丝924获赞4768

相关视频

06:24
海量语音数据弱监督训练语音识别模型Whisper OpenAI
2机器不想学习
07:01
基于DeepFace和opencv，分析视频中的人物面部表情
#人工智能 #深度学习 #计算机视觉 #人脸识别 #opencv
查看AI文稿
AI文稿
大家好，今天要讲的内容是识别并分析视频中人物的面部表情。在本节课中，我们将详细地讨论如何使用 deep face 和 open cv 提供的 python 接口，对一段视频中的人物表情进行分析，提取人物面部的表情变化。 deeper face 是一个轻量级的面部识别和面部属性分析的框架，它基于 tensor flow 实现。该框架整合了当前最先进的模型，如 v g g face、 google face net、 open face 等等技。基于 deep face，我们可以识别出伤心、愤怒、厌恶、害怕、开心、惊讶、中性等七种表情。另外，实验显示，人类在面部识别任务上的准确率为九十七点五三，而 deep face 项目已经达到并超过了这个水平。我们可以在 github 上找到 deep face 的开源代码，有兴趣的同学可以进一步深入研究其中的算法内容。后面我也会安排讲解这个开源项目。 open cv 全程 open south computer vision library 是一个开源的计算机视觉机器学习软件库。在本节课中，我们主要使用 open cv 的 video capture 接口对视频进行读取、标记和保存结果。首先使用 konda create 创建一个名为 emotion 的新 python 环境，其中 python 版本选择三点十，创建后激活环境，输入 type 隐私到 deep face 安装 deep face，其中 open cv 会随 deep face 一起安装完成。安装后编写如下测试代码，首先导入 deep face 模块，接着调用 deep face analyze 接口识别图片。 test 点偏激中的表情，这里需要传入参数， actions 等于 motion。最后打印结果，运行结果是一个字典，其中包括了七种表情的强度数值，这里 happy 高兴的数值最大为九十九，其他表情强度都较小。从 test 点 png 中也可以看出，图片中的人物确实很高兴。完成 deep face 的安装和测试后，编写视频分析程序。在程序中首先导入 open cv 和 deep face，接着设置带分析视频的路径 v 六点 m p 四和分析视频的结果 emotion 点 m p 四，使用 open cv 的 video capture 接口打开视频文件，返回 cap。 cap 用于从视频文件或摄像头中捕获视频针，接着获取视频针的速率 f p s 视频针的宽度 from white 和视频针的高度 from height。要用 video writer 定义视频编辑码器指定视频文件的编码格式，其中 x v i d 是一个流行的 m p g 四视频编辑码器要用 c v r 点 video writer 函数传入输出视频地址。 output v 领 four c 视频编辑码器和视频针的参数。后面通过返回的 alt 可以将处理后的视频针保存在输出文件中。设置 frame， c， n t 表示当前正在处理第几针。 emotict 保存识别出的情绪结果，然后进入视频分析的循环，在循环中使用 cap 点 read 读取当前的视频针，保存在 free。如果返回 r e t 不是真，说明视频结束了。跳出循环，要用 deep face 点 analyze 对当前的真进行分析，识别出当前视频真钟人物的表情。这里要注意，需要将 inforce detection 设置为 force，也就是不强制识别出人脸，否则如果没有识别出人脸，会抛出异常。接着获取结果中强度最高的情感，保存在 emotion 中面部区域的位置和宽高保存在 x， y， w 和 h 中。 freeman， c， n， t 加一记录已经计算的帧数，接着打印该针日视频的第几针和这一针对应的表情结果。使用字典 emotict 记录每种表情的数量。最后要用 c v 二点 rectangle 将针 frame 中的面部区域使用矩形进行框选，要用 c v 二点儿 put text 将表情结果标记在矩形框的旁边，要用 out 点 right 将标记好的真 frame 保存在输出视频中。完成对视频的每一帧的识别后，打印表情统计结果的字典 in addict 运行程序可以看到视频会被一帧一帧的识别。在这段视频中一共包含了二百三十四针，其中表现最多的表情是 happy，高兴的有五十六针，占比二十三点九三。其他的比如 said，悲伤的， surprise，吃惊的， fear，恐惧的， angry，生气的等等相应的结果。那么到这里识别并分析视频人物的面部表情就讲完了，感谢大家的观看，我们下节课再会。
517小黑黑讲AI
05:00
人工智能的人脸深伪#人工智能 #Deepfake
查看AI文稿
AI文稿
请你仔细的观察一下，下面四个奥巴马里有哪一个是假的？答案是全部都是假的。大家好，我是点点。今天我们的话题是 dffic 深伪技术，图片上是英国女皇伊丽莎白，下面的是特朗普，他们也全都是假的。仔细看一下，你会发现，其实他们的表情有点僵硬，对不对？今天我们主要来谈谈深伪技术，呃，简单的了解一下他是怎么这个人工合成这样的效果。最后呢，我们也讨论一下深伪技术怎样改变我们的世界，改变我们的生活。首先我要打破一个框框，审美技术带来的不一定都是负面的东西，比如说我们可以很轻松的看到平安的瑞士演的福奥瑞斯干，是不是很有意思？还有呢，呃，比如说我可以让爱因斯坦来教中学的物理，而且用不同的语言。你听听看下面的一段录像，哈喽， wow，想象一下那会是一个多么激动人心的场景。下面我来简单的介绍一下生理技术是怎么做出来的。第一步叫做制作一个数据面膜，说白了就是把我们的脸变成一堆数据，这些数据包括了你的各种各样的表情，当你笑的时候，眼睛和眉毛离得多远，鼻子和嘴巴离得多远，这种数据面膜是怎么做出来的呢？他是通过人工智能的深度学习，这个学习过程太复杂，我们这里就不讲了，只需要记住他学习的对象是这个人的照片啦，视频啦，而且这些东西越越多越好，越多，最后造出来的那个东西就越象征的，这就是第一步，这步是最难也是最花时间的。下面呢，我们进行第二步，因为光有这个面膜不行，他只是一堆数据，我们还需要他更像一个真人，于是就要往上面再加一些，比如说皮肤的颜色啊，是白还是黑呀，牙齿是黄还是黑呀，各种各样的，包括皱纹呢，这些细节，把它加上去。第二步做完，我感觉好像就有一张真的人皮了，下一步就是让他怎么动起来，这就是第三步，要 red 让他动起来，这个电脑是很容易做到的，这这一步并不是很难，找个大活人电脑就可以直接现场操作，让这个的 dpficel 来和他的表情进行同步，而且一个人可以驱使多个面膜，就像啊，现在视频上显示的一样。这是第三步，其实还有半步，为什么说半步呢？因为太容易了，这就是声音的模仿，现在的人工智能技术，想要模仿一个人的声音，比如说奥巴马的声音，真的不是什么难事，所以我这里面也就不说了，好总结一下。用刚才奥巴马的例子。第一步，制作人工面膜，这里面只是读取他嘴唇的信息，然后再进行蕊发，加上更多的低调，包括他的牙齿，嘴唇和皮肤的感觉，还有皱纹。最后一步加上他上面上半部脸，包括眼睛啊，头发呀和后面的背景，这样就变成了一个真的奥巴马，你想让他说什么，他就说什么。看到这里您可能有一点担心，俗话说眼见为实，现在连这一层都做不到，我们以后还能相信谁呢？生委技术刚刚出来的时候，他有一个致命的缺点，就是他制作出来的那个假人啊，是不会眨眼的，所以观众只要稍微留点心就能看出破绽，但是道高一尺，魔高一丈，还是魔魔高一尺，道高一丈，反正就这意思吧，生伪技术他也在不断的发展，现在制作出来的假人是会眨眼睛的了，那我们怎么能够判别呢？这个可能我们的肉眼就很难做到，需要 ai 制作出来的 dfacco 还是需要 ai 来破解。我知道的一个兔是一个个在 boss 上的普拉克，英语叫做 renirligangenday，但是我也没有用过，但是我知道这个醋就是针对 dffi 可来制作的，他可以辨别出来各种各样的假视频，有的可能只是恶作剧，但是有的可真是恶意的政治上的攻击，这样就不好了。好，这期视频我们就做到这里，谢谢你的收看，我们下期再见。别忘了订阅我的频道哦，拜拜。
75观群智联万物
14:03
如何让你的应用有各种语音功能？语音识别、合成和翻译等 #小工蚁 #paddlespeech
查看AI文稿
AI文稿
是跟大家去讲一讲这个 bbox b 区里面，它这个功能非常强大，然后你可以把它变成一个 server 远程调用，然后你可以在其他的这样的一些项目里面去调用他的这 a p i，这个的 a p i rest for 的 a p i 的话，具备这种各种各样的语音的处理的能力，还有五种能力。废纸的话呢，它是百度开源的这样一个 oenwin 的这样的一个语音的这样的一个工具箱里面有很多种的国际比较先进的一些语音的算法和一些预训练的模型，你可以在这个工具箱里面你可以去处理各种各样的语音的任务，这个是在语音里面一个两个比较重要的任务，语音识别，语音合成，语音的翻译，语音的分类，还有一些呢就是生文的识别，包括的话呢一些语音的一些编辑，比如说像我经常跟大家沟通的时候可能会讲错一些东西，那么它其实是可以在你讲错的章这个过程当中，可以把这一段文字讲错的，直接把他给编辑掉，或者把他删除掉他这这个叫语音的编辑的这些工具，那么这些语音的工具都可以通过百度开源的这个那叫 purpose b 区来实现。那么今天我主要是跟大家讲这样的一个 server 啊，是 bubble speed 区，部署在服务器端，然后你可以进行私有化的部署，然后呢大家就不需要去买那啊收费的，因为他本身是开源的，你只要有一个福气，你就可以把这些语音相关的这些各种各样的多功能的这样的一个 siver 部署在一个福气上面，然后你就下去调用啊，你通过小程序啊， app 啊，通过你的那个 webserv 啊，去调用一些应用，那么他就可以能实现各种各样的这些语音的功能，他等于是这样。那么 bubbles b 区的话呢？它也是在国际上，也是在二零二二年也获得了一个非常重要的一个奖项，它这个奖项它主要是 easy to use all all in。问的这个 speech to kit，说他这个相对来讲还是比较功能强大，而且他比较容易用，他等于是这样，那么他也获得了最佳的，国际上有一个叫 naa cl，二零二二年的这样的一个最佳的一个 demo 奖，他等于是这样。所以我今天就跟大家讲这部分好，开场有点长，那么 bobos 必须的安装的话呢？它主要是基于 python，呃，这个用户帮助的一个文档，你按照这个来装就可以了，我自己在装的过程当中，我们我自己建议你们如果要用就建议安装是 bobos 必须的原原代码进行安装，你就不用去安装他的那个已经编译好的，因为编译好你有，你有些功能就没有了，因为我们今天要演示的是 bubble speech 的一个 server 的这个功能就没有了，它的意思是这样，所以你还是要把安装啊元代码安装的，你要在 kit up 上面把这个 bubble speech 的这样的一个原码下载下来，用 get clone 这样一个命令下载下来之后的话呢，然后你就到这个目录里面去，你就打 p i p in store 点杠 i，然后有一个依赖的这样一个清华的这样一个库，然后你就可以把它给安装起来了，然后安装完了之后的话，你可能还要注意，因为他在他会用一些，我看到他还有三个内裤也是比较重要的，我也是用的，使用过程当中已发现了一些问题，所以你要你还是要再安装，有一个叫 p r a a t i o 等于五点零点零，还有一个呢叫 librrosa，等于零点八点一。呃，这个两个文件是比较重要，这个两个内裤是比较重要，因为它最新的内裤的话呢，跟我们要安装使用的这个 bubble speech server 它是不兼容的啊。好，那完了之后的话呢，然后你去验证一下啊，你可以啊，这个我不用讲了啊，他有一个命令，你只要在这个里面打呀，这样就可以了，我们主要是验证第一部分呢，主要是验证他的语音识别啊，你只要把这个命令打一下，你就可以验证。第二个就是验证他的语音的这个合成。那么今天我们重点再来讲一下，因为如果你要去远程去调用语音的一些服务，最好要有一个 server 的功能，那么这个里面包包 speech 里面呢？它有一个叫 speech server，然后这个目录下面，在你的 bubble speech 安装的这个目录下有个 demos speech server 啊，目录下它有个启动脚本叫 server 点 s h，然后你启动起来之后，那么它会有一个，它会生成一个 log server 点 log 的这样一个文件，它会把相应的日志都输出在这个 log 文件里面，你就可以 server 就可以跑起来了。那么跑起来之后呢，我们再来看一下它的，它有一个 server 的这样的有一个配置文件，在这个 speech server 杠 configure application 点 y a m l 的这样一个文件里面，这个文件是比较重要的，它是你这个 server 到底起了哪些服务，起的哪些功能，它是都是定义在这个 config 这个文件里面的。第一个要讲的话呢，这个 server 企的这样一个 ip 地址和端口，它默认端口的是用的是八零九零这个端口，它是基于这个 http 的协议，它也有一个 engine list，它这个里面就是起了这个 server，它到底起了多少的语音的服务，它这个里面它会定义的只是说 e s r，那么它就是一个语音识别的功能，只是说它有个叫 t t s 杠拍审，那么他就是起了一个 tts 的杠拍审的这样的一个服务。那么还有叫 c l s c l s 的话呢，它主要是做你的声音分类的，它可以去区分出你上传一段声音，在你的这个声音库里面，他会去对比哪个声音跟你比较接近，他主要做这样一件事情，它叫 c l s 服 c l s 杠 passion，那么它还有一个呢叫 tax 杠 pass 的符，这个符呢它主要是 text 杠 pass 呢，它主要是做一个。呃，在你的一句句子当中你可能给的很长，然后他主要是做那个帮你去恢复这个标点符号的，就是帮你这个语句更加通顺，是输入一些，增加一些标点符号。对，他这个功能是要做这个断句，做标点符号恢复的这个功功能。 victor 杠拍摄的话呢，就是主要是做声音真文向量的提取，像我们有些要克隆一个人声音，你就要做一个，你要把这个音频里面的人的这个声音的这个声文，要把它给提取出来，包括你要去比较这两段声音是否是一样的，红样的，你也要去提取这个声文的这个项链，他等于是这样，他这个也是提供了这样的一些服务。好好，那么我们再来看看啊，我们怎么来调用这个 bubbles beach server 的这些接口？它是有一个文档的，它因为也是基于这个 rest for 的这个 a p i，那么它这个调用如果我们工程师都会比较清楚啊，都是基于这个 application 这个 jason 的这种格式，那么它也有这种请求和返回，那么如果你请求成功，他这个扣的就返回是两百，失败的话呢，那么他会返回一些。呃，起什么？四百啊，他这个请求参数不正，四零零四啊，就是网址不正确，五百啊，这是 server。那有错误啊，他等等等啊，他会返回这些啊，然后呢这些 result 就是结这个结果里面的话呢，他会一一些你要返回的一些参数啊，他是在这样啊。先来讲一个例子啊，语音识别他是怎么用的？嗯，它这个参数主要是要 get url 这个 public speech，它这个叫 a s r 啊， a s r 的话主要是语音识别，然后它的请求参数是什么呢？ audio mat 啊。呃呃，也可以是一个呃 p 神键格式，然后呢，这个是央绿，呃，取样绿的话呢，它有两个值，可以选八千六零零，一般用幺六零零会比较多。嗯，所以我们一般如果它的这个就高了，他应该是二十二，是两万，两万，两千四百，嗯，他的那个赫兹，他这个是采样率，所以的级别的话，他会报错的，所以你要把它画成这个一万六千的这样的一个采样率，然后你再输入进去啊，那么你也要标注一下他到底是中文还是到底是英，然后这个是否开启这样一个天成一个功能的默默认参数是关闭的啊？那么我们看看他大概是怎么调啊？首先我们先定一个这样的一个 bubble c 区 request 请求这样一个函数啊，一个 u r l，然后返回，就是返回 ison 的这样的一个格，那么我们这请求函数里面呢，我们先把这六十四的这样码的一个声音把它输入进去，然后它的格式是 will，然后他的请求参数是幺六零零的采样率，然后是个中文啊，你输入进去请求调这个函数之后，他马上唱了，他就会回来这样的一个，呃，这个把这个语音就自动的变成中文了的话呢啊，这个就是语音的识别啊，他这个那么语音合成的话呢，他其实也是要的这个 u i a s 后 u i 叫 t t s，那么他调的一些参数有些不一样啊，第一个是 tax，就是代代合成的文本 speak d，就是这个发这个啊，默认的话可以用零啊。然后的话呢，这个里面的话呢，因为你用同的，呃，这个你用不同的模型，呃，模型训练出来的这样的一个数据集，可能也会有不同的这个 speak id 的它这个里面，嗯，当然这个也可以查文档啊。另外一个的话呢， s 的呢，他也是就是合成音频的这样的一个速度语速啊，他也是可以的，包括你这个音量他都可以控制啊，然后包括你要返回人的这个采样率，一般呢？是一样啊，用幺六零零啊，六千啊，采样率，你也这个合成的一这样的一个文件存在本地有一个 save pass 啊，你可以呃确它的意思啊，这是个例子啊，这个样例啊，我这里面也讲了，参数启动跑，他就会返回这样的一个支付，返回了之后我就可以让让他运行他等于是这样语音合成这部分好，那么 boost speech server 呢，他也能支持，就是这语音合成，就是你去不断的会产生呃，就是各样的这个文字，然后要让他能够产生连续不断的声音，他也是能够支持的，那你就不断的给他文字的话呢，他能够这个是的，这个音频音频流，他等于是啊，那么他这个参数啊，叫 t t s 杠冰冰啊，他这个，然后你要输入的是 tax 带合成的文本，然后 speak i 啊，也是类似的，我就不详细讲了啊，声音费，他只是说他这个接口的参数不太。呃，就是不太一样，他用的是 c l c l s，然后他的输入输出不太一样，但基本上他其他都是一样的啊，非常强啊，只输入两段声音，然后你去啊，这两段声音是不是同一个人？他的相似度有百分之多少？那主要做这个 text 标点符号的恢复，他也是一样的，你可以给他一段文本，你让他这个肯定是不带标点符号的，让你让他返回一个带标点符号的这样的一个文本，他也会帮你来处理。这个一般的话呢，是在语音合成之前，他可能要去自动的加一些标点符号，那么这个时候可能他会用这个会比较多啊。接下来的话呢，讲了再稍微再深一点，因为语音的现在的识别值越来越准了。原来我也是介绍过用这个 whisper，这个用 whisper 就是 open ai 开源的 whisper 引擎，可以做九九十六种语言，它都可以去帮你去识别出来，这个能力是非常强的。那么在 bubbles beach server 当中，它也能够集成 whisper open ai 的这个 whisper 的这个功能它也是可以集成进来，那么这个不是重点，重点呢，我们主要是讲在中文当中最难还是 tts 文字合成声音相对来讲会比较难。百度在这个方面确实是做的全球是在中文方面确实是领先的，这个是不容置疑的，这个还是很领先，因为我上次也是跟大家介绍过，因为中文的话呢，它跟英文在发音、语调停顿方面还是有差异的，它等于是这样。所以百度是在这个返程声音这个方面，它还是有很多的自己的这个技术的积累啊，现在呢也把它给开源出来，在 bobos 必须的这个 d s 的这样的一个功能里面，它就把它集成进来了啊，所以你可以看到如果我们用 t t s 杠 python 这样的一个东西，它有能够支持很多的模型，主要部分一部分的话呢，我这个有兴趣的话呢，可以去啊，我之前 bboxsb 区里面过的啊，这样的一个一个一个原理，你要把 t t s 要转化成声音，它要会经过三个阶段，特别是中文，第一个就是要把中文要做一些规则的优化，再输入到一个叫声声光的这样的一个模型里面去，这个是主干模型，进去之后再要再再要进一个叫 v 扣的的这样的一个模型里面去。这个两个其实都是深度学习的模型。前面第一个模型它主要是一个规则，那么经过这三个模型之后，这个中文就可以非常好地转化成这个声音了。它是这样，在这个 bubble speech server 当中呢，它会支持非常多的这种模型，你可以看到它有叫 speed speech，这个模型后面杠 c s m s c，这个是什么呢？这个是一个数据集，它有一个叫 fast speech。二、这个其实是一个核心的一个开源的一个骨干的这个模型，这个是基于这个 transform 的这样的一个模型来做的啊， c s m s c 的话呢，它比较适合做中文。然后呢还有一个叫 l j s speech，这个的话呢是一个也是一个，就是数据集，他呢主要是讲英文会比较多一些。还有一个数据集叫 as a， i s， h， e， e， l l 三，这个的话呢也是中文。还有一个叫 v c t k，这个也是英文的一个数据集，当然他们也有一个叫 mix mix，他会把这样的数据集混合在一起，所以他可以支持中文，也可以支持英文，这个就会比较强。这个 fast speech to gun mix 啊，这个这个两个目前已经用的非常少了。这个两个的话呢，它主要是我之前也是讲过的，它的这个模型不太容易能够等于是这样啊，不稳定，这个这个叫 t a c o t r o n 二这个模型啊，录剧集啊，那么 we code 的话呢，它的选择也是非常多的。 we code 啊，我说的这个叫做，呃 panor we gan，对吧？啊，这个这个后面也是一样的数据集，这个是这个用的是比较多的。还有一个是这个叫 fif i f i gain high five gain，这个用的也是比较多的。这个就是 t t s 的这个参数的配置啊。这个因为是在你的 a p i 里面是不能，就是你的 a p i 里面是不能设置的，你只能是在他的那个叫 application 点 y a m l 里面去配置配置。你的这个你所使用的模型，这个因为你所使用的模型的不一样，对你的声音的音质是不一样的，包括它这个你用不同的这个模型和数据级，它里面有一个对应的叫 speak id 是谁发声的也是不一样的。好，最后我就给大家再来看一下它这个 above speed 区里边因为有各种各样的模型，所以的话呢，它也已经把它训练好了。他这个叫预训练模型，他有一个下载资源，一个文件，如果大家需要用要配置的，要要提前去下载这个东西。他有各种各样的，就像我前面讲的有五种功能，他这个也有 speech to text，就是 asr 的这功能，就是语音识别的这些预训训练模型。还有个是 text to speech 的，就是我前面讲的他有两个模型，大模型，对吧？这个是骨干模型，这个是 mecoder 的模型，这个我就不重复讲。还有一些你像有些声音克隆，我原来也是讲过的声音克隆，他这个模型叫 e s two。什么声音克隆？这个播播 spb 区里面也有 mocking birds。我原来也是介绍过一个开源的项目啊。其实百度实现的这个克隆的这个能力和这最后呈现出来这个效果要比那个模型要比那些开源的项目要更好一些。我自己也听过啊，确实要更强一些。大家还有个前面也是讲了什么 audio 的这个分类啊， speak 的英文的鉴别啊等这些模型都可以下载啊。好，今天的话呢，我就跟大家就交流到这，好吧。
91小工蚁
02:02
一张照片精确识别出年龄,厉害了我的人脸识别工具deepface#人工智能 #开源分享 #python
查看AI文稿
AI文稿
今天和大家分享一个深度学习的人脸识别工具，这个 face。首先我们选择了十二张图片作为我们的样脸，来测试一下这个人脸识别工具的效果。我们看一下识别图像的样脸，其实我们选择了十二张，包括了，嗯，大人、小孩、老人和男，男士和女士。然后我们运营一下单网，看一下结果录下看一下结果。其中第一张图片我们识别出来的是二十六岁，嗯，和实际对比看了一下，第一张明显识别出来的显年轻了。然后第二张我们识别出来的是三十岁，和实际的出路其实非常应该是非常接近的。第三张识别出来是二十八岁，嗯，这个可能偏偏年轻一点。第四张识别出来的是二十二岁，这个的话准确率有点有点低了。第四张的话，外国人的话，这个应该不止了，看上去都三四十岁的大叔了。第五张三十四岁，我们看下结果，哎呀，这个老人识别率，直觉率就非常低了。然后第六张，第七张我们看一下实际的效果。第六张的话他是一个儿童，儿童识别率其实也非常低，他识别出来是二十二十多岁，完全不可能。第七张的话是我们的郭德纲大师，然后我识别出来四十五岁，我觉得还是可以非常接近了。然后第八张我们做了一个对比，识别出了林志颖，然后放的图片的话是识别出来是二十六岁，这是和实际的严重不符的。同时我也说明了一个问题，这个经过图片处理的这种图片的话，我们识别出来是不差的。然后第九张我们放了一张小朋友的照片，叫做黄多多的，但是化过妆的，他识别出来是二十六岁，这说明了一个问题，小朋友化过妆的这种对我们的识别的准确率一样，判定也非常大，差别非常大。然后十第十张我们识别的是有十四的很早的一个证件照，这个我觉得应该非常接近了。十一张是有飞的一个照片，然后我们看这个的话，他识别出来是三十一岁，其实也非常接近了。十二张是谭松韵的一个照片，看了他的介绍是九零年的，我们识别出来的是二十九岁，应该相当接近了。说得出结论是在识别小朋友和老人这块，这个工具其实误差是相当的大，在识别中年人的情况下，如果在没有化妆的情况下，就确率可以达到百分之九十以上，如果有化妆或者美颜的话，这种的话那个效果就非常的差。
20AI整活研究所
09:22
【声音识别】使用SpeechLib完成文本转换为语音 #Python入门教程 #Python编程学习 #Python零基础入门教程 #Python爬虫 #Python
15小川老师讲编程
02:55
AI实现视频换脸，工具介绍。
查看AI文稿
AI文稿
一、 deface web deep face web 是一款功能强大的开源软件，可用于深度学习人脸识别和换脸。二、 face off face off 是一款免费的开源软件，可以用来进行面部替换、视频换脸等操作。三、 adobe a three fix 德高比亚瑟人 fax 一款专业的视频特效制作软件，可以使用他的蒙版功能来制作视频换脸效果。四、 one two three more one two three more 是一款简单易用的视频编辑软件，可以使用其中的面部交换功能进行视频换脸操作。以下是使用低魁所要进行视频换脸的一般步骤，一、收集素材首先，您需要准备原视频和目标视频，以及原视频和目标视频中需要替换的人物的图像。二、安装 defacel，下载 defacel 软件，并按照说明进行安装。三、数据预处理将原视频和目标视频转换为图像序列，并将人物头像从图像中提取出来，存储为单独的图像文件。三、数据准备使用低配合的脚本将图像转换为特征像量，并将这些像量保存到数据集中。四、训练模型使用低回所要的训练脚本训练一个模型，该模型将根据数据集中的特征向量学习如何将原人物的面部特征转移到目标人物的面部特征。五、导出结果使用 dpac 转换脚本将模型应用于目标视频，并生成一个新的视频文件，其中原人物的面部特征已被替换为目标人物的面部特征。需要注意的是，使用 dpace 进行视频换脸需要一定的计算机技术和算法知识，如果您不熟悉这些技术，建议先从基础知识开始学习，并参考 dpasef 官方文档和教程。您可以在飞速 op 官方网站上下载该软件。以下是官方网站的地址， atdps 冒号斜杠斜杠 acs w p 点的 ev 斜杠。飞速奥是一个开源软件，可以免费下载和使用。 dpase 是一个开源软件，可以在 d tub 上进行下载。以下是 d pes 的 b t b cd ps 冒号斜杠斜杠， github 点碳斜杠， aplov 斜杠 d e pfc lab one 的是伏魔是一款商业软件，需要购买许可证才能获得完功能。但是他也提供了一个免费试用法，您可以在官方网站上下载并使用三十天。免费试用版会在视频中添加水印，并在导出时有一些功能限制。您可以在 windows 与猫儿的官方网站上下载该软件。底下是官方网站的地址， hdps 冒号斜杠斜杠在 mi 点 w， n， d， r， s h。二一，点击斜杠。
145爱思考的9527
00:20
deepface 今天找到了deepface软件包，又被这个软件惊艳到了。face_recognition没发现的人脸，它做到了，而且还对人物表情做了个简单分类。更重要的是后面台面上照片里的人像也被识别到了。太厉害了。
查看AI文稿
AI文稿
今天找到了 deep face 软件包，又被这个软件惊艳到了。 face recognization 没发现的人脸他做到了，而且还对人物表情做了个简单分类，更重要的是，后面台面上照片里的人像也被识别到了，太厉害了。
19Legendfly
06:04
换脸教程来啦，deepfacelab流程介绍。#人工智能
查看AI文稿
AI文稿
大家好，我是炮长，这期视频我们来聊一聊踢破费的技术，也就是换脸。我知道这可能会引起争议，但还是希望部分网友能高抬贵手，如果一直以阴暗的思想看世界，连厨房都可以充满凶器，这样的人太累了。作为特效爱好者，我只想分享一下技术。换脸在前几年十分火热，一些公众人物视频被替换，引起了人们对隐私的重视。我不想讨论什么大道理，我只想说，经历了风口浪尖后， dpple face 技术逐渐进入大众视野，公开的教程越来越多。但在一些短视频平台，依然有很多人凭借信息不对称，利用开元的换脸软件做一些吸引眼球的视频吸粉，之后卖软件或者提供付费定制服务，就像高清电影制作一样，借着人工智能的兴起，一部分人赚着信息差价。不过大家都不容易，我也不多说了，就简单介绍一下换脸流程吧，你只需要一块，因为打显卡并送 kf 上下载。迪普 face，这是一个集成化的 p 处理程序集，没有操作界面。当然也有卖软件的人做了简单的集优 iphone 装，这是我花八十块买来的，我觉得价格有点虚高，因为做个 gui 并不难，而且他连遮罩等功能都没有封装进去，所以我可能会给差评。那位，我们可以在网上找到大神幻化过的 dpf fas，二点零里面有一堆 p 处理文件，我们只要看字面意思，按顺序执行即可。我可是贝斯是工作空间，里面存放着我们需要的素材，其中 beatdast 是目标视频， beatuss 是原视频第一，第一步是准备好原素材以及需要被替换的目标素材，并将他们转换为序列针。本次演示中，我会把自己的脸替换成好基友才子哥的脸，所以我将自己的视频命名为带特色，才子哥的视频命名为带特黛斯特，然后执行视频转图片命令。一路按回车，我们就得到了两组序列针。第二步是提取头像，也非常简单，我们分别运行提取源头像与提取目标头像。我和菜籽哥的大头贴就这样生成完毕了。我们可以去安烂的文件夹检查生成的头像，并删去一些明显错误的图片。第三步是最干的一步，我们开始训练模型。模型是深度学习的一个重要概念，你可以把他当做小学生，一开始他啥也不懂，你教他知识，告诉他什么是对的，什么是错的。当他了解了对错规则后，就会自己学习，学到一定境界后便融会贯通，用你教他的道理来处理所有相似的问题。跟投资教育一样，训练模型的成本非常高，这个过程道友们称之为炼丹。有钱上高端，私立的家长可以四路泰坦抱回家。没钱没有学区房的家长，那就只能用低端显卡慢慢干，或者直接去购买道友们练好的存单。由于我的显卡不算太差，于是我执行重量级模型 s a hd 进行训练。如果你显卡不行，可以执行快个九六。为了快速演示，我选择一路按回车。如果你想修改参数，还是那句话，自己看提示的字面意思，或是网上随便搜一下就能找到对应的说明，很快程序便开始训练了。我们可以在预览窗口中看到圆与目标头像最后一列便是最终效果。一开始很模糊，随着迭代次数的增加，逐渐开始清晰。 two shon 的 ex 雷头，当迭代到十万次左右，画面就看起来能接受了。但如果要进行高高质量的制作模型，至少要被训练百万次，这是非常耗时间耗电费的。同样为了教程演示，我只用了几万次的迭代，直接进入下一步效果会差很多，但我主要讲流程。第四步就是应用模型，直接运行对应的 p 处理，一路回车后会弹出一个窗口，我们按太不键预览会看到一组快捷键盘，自己多试一些，效果就按字面意思理解吧。由于我是后期工作者，不擅长人工智能处理，所以我偏向于保留原始色调合成模式，选择 im rgb，同时导出遮罩序列，剩下的全部进 ae 调整。第五步就是合成啦，我们将生成的换头序列遮罩序列与目标视频一起导入 ae，并拖入时间线，确保遮罩序列在换头序列上方。将换头序列的轨道蒙版改为亮度蒙版，这样就自动抠出脸部啦。 ae 基础操作复习一下哈。我们可以给遮罩序列添加模糊效果，勾选重复边缘像素，这样可以实现脸部边缘的羽化。接着给换脸系列添加温泉颜色或者其他颜色较正都可以，目的就是将肤色与场景匹配。最后我们还发现灯光不对，才子哥用了一盏顺侧光，使得脸部呈现出阴影，掩盖了中年油腻的发胖。于是我也在合成中添加一个灯光，将换脸序列改为三 d 图层，用以接受灯光调整一番参数，虽然效果不是很好，但比布条要好点，基本上换脸效果就做好了。由于模型缺乏训练迭代，效果只能如此啦。视频做太长没人看，训练阶段的遮罩处理我也直接略过了，有兴趣的同学可以关注我们，后续慢慢交流。哈喽，大家好，我是才子哥啊，现在是大年三十的晚上，十一点整，哈哈哈，对，没错，还有一个小时就要敲响新年的钟声，然后二零二零年，全新的二零二零年就要。说来也怪，关注 dpple face 圈子的人真想干坏事的并不多，但是抖音、快手这些营销号以及卖软件卖模型的同行不停的在那炒热度。正所谓天下垂人皆为利往，这是一个很复杂的圈子，如果你想吃瓜，可以去一些论坛看一看，各种同行之间互相攻击，比起摄影区的那些垂人，真是有过之而无不及。过一天的研究，我整理了 tfboys 软件包以及高清视频重置软件，后面还会有老照片、上色等，统一打包放入公众号。这些都是可以在网上免费找到的，炮灰们可以直接下载，路人如果需要，五块钱意思意思啦。视频的篇幅有限，如果你对进一步学习还感兴趣，可以关注我们交流群，一起切磋创意哦！
7435虚空光影
14:11
百度开源PaddleSpeech深度学习声音工具集 #小工蚁 #百度飞桨 #TTS #ASR #中文声音合成
44小工蚁
00:50
人脸识别原理#数字化技术 #数字化转型 #企业数字化 #管理 #管理者
98董海滨
03:36
DNN神经网络算法 #神经网络 #机器学习 #深度学习 #算法 #程序编程 #计算机 #计算机软件
查看AI文稿
AI文稿
深度神经网络 dpononapox，简称 dna，是机器学习领域中的一个新的研究方向，主要是通过学习样本数据的内在规律和表示层次，让机器能够具有类似于人类的分析学习能力。 dna 的最终目标是让机器能够识别和解释各种数据，如文字、图像和声音等，从而实现人工智能的目标。一、 dnn 的基本原理 dnn 的基本原理是通过构建深层次的神经网络模型，将低层次的特征组合成高层次的特征表示，从而实现对复杂数据的分类、识别和理解。在第一眼印中，每一个神经元都接收来自上一层神经元的输入信号，并通过对输入信号进行加权、求和和激活函数处理产生输出信号并传递给下一神经元。通过多层的神经元连接和多层的信息传递， dnn 可以学习到输入数据的复杂特征表示，从而实现对数据的分类、识别和理解。二、 dnn 的特点强大的表征学习能力 dnn 通过构建深层次的神经网络模型，可以学习到输入数据的复杂特征表现，从而实现对数据的精确分类、识别和理解。逐层抽象 dnn 通过逐层抽象的方式将低层次的特征组合成高层次的特征表示，从而实现对数据的逐层抽象和表示。参数众多由于 dna 模型中包含大量的神经元和连接权重，因此其参数数量通常非常庞大，这需要使用大量的训练数据来避免玻璃盒问题。计算复杂度高由于 dna 模型中包含大量的神经元和连接权重，因此其计算复杂度通常非常高，需要使用高性能的计算资源来支持模型的训练和推理。三、 dnn 的应用场景 dnn 在许多领域都有广泛的应用，例如，图像识别 din 可以通过构建卷机神经网络、 cnn 等模型实现对图像的分类、识别和理解。语音识别 dnn 可以通过构建循环神经网络、发音等模型实现对语音的识别和理解。自然语言处理 dnn 可以通过构建循环神经网络或变换器、 burdens、 homer 等模型实现对文本的分类、生成和理解。游戏来， dnn 可以通过学习游戏规、规则和玩家行为等数据，实现游戏的自动化控制和智能决策。四、 dnn 的挑战与未来发展虽然 dnn 在许多领域都取得了显著的成果，但也面临着一些挑战和问题，例如，电按需要大量的训练数据和计算资源来支持模型的训练和推理，这使得其在实际应用中受到了一定的限制。此外， dna 也存在着过年半化能力差等问题，需要进一步的研究和改进。未来，随着计算资源的不断提升和算法的不断优化， dna 将会在更多的领域得到应用和发展。同时，随着对 dna 内在机制和原理的深入研究，人们也将能够更好的理解和利用 dna 的强大能力，推动人工智能技术的不断发展和进步。总之， dnn 作为一种新兴的机器学习算法，已经在许多领域取得了显著的成果。他的出现不仅推动了人工智能技术的发展，也为解决复杂的数据分类、识别和理解问题提供了新的思路和方法。
74编程知识导航
10:10
微软SpeechT5语音统一模型开源项目 #小工蚁 #语音合成 #语音识别 #语音对话 #人工智能
查看AI文稿
AI文稿
他这篇博客主要是介绍了那个微软刚刚开园的这样的一个叫 speech t five 的这样的一个项目，我们看一下它这个 speech t five，它它的优势到底在哪里？它跟一般的语音合成的这样的一些项目，它的优势到底在哪里？它是用一种模式统一的一个模型，用那个 including 和 decoding 与训练的方式，让能够去处理一些 spoke average 的这个 processing，就处理讲话的这样的一些处理。他也是微软的亚洲研究院研发的，他把所有的代码都公布在那个 github 上面的。嗯，哈根费是指最近他们已经把开发版已经把 speech t five 的这个功能这个模型集成在他们的 transforms 的这样的一个开源的这样的一个代码中了，一个项目中了，那么这个项目的我们可以看到他可以做些什么事，他这篇文章也给我们做了一些 demo。他主要的第一个呢，语音合成，就是是 b 区的这样的一个合成。第二个功能，它主要是这个 voice 的 conversation，就是语音的对话啊。第三个功能它是这个自动的语音的级别。这跟我原来介绍过有一个叫 whisper，就是欧奔 ai 开源的这个 whisper 就是语音识别，那么它也能够支持多种的这种 language，就是多种的语言，它都是能够支持的。那么我们它的整个一个 speech t five 的话呢？它它是一个大模型，就是说它这个模型里面呢？不呃呃，只不只是一个，它等于是它包含了三个 speech 的这个 model。第一个 model 它主要是把语音变成文本，它是一个语音识别识别的这样的一个 model。第二个 model 的话呢，就是文字，就是 tax to speech 的这样的一个，合成一个 audio 的这样的一个功能啊。另外一个的话呢，就是 speech to speech 的这个 conversation，就是类似于这个翻译啊，或者呃， speech 的这个增强，它也是能够支持的。它主要是把这个三种模型放在整个一个 speech t five 的这样的一个大模型中，所以它称之为叫统一模型，这个是它的主要的原因，它是用一个模型把玉玉训练，就是指为了他们亚洲研究院已经把这个模型训练好了，如果你要效果更好，你只要微调一下，那你这个模型就可以用了，你不需要从头到底重新训练，花非常多的时间，他等于是这样。好，我们先来看一下他的整整个一个架构，他的整个一个架构，他的主干，他还是用的那个 transformer 的这样的一个 including 到 decoding 的这样的一个主干的一个网络，那么他在这个主干网络之前，他还有一个呃，预先的一个。 net，那么它如果是文字就叫 tax encoder pronet，如果是个 speech 的话，是一个语音输入的话呢，它就有一个 speech encoder pronet 它这样的一个东西啊。那么当然它给 cod 的话呢，它还有一个功能也是比较强的，就是说它这个里面的话呢，它可以我自己试试了一下，它可以有一种叫 speak 音扣的，把你的声音的这个特征作为一个 speech 的这个编码啊，输入进去，输出你需要的这样的一个声音，类似于我们原来讲过的那个，那这个，这个 mockingbird， mockingbird 这样的这样的一个模型，它可以模仿你的那个声音的特征，去讲一些声音的时候呢，跟你的要模仿的特征呢，是不接近的啊，所以这个项目的话呢，就是 o 英文啊，所有的这些功能都合成在一起啊，是非常强的，他把，那他在模型输出的时候，他也是一样的，他有个微调的一个模型，就是 postnet， postnet 也是一样的，他有一个 postnet tax in decode 和 postnet speech decode，它通过这两种方式通这个 trust former，这个基本上是不需要欲训练，他已经帮你训练好了，只是在外围你再稍微训练一下，他就能输出一个非常强的这样的一个模型。好哦，我先给先给大家听一段，好吧，那先给大家听一段，这个是我刚刚给的，然后给大家听一听啊，他这个合成的是什么样子的？ is not available in the latest release of transformers yet so you'll have to install it from geth up， so install the additional dependency sentence piece and then restart your runtime。这就是我前面这个写的这一段代码截了一段的这个英文，我让它自动的合成这个声音，我听了一下这个效果比我之前用的稍微好一些，效果还是可以，但是还是听得出是机器合成的，他是这样的。好，我们继续来看一下怎么实现，我们来看一下这个前面都是些原理。原理啊，我们看看他是咋的啊？那音前这个版本的话呢，那个哈根费斯那个你还是要呃原代码与安装这个 speech five，他目前在正式的呃，那个 release 的创生版的这个版本当中还是没有啊。所以的话呢，你要下载元旦安装啊，安装这个内裤啊，它含一些要安装的，它还要安装一个这个 data sense，它也要安装一下啊，对，好，安装完了之后的话呢，然后他你可以愈加载他愈训练的模型，你就可以把它给 process 跟 model，把它给加载进来之后这一句话 text 这一部分就是你要把它合成的这个声音，他是他在这儿来定义，对，这个返回一个 p t，返回一个降量，嗯，放的话呢，就是一个 speak 的 in bedding，就是一个 speaker 的一个特征，我用的是一个女生啊，他等于是这样。对，我用的是七三零六啊，这个好，然后进来之后他这个地方就是一个 speaker 的一个一个一个声音的一个特征，然后把它输入进去，然后你就可以产生了这个地方。那么这个地方它用的 v o coder 的话呢？我我它我我，我们用的是这个 t five 的杠 f i high five gain 的这样的一个模型啊，输入进去，然后把这个用这个说话的这个特点输入进去，然后这个地方输入是你要把文字转成 voice，转成语音的这样的一个文字啊，然后的话呢，他就可以把这个声音给产生了，产生之后的话就把它保存在一个 t t s 的一个 example 的一个 vivo 的一个文件，这个我给大家听过了，我去，就不重放了，这个这个模型的话呢，他也能够支持的，他这个地方也是讲了也可以支持，是 b 区 tosb 区的，就是声音到声音的这个 voice 的这个 come c 型他也是能够支持的，他这个应用场景也是比较多的，只是说有一个人是讲的英文，他自他自动的可以把它变成一个法文，他这个他这个模型也是能够支持的，还是非常强。我看到他已经支持了二十多种语言，特别是欧洲的啊，什么俄语啊，什么什么，我看德语啊，我看他基本上都是能支持。那么 b 区 tous b 区的这个功能，它的主要作用就是把把你的这个英文他可以自动的转成德文，他等于是这样，或者是把一个男的的一个声音转成一个女士的声音，或者是把某一个人的声音转成另外一个人的声音，他这个都是可以支持的。甚至的他的这个功能其实是可以完成。像最近那个呃， gp 较火的啊，他其实他已经输入文字了，你直接可以用这个语音跟这个 g p g 恰的进行对话啊，你是中文或者跟他讲英文，然后他直接的再把这个最终的答案可以告诉你啊，他的这种技术已经很成熟了，我自己在我的这个电脑上用一下，它的性能还是不错的，所以如果要玩这个功能，它这个里面有一个模型叫 microsoft speech t five 杠 v c v c 的这个模型的话呢，它主要是做这个 conversation， voice conversation，呃，这样的一个功能，这个这个跟上面那个讲法差不多，我给大家听一听。这个是他合成的 a man said to the universe sir， i exist 这个是他的原始声音，他可以把它改成另外一个声音， a man said to the universe。对，他可以把它改成女生，他等于是这样时时的可以把这个声音转化掉，这个就是一个比较强大的一个地方，他是好，我们再来看一看啊，他还有一个这篇博客里面讲了另外一个功能，就是他怎么把这个语音变成文字，文字可以自动的啊，或者是识别你这个人到底是谁在说话啊？他可以，他这个也能做的到啊，模型我们就不讲啊，我们看看他是怎么做到的。嗯，如果你要实现这个功能，你首先你这个啊，他这个 model，我们是用 speech t five 杠，这个叫 t t s，就是语音合成的这样的一个模型，那么这个语音识别的这个模型的话，它是 speech t five 杠 a s r 就是自动的 speech 的这个 recognize 的这个缩写，它要用这个啊。然后你的 task，你的这个任务，你是要用这个这个语音识别，你要你要告诉计算机任务是什么就好了，你就把这个语音输入进去，非常简单，让你让他把它产生这个，他就会告诉你最后的语音里面如果是英文，那么他就会把这句英文给给输出出来，他等于是这样也是比较简单的。好吧，我给大家看个商铺的例子，我前面因为产生过一个通过一个文字产生过一个音频的一个文件的，我们现在他有个 demo，我们可以把它上传上去，上传上去之后他可以自动识别的，我们看一下他好了，他已经识别出来了，我们看他，他这个是原始的声音。 feet is not available in the latest release of transformers yet so you'll have to install it from github， so install the additional dependency， sentence piece， and then it will start your run time。他讲的还是蛮清晰的，他翻译完成的。这个我看了一下，基本上是对的，除了第一个单词，他这个 fit 应该因为他这个单词他不认识，他应该是叫 speech t five，因为他把这个两个单词连在一起，所以他这东西就不认了，所以他翻译出来啊。行，让我大家如果有兴趣的可以在那个哈根 face 这个官网上面可以去尝试一下。好，我们最后看下特朗他这个结论。呃，微软开源的这样的一个 speech t five 的话呢，它这个还是一个非常有意思的这样的一个人工智能的这样一个模型，它这个模型把所有的跟语音相关的一些功能英文全打包在一起，它的功能非常强大，它不但是可以做语音合成，语音识别与 speech to speech 的，这个 speech 的家其实都是可以做的啊。呃，这个意思的，而且呢，它能够支持，甚至能够支持，这个是必须的。这个翻译啊啊，就是我的，当然他这个字还没给啊，有机会的话我可以再看一看啊啊，比如说你讲的是英语，怎么把它翻成法文？他是可以自自动的，可以把这个 voice 产生，或者自动的把你原来输入的是英文。一句话，你可以让他翻译成自动的，可以翻译成这个德文四啊三都可以的，但我目前看好像他预训练模型当中的那个中文好像还没有推出来，他这个在 k 叉不上面好像还没有推出来。好，行啊，今天的话呢，就是大家就聊到这啊，然后大家，呃，有什么问题话也可以给我留言啊，今天就跟大家就聊到这。
69小工蚁

热门推荐

热门分类