更加多的研究指出,只要有充足多的语料库,人类的面部动作和语音不道德是需要实时的。两年前,卡内基·梅隆大学的研究人员曾公开发表了一篇论文,描述了一种将一个人的面部动作移往至另一个人的方法。
而就在今年六月份的时候,三星的应用于科学家就讲解了一种端对端的模型,需要将人头部特写中的眉毛、嘴巴、睫毛和脸颊分解动画。意味着几周后,Udacity 展出了一个可以从音频片头中自动分解双脚演说视频的系统。基于前面的研究和工作,微软公司研究团队在本周明确提出了一项技术。
他们声称,这一技术需要提高传声头像动画的逼真度。在此之前,头部动画的分解必须明晰,比较无噪声的音频以及中性的音调。而现在,研究人员回应,他们的技术需要将音频序列分解成语音内容和背景噪声等因素,由此可以用于有噪声和“有感情色彩”的数据样本。
(公众号:)录:图片源于 Microsoft众所周知,语音是具备差异性的。有所不同的人在有所不同的环境下用于同一个词,其持续性、振动幅度、语调等等都各不相同。除了语音内容方面,语音自身还支撑着非常丰富的信息,它需要说明了人的情绪状态,身份(性别、年龄、种族)和个性等。
事实上,微软公司研究人员明确提出的技术是基于自学潜在表明的变自编码器(按:variational autoencode,VAE)。VAE 需要将输出的音频分解成有所不同的表现形式,还包括编码内容、表情以及其它变化的因素,在输出音频的基础上,从产于中取样一些内容回应序列,该序列连同输出的人脸图像一起被馈送到视频生成器展开面部动画处置。为了训练和测试 VAE,研究人员挑选了三个数据集,分别如下:GRID:这是一个影音语料库,每个语料库包括了 34 位说出者的 1000 份录音;CREMA-D:包括了 7442 个影视片段,来自 91 位有所不同种族演员;LRS3:包括了多达 10 万个 TED 视频中的口语句子的数据库。
研究人员将 GRID 和 CREMA-D 的数据输出到模型中,让其辨识语音和情感密切相关,然后用于一对定量指标——峰值信噪比(PSNR)和结构相近度指数(SSIM)——来评估视频分解的质量。该研究团队回应,就展现出而言,他们的方法和其它明晰的、中性的口语表达方法在所有指标上都是一样的。并且他们注意到,这种方法不仅需要在整个情绪光谱上持续展现出,还需要相容所有目前最先进设备的传声头像方法。
值得一提的是,其变种特异性的可学先验方法还需要扩展到其它语音因素,例如身份和性别,这些因素需要作为未来工作的一部分探寻。通过对噪音和情绪音频样本展开测试,研究人员检验了其模型,指出了在音频变化的情况下,该方法是高于目前有数的技术水平的。录:本文编译器自KYLE WIGGERS 公开发表于venturebeat 上的文章。微软公司研究成果:https://arxiv.org/pdf/1910.00726.pdf原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:澳门威尼克斯人网站-www.yqgloves.com