10万行对话,瞬间变成面部表情,你看过这么牛逼的技术吗?

前几天,魔多君介绍过一个3D虚拟化身技术公司-Loom.ai,这家公司利用单张照片就能生成写实风格3D化身,有兴趣的点击这里查看。


VR社交一定会使用3D虚拟化身,要做到拟人化,除了化身本身,还在于面部表情动画是否自然。今天魔多君就给大家介绍一家业界少有的能用声音还原面部动画的公司——Speech Graphics。




不是魔多君吹,这家公司的确很牛逼!


他们团队做了20多年的语音技术和程序面部动力学研发,你用他们的软件可以只用音频,不用面部动作捕捉,就生成高质量的面部动画。


什么意思呢?就是输入音频,人物会根据音频出现仿真的口型和表情。



如在这个视频里,你能看到虚拟人物根据发音不同,口型也有明显的变化,声带也根据发音做出和现实中类似的变化。


由于技术实力杠杠的,所以Speech Graphics也获得了多个奖项。

John Logie Baird Award创新奖
LT-Innovate Award
Santander Entrepreneurial Award
2015 Develop Award For Best Creative Outsourcer 


最为知名的,当属John Logie Baird Award创新奖,John Logie Baird 是英国著名的发明家,电动机械电视系统的发明人。他的其他发明贡献包括发展光纤无线电测向仪红外线夜视镜雷达


Speech Graphics 获得此奖的创新奖项,说明得到极大的肯定。



图为John Logie Baird


那么他们到底用了什么技术,就能用声音简单的驱动面部表情呢?


他们的技术主要涉及到3块,Speech Analysis、通用运动合成器、Carnival™ 技术。


1、Speech Analysis(语音分析)


每个人在不同场合说不同的话,脸部表情和动作都是不同的,比如川普富有激情的演讲,简直是表情包的首选!



Speech Graphics 的语音分析算法能让你听到声音,就可以判断出这个人的脸部表情和动作是什么样的。


2、通用运动合成器


通用运动合成器是基于语音分析的基础上工作的,它们的流程主要有三步:


1、先通过语音分析,知道什么样的音频该对应什么样的面部表情和动作

2、然后,使用通用的人体肌肉系统模型,控制面部肌肉、舌头和其他器官的动画

3、最后,通过激活这些肌肉,就可以产生连续的动作。


下图展示了不同的语音,对应不同的肌肉动作,产生不同的口型。



通用运动合成器适用任何面部模型,它有自己特有的重新定位方法,可以驱动骨骼或其他任何变形的形状,做出合适的动画。既适用于真人也能应用在卡通人物上面。


3、Carnival™ 软件框架


把以上两个技术融合在一起,就成了他们公司的内部软件框架 Carnival™  。


Carnival™ 软件框架把语音识别、其他音频处理算法、人体行为建模、物理建模、3D动画等模块融合。基于这个核心的软件框架,Speech Graphics提供的服务(应用程序)通过读取Carnival™提供的API来满足需求。


这个软件框架理念早在2011年9月/10月版的IEEE的计算机图形和应用程序中就推出了。



魔多君介绍完他们牛逼的技术,只有技术没有产品还是不行的,那么他们家的产品是什么呢?


他们在2016年底推出首款商用软件-SGX,这款软件可以让你相对简单的用音频生成面部动画。之前,Speech Graphics公司一直在给3A级游戏工作室提供定制服务,并没有标准化产品,最近才推出这款产品。


他的客户包括华纳兄弟和Def JamRecordings等大客户。


例如:他就为《中土世界:暗影魔多》这款游戏提供过服务,通过虚拟角色的对话音频来驱动角色的面部和唇部动画,可以看到输出结果质量很高。这款游戏由Monolith Productions和华纳兄弟游戏开发的,并于2014年9月发布。



魔多君认为发布产品不仅是因为他们的技术和经验积累,还在于VR/AR等新市场的发展,同时虚拟角色的表情、动作需要更加快速和高质量的制作,成本也需要不断降低,SGX这款产品就可以帮忙解决这个问题。


SGX 现在支持超过10种语言,使用单个命令操作,需要输入几个参数:输入的文件夹需包含音频和副本,输出的语言,以及角色,参数也可以选定其中一部分。处理后,可在目录中创建动画文件,然后用SGX Maya插件以你喜欢的格式(.fbx,.ma,或.mb)导出动画。



当然实现前面所说的,需要做些初始设置,你需要把你的面部模型和SGX做次设置,这是一次性的。


然后使用Speech Graphics提供的工具包,选择语言和自定义面部模型控制文件就可以啦。


当然这些软件肯定收钱,需要许可证激活安装,具体卖多少钱,现在未知,Speech Graphics需要你提交申请,并做详细的需求描述。



魔多君认为这是一个全新的工作流。这款商用软件是一种全新的形式,Speech Graphics肯定要做一段时间的测试才会考虑以合适的价格完全推向市场。


现在SGX支持美国英语,英国英语,法语,德语,意大利语,日语,韩语,普通话,波兰语,葡萄牙语,俄语和西班牙语。


还提供对特定方言和虚构语言的支持,那肯定就是定制的啦。


同时2017年GDC上Speech Graphics推出了SGX 2.0,做了些更新:


从音频自动生成面部表情和嘴唇同步
改善沉默/语音检测
一体式可执行文件,输入参数较少,输入组合更灵活
能够通过Maya插件创建自己的“表达库”。
提高喊声的动画质量
新的韵律分析,可以从单一的话语调整自己
无转录动画



Speech Graphics 成立较早,2010年由Michael Berger和Gregor Hofer两人在世界知名的爱丁堡大学创立(爱丁堡大学2017年世界排名27)。他们两人在该领域有多年经验。


左Michael Berger,右Gregor Hofer


随着VR/AR的发展,未来会有更多3A级游戏,也会有更多的VR交互式电影,那么这些优质的内容都需要大量的对话及脸部动画。比如《Mass Effect(质量效应)》、《辐射》、《Skyrim(天际)》都有超过10万行的对话,这些对话都需要动画化。


辐射4


此外,这些对话很可能会在项目过程中发生变化,需要重写台词和重新录制声音,同时还存在一个问题,一旦开发团队对开发语言(比如英语)的结果感到满意,但是还需将录制内容本地化,这需要10种以上不同语言的录音演员。


这些本地化的动画配音需要匹配动画,这需要配音演员必须尝试尽量匹配原始动画时间,做到自然,如果要求高的话,还需要重新绘制唇部动画,来匹配本土化的口音。


这些问题即耗时又费钱,Speech Graphics 的产品SGX就是解决这样的痛点,通过音频就能匹配口型和脸部动画,魔多君觉得这真的是一个好东西,期待以后这个软件能越来越多的应用在VR游戏和VR电影里。




本文由魔多原创,转载请联系sarah@moduovr.com


魔多,专注VR/AR和AI,有料更有趣


// share