关于GDC
Romain Trachel
Machine Learning Specialist, Eidos Sherbrooke
演讲标题:
Romain Trachel是Eidos Sherbrooke的高级机器学习专家,他于2018年加入Eidos,并致力于各种与机器学习有关的电子游戏创新项目。此前,他曾在一家初创公司工作,该公司开发了一种用于检测电子竞技选手情绪的腕带。同时,他还是机器学习、信号/图像处理和认知神经科学方面的专家。
演讲概述:
演讲者帮助游戏《漫威银河护卫队》的制作团队开发了一个基于机器学习的情感检测系统,该项目可以基于采集到的面部捕捉数据自动生成情感曲线,为动画团队减少大量的重复性注释工作。此次演讲中,Romain Trachel主要分享了该系统的实践过程和经验总结。
《漫威银河护卫队》是一款由Eidos蒙特利尔工作室于2021年发布的RPG游戏。游戏中,玩家角色(星爵,守护者的领袖)和他的四个队友(银河系最致命的女人卡魔拉、毁灭者德拉克斯、格鲁特和火箭浣熊)之间有着丰富的对话内容。
制作具有表现力的角色,使玩家在玩游戏时能感觉到是在与真实的朋友一起玩,这是一个艰难的挑战,动画制作人员必须处理大量的内容使这些角色生动起来。但是由于时间和预算上的问题,他们无法手动编写每一个动画片段。演讲者Romain Trach制作了一个基于机器学习的情感检测系统,帮助动画团队节省了大量人为标注的时间。
与其他3A游戏一样,《漫威银河护卫队》里角色的动画是在一个有全身和面部跟踪的动捕室中录制的。从图中我们可以看到星爵和德拉克斯用头戴式摄像机进行面部捕捉,阅读他们的剧本。这种面部捕捉数据一般是为面部动画录制的,但它也可以用来检测演员表演中的情绪,也是本次演讲的主要数据来源。
然后是动作匹配,角色的动作是通过运动匹配来实现的,运动匹配可以从动捕数据集中找到将玩家角色从当前姿势移动到目标姿势最合适的动作片段,然后制成动画。
紧接着是从动作到情感的扩展,当寻找一个动作片段时,查询数据中包含目标的姿势和所需的情感,由此可以寻找对应的面部动画。例如当一个动画片段需要角色表达出愤怒的情绪,此时可以从情感匹配系统中找到愤怒的表情,与演员的配音结合在一起,再辅以相应的动作手势,可以更大程度的表达出角色的愤怒情感。
训练集由60个人脸捕捉视频组成,总长大约2小时30分钟,每段视频都被标注了4种情绪(愤怒、快乐、紧张或悲伤),以每秒5帧的速度对视频进行采样,标注为5个级别的情绪强度(0%,25%,50%,75% 和 100%),这样就获得了4.5万带标签的训练样本。
样本准备完毕之后是训练步骤,训练时通过交叉验证等方式寻找最佳参数,把调整好参数的最佳模型放入构建系统中,对测试集的视频进行预测,生成情感曲线,然后由动画团队进行最终评估。整体流程如下图所示。
值得一提的是,他们在训练时放弃了把一整张图像作为输入,进行深度学习模型训练;而是先通过一些软件,提取了人脸图像中的一些特征点,输入时将当前时间点前两秒内的面部特征和变化作为输入,使用scikit-learn包中的多种机器学习模型来输出最终的预测和概率。
可以从下图的人脸捕捉图像中看到,在每个图像的左上角小雷达图中,有着各个维度的情绪指数(其中有一维为是否在讲话)。
以数据展示的话则可以参考下图,中间的可视化图以及右边的json文件可以看得到不同时间的情绪变化,这些是由情感检测系统输出的数据。
下图分别为随机森林和SVM的混淆矩阵,纵轴是真实值,横轴是模型预测值,可以看出随机森林经常将愤怒和紧张的情绪混淆;而SVM模型,虽然它的平均分类准确率比随机森林模型高,但是它的预测偏向于愤怒,可能存在了过拟合。
避免过拟合现象一般可以通过添加正则化参数完成,他们通过交叉验证和网格搜索方式,以及Hyperband算法,寻找准确率最高的最佳参数组合。下图展示了在不同的参数组合下各模型的准确率。
机器学习是一个强大的游戏开发工具。动画团队反馈,很大一部分情绪曲线的处理都是由情绪检测管道完成的,只有少部分需要人工修正,极大地减少了动画团队花费在人脸捕捉情感标注任务上的时间和精力。
GDC2022雷火UX演讲一览
【实录】条条大路通罗马:在《永劫无间》中用不同学科方法分析流失
本文来自微信公众号“网易雷火UX用户体验中心”(ID:LeihuoUX)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。