bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]节奏舞者:基于关键动作转换图和有条件姿态插值网络的3D舞蹈生成方法研究

已有 945 次阅读 2023-3-7 15:39 |系统分类:论文交流|文章来源:转载

节奏舞者:基于关键动作转换图和有条件姿态插值网络的3D舞蹈生成方法研究

贺亚运彭俊清王健宗肖京

平安科技(深圳)有限公司,广东 深圳 518063

摘要3D舞蹈是元宇宙中虚拟人的一种重要表现形式,它将音乐与舞蹈进行有机结合,大大增强了元宇宙中相关应用的趣味性。之前的工作通常把3D舞蹈生成简单视作一个序列生成任务,但是生成的舞蹈动作质量较差且与音乐的契合度较低。受人类学习舞蹈过程的启发,提出了一种新颖的3D舞蹈框架——“节奏舞者”来解决上述问题。该框架首先使用VQ-VAE-2对舞蹈进行分层编码量化,可有效改善舞蹈生成质量;然后使用节奏点上的关键动作编码建立关键动作转换图,既可保证生成的舞蹈动作与音乐节拍的契合度,又可增加舞蹈动作的多样性。为了确保关键动作之间平滑自然地连接,提出了一个姿态插值网络来学习关键动作之间的转换动作。通过大量实验证明,该框架避免了长序列生成的不稳定和不可控问题,实现了舞蹈动作与音乐节奏的高度契合,达到了当前最优效果。

关键词3D舞蹈 ; 元宇宙 ; 舞蹈生成 ; 深度学习

论文引用格式:

贺亚运, 彭俊清, 王健宗, 等. 节奏舞者:基于关键动作转换图和有条件姿态插值网络的3D舞蹈生成方法研究[J]. 大数据, 2023, 9(1): 23-37.

HE Y Y, PENG J Q, WANG J Z, et al. Rhythm dancer: 3D dance generation by keymotion transition graph and pose-interpolation network[J]. Big Data Research, 2023, 9(1): 23-37.

图片

0 引言

如何更好地由音乐生成舞蹈是一项有意义的研究。随着元宇宙变得火热,其中的虚拟角色需要有更多的技能,跳舞有助于虚拟角色在元宇宙或者其他线上多媒体平台更好地表现自己。然而,生成令人满意的舞蹈动作并非易事。

当前国内外对3D舞蹈生成的研究相对较少。目前主流的方法是将3D舞蹈生成看作一个序列生成任务,例如参考文献提出的AI编舞框架,采用全注意力机的模型交叉Transformer网络,将一段音乐和2 s的初始舞蹈序列作为输入,生成后续的舞蹈动作;参考文献提出了一种先使用VQ-VAE对舞蹈动作进行编码和量化,再使用GPT网络生成舞蹈动作序列的方法,有效地对舞蹈动作空间进行降维,使生成的舞蹈动作更加自然合理。

目前舞蹈生成过程中主要存在两个问题:①生成的舞蹈动作很难与音乐节拍保持一致;②生成长序列的舞蹈动作会出现一些问题,如随着时间推移,生成的动作质量越来越差,或者动作一直简单地重复。

许多研究者试图设计一个模型,这个模型将从音乐中提取的特征作为输入,进而生成对应的舞蹈动作序列,但是这样的模型通常是不稳定的,有时生成的舞蹈动作会很奇怪。这是因为舞蹈动作空间是一个高维度的空间,而在模型训练时并没有对动作空间的范围进行严格限制,而且舞蹈动作与音乐节拍是否一致最影响人们对生成舞蹈的直观感受。但是直接让模型从数据中学习音乐与动作的这种一致性是很难的。

为了解决以上问题,本文提出了一种新的3D舞蹈生成方法,此方法受到人类学习舞蹈的过程的启发。当学习一个舞蹈时,舞蹈老师通常会先告诉学生这个舞蹈包含哪些关键动作,学会了关键动作之后,再学习如何衔接它们。非常重要的一点是,舞蹈的关键动作通常会出现在音乐节拍点上,因此通过分析舞蹈配乐的节拍,可以找出舞蹈的关键动作。但是,找到关键动作之后,它们之间是彼此孤立的,接下来需要重新扫描舞蹈数据集,建立关键动作的转换图。该图是一个有向有权图,通过该图可以获取关键动作的转换关系和转换概率。

为了避免舞蹈动作空间维度太高导致生成的舞蹈动作不稳定,本文先使用VQ-VAE-2这种无监督的学习方式,对所有的舞蹈动作进行量化编码,最终生成一个舞蹈动作的编码簿。编码簿的大小通常只有几百个编码向量,其中每一个编码都表示一种唯一的舞蹈动作。通过这种方式可以对舞蹈动作空间进行降维,这保证了生成的舞蹈动作更加稳定,并且不会有奇怪的舞蹈动作。关键动作的衔接也很重要,本文使用有条件姿态插值网络(以下简称姿态插值网络),以两个关键动作和舞蹈风格特征为输入,生成中间的舞蹈动作序列。

完成以上步骤,模型就具备了为一首音乐生成对应舞蹈动作的能力。首先,通过分析节拍找出音乐的节拍点,这些节拍点就是需要放置关键动作的位置;然后,在关键动作转换图中进行采样,生成一串关键动作,并将其放置到节拍点的位置;最后使用训练好的姿态插值网络,生成关键动作之间的衔接动作序列。

综上所述,本文的主要贡献如下:

● 使用VQ-VAE-2对舞蹈动作进行编码量化,有效降低了舞蹈动作空间维度,并且这种分层的模型结构使生成的舞蹈动作更加流畅和稳定;

● 提出通过建立关键动作转换图的方式来生成关键动作;

● 提出先生成关键动作,再使用姿态插值网络生成衔接舞蹈动作的方式来生成3D舞蹈;

● 提出基于联合因果注意力的姿态插值网络,并在模型训练中引入了新的损失函数。

1 相关工作介绍

1.1 人物动作合成与3D舞蹈生成

如何生成更加真实的人体动作序列一直是学者研究的一个重要方向。早些时候,人们使用动作图生成人体动作。动作图是在大量人体动作捕捉数据上建立的有向图,图上的节点表示一个人体动作,边表示不同动作之间的转换关系。将所有的动作归类并放到一个图上,然后在图上采样,就可以得到一串连续动作。然而这种动作生成的方式可控性很差,不能针对特定的场景生成对应的动作。之后随着深度学习的发展,一些研究者试图从一个大的舞蹈数据集中训练出一个深度模型,希望这个深度模型可以自动学习出音乐与舞蹈动作之间的关系。他们尝试了很多网络架构,如CNN、GAN、Transformer等,但是生成效果却不尽如人意。生成过程中经常会出现动作的简单重复,或者几乎静止不动的情况,而且会生成一些奇怪的动作,这说明模型没有很好地学习到人体正常的姿态范围。

1.2 舞蹈动作的编码和量化

目前已经有比较成熟的对人体进行建模的方法,但是理论上人体动作空间是很大的。受人体结构的限制,每个关节只能在一定范围内移动,因此真正的人体动作空间实际上是大的动作空间中的一个子空间,如果不对这个动作空间进行空间限制,模型最终可能生成奇怪的人体动作。但是如果人为给各种可能的舞蹈动作做划分和编码,工作量是巨大的,几乎不可能实现。为了解决这个问题,参考文献使用VQ-VA E对舞蹈动作进行了编码和量化,此方法是一种无监督的方式,简洁且高效。与参考文献不同的是,本文使用了更先进的VQ-VAE-2的分层结构,更好地利用了局部信息和全局信息。而且本文提出的关键舞蹈动作是上半身动作和下半身动作结合的一个整体动作,因此本文会对整体动作进行编码量化。在编码簿的基础上进行后序舞蹈动作的生成时,本文在步骤和方法上均与参考文献不同。

1.3 分阶段的舞蹈生成框架

之前的研究表明,音乐节拍和运动的空间回折点在时间上具有强相关性,因此保证生成舞蹈的运动节拍和音乐节拍的契合度尤为重要。人们在使用动画制作工具制作动画时,通常并不会制作动画的每一帧,而是制作动画的关键帧,关键帧制作完成后,就可以由此生成流畅的动画。与此过程类似,参考文献提出了一种分两个步骤来生成3D舞蹈的方法:第一步,分析音乐节拍信息,找出音乐的节拍点,然后将节拍点处的音乐片段截取出来,并提取频谱特征,使用提取的频谱特征训练一个深度模型,使之能够通过音乐片段生成对应的关键动作;第二步,预测相邻关键动作之间的运动曲线参数,使用多结Kochanek-Bartels样条(multiknots Kochanek-Bartels splines)方法对每个运动曲线进行建模。此种3D舞蹈生成方式逻辑上合理,但是音乐片段与关键动作并没有很强的相关性,生成的关键动作之间几乎没有关联。而且对于没有在训练集中的音乐,模型可能生成比较奇怪的动作。在预测相邻关键动作之间的运动曲线时,参考文献使用了比较传统的建模方法,流程复杂且模型准确率较低。本文也采用了相似的分阶段生成3D舞蹈动作的框架,但是在生成关键动作时,本文使用了更合理的关键动作转化图,并且在生成关键动作之间的衔接动作时使用了更先进的深度模型,保证了更好的生成效果。

2 节奏舞者生成模型

节奏舞者3D舞蹈生成模型的工作流程如图1所示。与其他舞蹈生成模型不同,本文没有一次性让模型生成所有的舞蹈动作序列,而是采用了“两步走”的方式,先生成关键动作,再生成关键动作之间的衔接动作。关键动作在整个舞蹈中起着至关重要的作用,关键动作与音乐节拍是否一致非常影响观众的直观感受。而且,本文没有直接使用原始的动作数据,而是先对数据集中的舞蹈动作做了编码和量化,在编码量化过程中使用VQ-VAE-2的包含Top层和Bottom层的双层结构,使模型可以同时考虑到局部信息和全局信息,这个过程会在第2.1节进行介绍。然后在第2.2节会介绍如何从数据集中提取所有的关键动作,并生成关键动作转换图。

image.png

图1   3D舞蹈生成过程总览

2.1 基于VQ-VAE-2的舞蹈动作编码簿生成

人体的运动涉及几十个关节,用来表示人体动作的向量的维度很高,而且人体各个关节都有各自的运动范围,如果不加限制就可能生成很多奇怪的动作。

一种好的解决方案是先对高维的动作向量进行降维,把数据集中所有人体的动作压缩到一个有限的空间中,而且最好以一种无监督的方式进行。而这正是VQ-VAE所擅长的。为了在舞蹈生成时可以让模型同时考虑局部信息和全局信息,从而使生成的舞蹈动作更加稳定和流畅,本文采用了VQ-VAE-2的分层结构。

如图2所示,一段舞蹈动作图片T是时长,J是关节数量,可以用一段量化特征序列图片表示,图片d 是Bottom部分的下采样率,2C是量化特征的通道数。本文使用一个一维时域卷积E1将动作序列M编码成向量图片图片 可以继续使用一维时域卷积E2编码为图片。在训练时,共分两步,先训练Top部分,再训练Bottom部分,Top部分和Bottom部分分别包含一个编码簿。对图片图片使用的量化方式相同。以图片为例,对图片中的每个向量图片选取Top编码簿中与之最近的元素作为量化后的向量图片

image.png

最后,将图片图片拼接成图片图片可以通过动作解码器重新解码为舞蹈动作序列M

为了避免关节整体位移对动作编码的影响(出现在不同位置的同一个动作应该被编码为同一个向量),本文先将输入的动作序列M进行归一化,即把根关节点的位置置零。为了表示做某个舞蹈动作时身体的整体移动速度,使用速度解码器获取整体移动速度VV是一个矢量,包含速度的大小和方向。


image.png

图2   3D 舞蹈动作生成使用的VQ-VAE-2模型结构


训练时,先训练Top部分,再将Top部分固定,训练Bottom部分。两者训练的方法和使用的损失函数基本一致,只是在训练Bottom部分时,需要将图片进行上采样后与图片进行拼接,生成最终的量化特征图片。下面以训练Top部分为例进行介绍,其损失函数如下:


image.png

其中,Lrec为重建损失。在这个重建损失中,不仅包含3D关节点的相对位置损失,而且包含关节点运动的速度和加速度损失:

image.png

其中,图片图片分别是在时间上的一阶偏导和二阶偏导,αβ是可学习的参数。LM第二项为“编码簿损失”,sg是停止计算梯度(stop gradient)的缩写, sg[]表示不对方括号内的变量计算梯度。此部分计算编码器得到特征向量图片和其对应的量化特征图片之间的距离,并将其作为辅助误差项。此误差项只向字典向量图片传递,通过对误差惩罚来学习图片向量,不更新编码器和解码器。第三项与第二项一致,也是计算图片图片的距离。不过这里对量化特征向量图片使用了stop gradient约束,使得此误差项只向编码器反向传递,训练速度解码器时的损失函数为图片,意为速度预测值与真实值的差值,其中Vt为速度的真实值。

VQ-VAE-2训练完成后,Top编码簿和Bottom编码簿中分别包含了代表各种舞蹈动作的量化特征。因为Top部分使用了更大的下采样率,所以Top部分相较Bottom部分信息更加浓缩。Top编码簿中的量化特征包含更多的全局信息,而Bottom编码簿中的量化特征包含更详细的局部信息。在进行舞蹈动作生成时,同时考虑全局信息和局部信息,可以使生成的动作更加稳定流畅。

2.2 基于有向图的关键动作转换图生成

音乐节拍使用音频处理工具Librosa进行提取,即用Librosa获取一段音乐中音乐节拍出现的时间点,此时间点处对应的舞蹈动作即关键动作。找出的关键动作可以用第2.1节中的Top编码簿和Bottom编码簿中的量化特征编号表示,分别记作T_code和B_code,通过分析整个舞蹈数据集,最终可以得到任何两个关键动作的转换关系和转换概率(数据集中相邻的两个关键动作视为具有转换关系),并且建立一个关键动作的转换图。

关键动作转换图生成后,可以为一段新的音乐生成所需的关键动作。方法如下:先使用节拍分析工具获取音乐的节拍信息,即获取此段音乐中需要插入关键动作的时间点和关键动作数量;然后在关键动作转换图上进行随机游走采样,采样所得的动作序列即此段音乐所需的关键动作序列。

2.3 基于联合因果注意力的姿态插值网络

生成关键舞蹈动作后,可以使用姿态插值网络生成两个关键动作之间的衔接动作,如图1所示。先使用姿态插值模型生成Top部分的舞蹈动作编码Mtop,再将Mtop作为Bottom部分姿态插值模型的条件输入来生成Bottom部分的舞蹈动作编码Mbott。姿态插值模型如图3所示,相比Top部分的姿态插值模型,Bottom部分的姿态插值模型只是增加了Mtop作为条件输入,其他结构相同。下面仅介绍Bottom部分舞蹈动作编码的生成过程。

image.png

图3   姿态插值模型

图4所示是如何使用Bottom部分的姿态插值模型估计舞蹈动作的概率值。假设有一段Bottom部分的动作编码序列MbottMbott需要符合特定规则,Mbott序列的第一个元素为起始动作编码pstart,第二个元素为终止动作编码pend,意为模型生成的整个序列要以 pstart为开始,并以 pend为终止。假如现在已经生成了Top部分的舞蹈动作编码Mtop。接下来,首先将MbottMtop分别转化为可学习的特征向量BT,并将它们与提取的舞蹈风格特征向量S沿时间维度进行拼接;然后将拼接的向量送入12层(该值可以调整,本文选择层数为12)的Transformer层;最后经过全连接和Softmax层输出表示动作编码概率的向量RR的长度为Bottom编码簿的大小。对于时刻t,计算编码簿中每一个编码zjR中对应的概率值,并选取概率最大值对应的编码作为t时刻的预测动作编码值image.png

image.png

image.png

图 4 有条件姿态插值网络结构

2.3.1 Transformer层与联合因果注意力

Transformer是一个基于注意力机制的网络,被广泛应用在自然语言处理和图像识别等领域。Transformer中最重要的是多头注意力机制的使用,输入X经过多头注意力机制层后被转化为新的向量U。计算过程如下所示:


image.png

其中,Q、K、V由输入矩阵X计算而来,M是掩码矩阵,针对不同类型的注意力机制有不同的取值。本文在预测下一个Bottom动作编码时,应该防止模型使用未来信息,因此此处应该使用因果注意力,也就是模型只能用当前时刻之前的信息。但是本文中模型的输入较复杂,输入中包含由Bottom舞蹈动作编码转化而来的嵌入向量B、由Top舞蹈动作编码转化而来的嵌入向量T,以及舞蹈风格向量S。针对特殊的输入结构,本文提出了一种新的注意力层,称之为联合因果注意力层,其结构如图5所示。因为要预测下一时刻Bottom舞蹈的动作编码,为了避免模型使用未来信息,所以对Bottom部分使用因果注意力,而对Top部分和舞蹈风格向量部分使用全注意力,并且只允许Top部分和舞蹈风格向量部分向Bottom部分单向传递信息。

image.png

图5   Transformer层结构


联合因果注意力层既保证了不同种类输入之间进行充分的信息交换,同时保证了在预测下一时刻的Bottom动作编码时,模型不会使用未来信息。

2.3.2 姿态插值模型的训练

模型采用有监督学习的方式进行训练。但是因为姿态插值模型需要生成两个关键动作之间的衔接动作,所以笔者希望模型可以很好地学习到如何从前一个关键动作开始,顺滑地进行中间动作的过渡,并保证最后生成的动作一定落在后一个关键动作上。对于模型生成的序列,头部序列和尾部序列的生成质量非常重要,因此在训练时,本文提出了一种新的损失函数:


image.png

其中,N为模型预测的两个关键动作之间衔接动作序列的长度,pn 为动作编码的真实值,图片为模型输出的动作编码的预测值。图片为二次函数,当图片时,图片,并且在x=0 和 x=1处,f(x)=1,在 x=0.5 处,图片,即图片 ,函数呈现两端大、中间小的形态。本文中α=2。损失函数中加入此函数后,会对预测动作序列的两端给予更严厉的惩罚,使模型更好地保障两端动作编码的生成质量。

训练完成后,姿态插值模型可以学习到如何生成pstartpend之间的动作序列,并根据输入的舞蹈风格调整模型的输出。

先生成Top部分的动作编码,再生成Bottom部分的动作编码,这是一个由粗略到精细的生成过程,可以同时考虑到全局信息和局部信息。

最后,可以使用生成的Top部分的动作编码和Bottom部分的动作编码按图2所示的方式生成最终的舞蹈动作序列。

3 实验结果分析

3.1 实验准备

本文在目前公开的最大的舞蹈数据集AIST++上进行模型训练和测试。此数据集一共包含992段高质量的3D舞蹈片段。数据集被划分为训练集和测试集两个集合,其中训练数据952条,测试数据40条。在训练集上进行模型训练,且只在测试集上进行模型测试。在进行数据集划分时,需要严格保证训练集和测试集没有音乐和舞蹈动作片段的重合。

本文中,当舞蹈动作序列编码为图片特征向量时,下采样率为4,当将图片编码为图片时,下采样率也为4,也就是说原始的舞蹈动作序列编码为图片向量的下采样率为16。Bottom编码簿和Top编码簿大小分别为512256,编码后的特征向量通道数C都为512。训练VQ-VAE-2网络时,舞蹈数据被切割为长度为5 s300帧)的片段。送入模型进行训练时,batchsize设为64,损失函数LM中第三项的系数ω0.15,重建损失函数Lrec中的系数αβ分别为0.80.9。采用Adam优化器以1×10-5的学习率训练VE-VAE-2网络。训练姿态插值网络时,舞蹈动作编码转化为嵌入向量后的向量通道数为512Transformer层的层数为12,注意力层的头数为12。舞蹈风格特征提取采用了参考文献的方法,通过风格嵌入向量生成网络,将输入的一段舞蹈片段进行舞蹈风格提取,并生成一个维度为512的舞蹈风格向量,引入舞蹈风格向量的目的是希望模型在生成舞蹈时可以统一风格,增加舞蹈的观赏性。训练姿态插值网络时采用的是Adam优化器,学习率设置为3×10-5,训练轮数为300。VQ-VAE-2和姿态插值模型使用一台Tesla V100 GPU进行训练,共耗时2天。

训练完成后,模型根据给定的音乐可以输出对应的舞蹈序列,舞蹈序列的每一帧为人体24个关节的坐标值,输出的舞蹈序列可以导入虚拟3D引擎Unity中进行虚拟人物驱动,Unity中需要加载FinalIK资源包。本文中演示使用的UNITy版本为2019.03.11f1,FinalIK版本为V2.1。

3.2 实验结果量化评估

本文使用3个量化指标来评估生成的舞蹈动作。这3个指标分别为舞蹈动作质量、舞蹈动作多样性、音乐与舞蹈节拍一致性。

● 舞蹈动作质量:舞蹈动作质量的获取方法是,计算生成的舞蹈动作和数据集中所有的舞蹈动作在动力学和几何学两种特征上的FID值,即弗雷歇距离。舞蹈动作的动力学特征和几何学特征分别使用fairmotion中实现的两个运动特征提取器进行提取,分别使用FIDkFIDg表示动力学特征对应的FID值和几何学特征对应的FID值。好的舞蹈动作质量可以保证生成的舞蹈动作更加真实合理。

● 舞蹈动作多样性:当给定不同的音乐时,人们希望模型可以生成更加多样性的舞蹈。计算在AIST++测试集上生成的40段舞蹈在特征空间中的平均欧氏距离,以此衡量生成舞蹈的多样性。在这里特征空间也分为两种,分别为动力学特征空间和几何学特征空间,记为DistkDistg

● 音乐与舞蹈节拍一致性:节拍一致性是最直接影响人们对舞蹈观看体验的指标,这个指标可以衡量音乐和舞蹈动作的相关性。本文按照其他论文的做法,计算舞蹈动作和背景音乐的节拍一致性得分,这个值可以评估舞蹈动作的节拍和音乐节拍的相关程度,计算式为:


image.png

其 中,image.png是舞蹈动作节拍,image.png是音乐节拍,σ是针对不同FPS(每秒帧数)的归一化参数。本文中FPS值为60,对应σ值为3。音乐节拍可以使用音频处理工具Librosa进行提取,即通过工具分析得到音乐节拍出现的时间点,舞蹈动作节拍通过计算运动速度的局部最小值来获得。

本文利用以上3个指标对比了节奏舞者模型与目前几个较好的舞蹈生成模型。参与对比的舞蹈生成模型包括Li J M等人所提模型、DanceNet、DanceRevolution、FACT 、Bailando。在AIST++测试集上,每种方法都生成40段对应的舞蹈序列,然后计算上述3个指标。对比结果见表1。通过表1可以看出,节奏舞者模型在各个指标上的结果优于绝大部分现有模型:在FIDkFIDg上相较之前表现最好的模型Bailando有更好的效果;与Bailando相比在节拍一致性得分上提升了5%,说明节奏舞者模型生成的舞蹈与音乐更加契合。这说明先建立关键动作转化图,再从图中采样获取关键动作的方式可以更好地保证音乐节拍与舞蹈节拍的一致性。这验证了本文方法的有效性。

舞蹈生成的最终目的是供人欣赏。为了在人的主观感受上更好地评估生成舞蹈的效果,本文进行了用户体验调查。首先从每种舞蹈生成方法生成的舞蹈中选出30个生成样本,然后将每种方法生成的样本与节奏舞者模型生成的样本随机两两组合,之后选择10位观众,让每位观众观看每个组合的视频文件,并标记哪个文件中生成的舞蹈效果更好,最后将结果进行汇总。详细结果可见表1。相比之前最好的舞蹈生成模型Bailando,节奏舞者模型胜出率高达74.6%。节奏舞者模型生成的舞蹈样例如图6所示。


image.png

image.png

图6   节奏舞者生成的舞蹈样例

3.3 消融实验

本文进行了消融实验,以验证VQ-VAE-2和姿态插值网络中联合因果注意力层的有效性。有效性的评估使用了动作质量(FIDk和FIDg)和节拍一致性得分两种量化指标。除量化指标外,为了衡量不同生成结果对人产生的直观感受,笔者请观众对生成的样本进行了主观感受打分。

本文比较了VQ-VAE和VQ-VAE-2对舞蹈动作进行编码量化的效果差异,并且研究了在训练VQ-VAE-2网络时,式(3)中节点运动的速度和加速度损失的加入对结果的影响,结果见表2。从表2可以看出,相比VQ-VAE,VQ-VAE-2在FIDkFIDg和节拍一致性得分3个指标上均有更好的表现,说明VQ-VAE-2这种分层的结构可以在舞蹈生成过程中兼顾局部信息和全局信息,有助于提升舞蹈生成质量,符合实验预期。损失函数中去除速度/加速度损失项后,FIDkFIDg明显升高,分别上升了8.17%和6.39%;损失函数中去掉速度和加速度损失项后,节拍一致性得分变低,说明速度和加速度对于舞蹈动作序列来说是非常重要的信息,丢失这部分信息会影响模型的舞蹈生成质量。


image.png

对于姿态插值网络,首先,将联合因果注意力层换成最简单的因果注意力层,即图5中嵌入向量B和T嵌入向量之间没有进行特征交叉融合。结果发现FIDkFIDg大幅上升,说明在生成Bottom部分动作编码的过程中,特征向量T起到了关键的指导作用。为了探究舞蹈风格特征向量S对舞蹈生成效果的影响,实验中将舞蹈风格特征向量S去掉,即图5中,舞蹈风格特征向量S在注意力层中不参与特征融合,让模型根据测试集的音乐进行舞蹈生成,最后选择10位观众对舞蹈风格特征向量参与训练的模型生成的样本和舞蹈风格特征向量未参与训练的模型生成的样本分别打分(分数范围为1~5分),并计算平均分。结果显示,舞蹈风格特征向量参与训练的模型生成的样本分数更高,说明舞蹈风格特征向量在舞蹈生成时可以有效控制生成舞蹈的风格,给观众更好的视觉感受。详细结果见表3。

消融实验结果表明,VQ-VAE-2对舞蹈的生成质量有提升作用。将联合因果注意力层替换为简单的因果注意力层后,舞蹈生成质量大幅下降,这有效验证了Top部分舞蹈动作编码和Bottom部分舞蹈动作编码在舞蹈生成过程中协同配合的重要性。最后,实验结果表明,舞蹈风格向量的加入可以有效地控制生成舞蹈的风格,统一的舞蹈风格让整个舞蹈更加和谐流畅,给人更好的视觉感受。


image.png

4 结束语

本文提出了一种新的3D舞蹈生成框架。针对生成的舞蹈动作和音乐节拍难以契合的问题,本文提出了先构建关键动作转换图,再生成中间衔接动作的舞蹈生成方法,有效保证了动作节拍与音乐节拍的高度一致性。针对舞蹈动作空间维度太大而导致生成的舞蹈动作怪异的问题,本文提出使用VQ-VAE-2对舞蹈动作进行编码和量化,对舞蹈动作空间进行了有效降维,而且采用VQ-VAE-2的分层结构,让模型在生成舞蹈时可以兼顾全局信息和局部信息,使生成的舞蹈动作更加稳定流畅。为了更好地生成关键动作之间的衔接动作,本文提出了基于联合因果注意力的姿态插值网络,同时在模型训练时,引入了新的损失函数来保证生成的中间动作和两端的关键动作能更好地衔接。实验结果表明,在各量化指标上,节奏舞者模型相较之前的舞蹈生成模型均有更好的表现。

作者简介


贺亚运(1990-),男,平安科技(深圳)有限公司资深算法工程师,主要研究方向为人工智能、声纹识别、元宇宙虚拟人等。


彭俊清(1973-),男,国家认证计算机系统架构设计师,平安科技(深圳)有限公司资深经理,高级人工智能算法研究员,在IT行业耕耘多年,精通架构设计、云平台和AI系统建设,发表多篇论文,获得多项专利授权。


王健宗(1983-),男,博士,平安科技(深圳)有限公司副总工程师,美国佛罗里达大学人工智能博士后,中国计算机学会(CCF)杰出会员,深圳市计算机学会理事,深圳市地方级领军人才,《大数据》期刊编委,曾任美国莱斯大学电子与计算机工程系研究员,主要研究方向为隐私计算、元宇宙、边缘计算和量子计算。曾获得中国专利奖优秀奖、深圳市科技进步奖、CCF科学技术奖、《麻省理工科技评论》中国2022年隐私计算科技创新人物称号等。


肖京(1972-),男,博士,平安集团首席科学家,深圳市政协委员,深圳市决策咨询委员会委员,CCF深圳分部副主席,广东省人工智能与机器人学会副理事长,上海市科协人工智能专业委员会委员,深圳市人工智能行业协会会长。先后在爱普生美国研究院及美国微软公司担任高级研发管理职务。发表学术论文249篇,美国授权专利101项,中国授权专利155项,参与及承担国家级项目11项,获吴文俊人工智能科学技术进步奖一等奖、上海市科学技术进步奖一等奖、中国专利优秀奖、广东省专利优秀奖,以及吴文俊人工智能“杰出贡献奖”。


联系我们:

Tel: 010-81055490

       010-81055534

       010-81055448

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/




https://m.sciencenet.cn/blog-3472670-1379288.html

上一篇:[转载]【热点抢先看】智能文本生成:进展与挑战
下一篇:[转载]专题:元宇宙与大数据

0

评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 00:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部