中国戏曲文化作为中国传统艺术之一,具有独特的音乐表现力。粤剧是中国主要戏曲剧种之一,是岭南文化的重要载体,被列入世界非物质文化遗产名录。近年来,生成式人工智能技术展现了其在内容创作领域的强大能力,如歌声合成技术能够根据指定乐谱合成自然的歌声,这为粤剧的数字化保护与创新提供了全新思路。然而,戏曲数据的收集与整理面临音频质量不佳、方言标注复杂等问题,导致高质量戏曲数据集极为匮乏。基于此,该文将流行音乐领域的歌声合成技术应用到粤剧人声合成领域,提出了音素级标注的音频-文本对齐的粤剧人声合成数据集(CODS)。首先,通过系统化的流程构建了数据集CODS,该数据集源自4位著名表演者的29部原创作品,总时长为3.81 h,为粤剧研究和数字化提供了重要支持;然后,在该数据集上,采用深度学习方法进行实验,实现了歌词、音色和旋律可控的粤剧人声合成;最后,建立了一套粤剧人声合成评估方案,主客观评价结果达到了领域内良好水平,验证了所制作数据集的可用性。该文构建的数据集CODS成功填补了人工智能在粤剧人声合成领域的空白,有力推动了这一传统艺术的传承与创新。