中国戏曲文化作为中国传统艺术之一,具有独特的音乐表现力。粤剧是中国主要戏曲剧种之一,是岭南文化的重要载体,被列入世界非物质文化遗产名录。近年来,生成式人工智能技术展现了其在内容创作领域的强大能力,如歌声合成技术能够根据指定乐谱合成自然的歌声,这为粤剧的数字化保护与创新提供了全新思路。然而,戏曲数据的收集与整理面临音频质量不佳、方言标注复杂等问题,导致高质量戏曲数据集极为匮乏。基于此,该文将流行音乐领域的歌声合成技术应用到粤剧人声合成领域,并提出了首个音素级标注的音频-文本对齐的粤剧人声合成数据集。首先,该文通过系统化的流程构建了CODS数据集。该数据集源自四位著名表演者的29部原创作品,总时长为3.81小时,为粤剧研究和数字化提供了重要支持。其次,该文在该数据集上进行了充分的实验,实现了歌词、音色和旋律可控的粤剧人声合成。此外,该文建立了一套粤剧人声合成评估方案,基于主客观评价验证了所制作数据集的可用性。该文提出的CODS数据集成功填补了人工智能在粤剧人声合成领域的空白,有力推动了这一传统艺术的传承与创新。