宋雪萌1 李芷墨2 侯博涵3 尹建华3
1.南方科技大学 计算机科学与工程系,广东 深圳 518055;
2.北京大学 计算机学院,北京 100871;
3.山东大学 计算机科学与技术学院,山东 青岛 266237
SONG Xuemeng1 LI Zhimo2 HOU Bohan3 YIN Jianhua3
摘要:
多模态商品摘要生成任务旨在基于商品的图文信息生成简洁、准确且能够突出核心卖点的摘要。然而,现有方法仍面临两大挑战:其一,传统的ROUGE等基于词汇重叠的指标难以有效衡量摘要对商品关键信息的表达能力;其二,主流监督微调范式难以捕捉用户在要素突出性方面的隐性偏好,生成内容与实际需求存在偏离。为此,本文提出基于要素的摘要评价指标(CSE),从要素命中率(CHA)与要素数量比(CQR)两个维度综合评估摘要中关键信息的表达效果;并进一步设计了基于偏好优化的多模态摘要生成模型PAMPS,通过监督微调、摘要重采样、要素评估驱动的偏好对构建以及直接偏好优化四个阶段,实现模型对商品要素表达偏好的对齐。在大规模中文电商数据集CEPSUM上的实证结果表明,PAMPS在ROUGE指标上整体取得明显提升,其中DPO-ROUGE相比SFT在ROUGE-1/2/L上分别平均提升0.25、0.44和1.21,展示了更强的整体生成质量。在CSE评价体系下,DPO-CSE在要素命中率(CHA)上的整体提升尤为显著,平均增幅超过4%,表明要素导向的偏好优化能够有效增强模型对商品核心要素的捕捉与表达能力。实验结果验证了本文方法在提升多模态商品摘要质量方面的有效性与实用价值。