≡ AI工具
Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
Chinese-LiPS是什么
Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。