近日,我校开云kaiyun体育官方网站教师叶威及其指导的研究生在《Expert Systems With Applications》上发表题为“Multi-label augmentation transformer hashing for cross-modal retrieval”的高水平研究论文(https://doi.org/10.1016/j.eswa.2025.129432)。武汉纺织大学为论文第一署名单位,硕士研究生余志燃同学为第一作者,指导老师叶威博士为通讯作者。
本研究聚焦于人工智能中跨模态检索的前沿问题,针对现有方法未能充分利用多标签语义信息以及多标签特征空间稀疏的问题,本研究提出了MATH(Multi-label Augmentation Transformer Hashing)方法。该方法将多标签信息作为独立模态,通过基于注意力机制的标签-模态特征融合(LMFF)模块,自适应地从图像和文本模态中提取关键语义特征并融入多标签空间,显著增强了多标签特征的表示能力。同时设计了多标签跨模态对比对齐损失函数,在对比学习框架下统一图像、文本和多标签信息,实现模态间更精确的语义对齐。
图1. MATH结构
实验表明,MATH方法取得了该领域state-of-the-art的结果。本研究不仅提升了跨模态检索的准确性和效率,还为处理大规模多媒体数据提供了新的技术方案,在图像检索、社交媒体内容理解等领域具有广阔的应用前景。
图2.对比MATH、DCMH和DCHMT方法在不同真实类别下的GRAD-CAM可视化效果
《Expert Systems with Applications》是Elsevier出版集团于1990年创办的人工智能领域学术期刊,属于中科院计算机科学大类一区Top期刊。该刊聚焦专家系统与智能系统的设计开发、测试实施及实践应用,2024年影响因子达7.5,在运筹学与管理科学领域全球排名第6(共106个期刊),Google Scholar人工智能类期刊H5指数位列第五。
叶威博士:硕士生导师,主要从事人工智能、计算机视觉、信息安全等方向的研究。参与多项国家自然科学基金、湖北省自然科学基金面上项目。