东北大学信息科学与工程学院魏颖教授团队在人物交互检测研究中取得重要进展,研究成果以“FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection”为题发表在人工智能领域顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)上。论文的第一作者为马帅磊博士,通讯作者为魏颖教授。
(论文链接:https://doi.org/10.1109/TPAMI.2023.3331738)
IEEE TPAMI在中国计算机学会认定的人工智能领域四个A类期刊中排名第一,是计算机视觉及模式识别领域最顶尖的期刊,五年平均影响因子26.7。根据当前流行的Google Scholar Citation统计,IEEE TPAMI在所有计算机工程、电子工程及人工智能相关期刊榜单上以165分的h5-index排在第1位,主要收录人工智能、模式识别、计算机视觉及机器学习领域的原创性科研成果。TPAMI筛选极其严格,每年录用量仅200篇左右。IEEE TPAMI是人工智能、模式识别、计算机视觉及机器学习领域最重要的学术期刊之一,也是目前信息领域中影响最大、水平最高的期刊。
人物交互(HOI)检测是计算机视觉领域的一个重要问题,需要定位每一个人物对并识别交互关系。与单个物体实例相比,HOI 实例在空间、尺度和任务方面的跨度更大,因此其检测更容易受到噪声背景的影响。为了减轻噪声背景对 HOI 检测的干扰,该文提出了一种新颖的端到端的框架(FGAHOI),利用输入图像信息来生成细粒度锚点来指导 HOI 实例的检测,改进了从背景信息复杂的图像中提取关键特征,并将提取的特征与查询嵌入进行语义统一的方法。为促进人工智能领域的发展,论文的算法代码和数据均已开源。
该文提出了一种新颖的基于Transformer的人物交互检测器(FGAHOI),利用输入特征生成细粒度锚点,以缓解人物交互实例的检测受噪声背景的影响。提出了一种新颖的训练策略,即按顺序训练模型的每个组件,以明确每个阶段的训练方向,从而最大限度地节省训练成本。针对检测 HOI 实例的两个挑战(人物对的不均匀分布区域和人物对的远距离视觉建模),提出了两个新指标和一个新数据集,即 HOI-SDC。我们在 HICO-DET、HOI-SDC 和 V-COCO 这三个基准数据集上进行了大量实验,证明了所提出的 FGAHOI 的有效性。
魏颖教授长期致力于图像处理与计算机视觉、医学影像计算与分析、视频图像分析与理解、机器学习与深度学习领域研究,作为项目负责人主持/完成国家自然科学基金项目、省部级攻关项目、企事业合作攻关项目等二十余项,在国内外重要学术期刊/国际会议发表论文七十余篇,获得辽宁省自然学术成果一等奖/二等奖、东北大学“江河奖教金”、东北大学学生科技竞赛活动优秀指导教师、东北大学“研究生心目中的好导师”等荣誉/奖励二十余项,兼任辽宁省人工智能学会副理事长、中国人工智能学会智慧医疗专委会常务委员。(转自东北大学信息学院公众号)