杨森淇@大连理工大学：文化偏见很重要：理解多模态隐喻的跨文化基准数据集和情感丰富模型

文章主要预告了一场关于“文化偏见在多模态隐喻理解中重要性”的学术报告。核心内容聚焦于解决当前自然语言处理（NLP）领域中隐喻处理过度依赖西方文化数据的问题。研究团队构建了一个名为 MultiMM 的中英文跨文化多模态隐喻数据集，包含 8，461 组图文广告对，并提供了细粒度标注。此外，研究提出了情感增强隐喻检测（SEMD）基线模型，通过引入情感嵌入维度，显著提升了模型在跨文化背景下对隐喻的理解与检测能力，旨在推动更具包容性和公平性的语言模型研究。

MLNLP 2026-01-30 08:31 吉林

以下文章来源于：MLNLP

MLNLP

MLNLP社区的愿景是促进国内外自然语言处理学术界、产业界和广大爱好者之间的交流和进步。

杨森淇@大连理工大学：文化偏见很重要：理解多模态隐喻的跨文化基准数据集和情感丰富模型

本期MLNLP学术Talk邀请了大连理工大学博士生杨森淇为我们带来"文化偏见很重要：理解多模态隐喻的跨文化基准数据集和情感丰富模型"的主题报告。

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

MLNLP学术Talk是由MLNLP社区和中国中文信息学会青年工作委员会联合举办的学术交流活动，旨在邀请一线青年学者分享最前沿的技术，期待最精彩的思想火花碰撞。

本期MLNLP学术Talk邀请了大连理工大学博士生杨森淇在2026年1月31日9:00-10:00为我们带来“文化偏见很重要：理解多模态隐喻的跨文化基准数据集和情感丰富模型”的主题报告。详细信息如下：

讲者简介

个人介绍：

杨森淇，大连理工大学软件学院三年级博士生，导师为张冬瑜教授，入选2025年度中国科协青年科技人才培育工程博士生专项计划。研究方向为多模态隐喻的理解与生成，以第一作者身份在ACL，DASFAA等人工智能国际顶级会议期刊上发表论文多篇，获得第六届中国语言智能大会最佳论文，并担任相关会议审稿人。

报告摘要

隐喻在交流中无处不在，因此对自然语言处理（NLP）至关重要。以往关于隐喻自动处理的研究主要依赖由英文样本构成的训练数据，而这些数据往往体现出西欧或北美的文化偏向。这种文化倾斜可能导致对模型性能的高估，并使人们对 NLP 进展的贡献产生偏差判断。然而，文化偏差对隐喻处理的影响，尤其是在多模态语境下的影响，仍然缺乏系统探索。为弥补这一空白，我们提出 MultiMM——一个面向中英文跨文化隐喻研究的多文化多模态隐喻数据集。MultiMM 包含 8,461组图文广告对，并为每组样本提供细粒度标注，从而帮助研究者在不局限于单一文化领域的情况下，更深入地理解多模态隐喻。此外，我们提出情感增强隐喻检测（Sentiment-Enriched Metaphor Detection, SEMD）作为基线模型，通过引入情感嵌入来提升跨文化背景下的隐喻理解能力。实验结果验证了 SEMD 在隐喻检测与情感分析任务上的有效性。我们希望本工作能够提升 NLP 研究对文化偏差的关注，并推动更公平、更具包容性的语言模型发展。

主持人介绍

卢俊宇，大连理工大学计算机学院三年级博士生，导师为林鸿飞教授，入选2025年度中国科协青年科技人才培育工程博士生专项计划。研究方向包括大模型安全和仇恨言论检测，以第一作者身份在NeurIPS、ACL、SIGIR、TASLP等人工智能国际顶级会议以及期刊上发表论文多篇，并担任相关会议的审稿人。参与SemEval、NLPCC等多项国际语义评测并获得一等奖。

直播平台

视频号

B站