©PaperWeekly 原创 ·作者|金金
单位|阿里巴巴研究实习生
研究方向|推荐系统
论文标题:Match²: A Matching over Matching Model for Similar Question Identification
论文来源:SIGIR
论文链接:/pdf/.11719.pdf
简介
本文由中科院计算所团队发表于 SIGIR 。在社区问答中,根据 user question 找到已存在的 archived question 对于问题搜索和冗余消除都有较大意义,本文提出了一种相似问题的二次匹配模型,将 archived question 的回答作为连接二者的桥梁,辅助判定 archived question 是否与 user question 相似。该模型相比于已有的 SOTA 相似问题匹配模型取得了更好的效果。
算法
该模型包括三个部分:Representation-based Similarity module 用于生成两个问题的相似性向量;Matching Pattern-based Similarity module 使用 archived question 的回答,生成两个问题的匹配模式;Aggregation module 结合二者的输出生成匹配分数,模型的整体框架图如下:
2.1 Representation-based Similarity Module
该部分类似于普通的相似问题判定模型,将 user question 和 archived question 作为输入,得到二者的相似性表示向量。具体来说,该模型将两个问题拼接输入 BERT,得到 [CLS] 向量 和序列 token 表示 如下:
2.2 Matching Pattern-based Similarity Module
该部分使用 archived question 的答案作为桥梁,建立 user question 和 archived question 之间的匹配模式。具体来说,该部分主要分为以下三个模块。
第一模块是 Matching Pattern Layer,该模块分别计算两个问题与答案直接的相似性表示。具体来说,以 user question 举例,首先将 user question 和 archived answer 拼接输入 BERT,为每一个 token 得到 L 层的 embedding,user question 的 embedding 表示为 ,archived answer 的 embedding 表示为 :
此后,将二者的 embedding 做逐层的内积运算,得到的每一层的匹配模式 :
最后将每一层的表示拼接得到总体的匹配模式 ,同理计算可得 archived question 和 archived answer 的匹配模式 :
第二模块是 Pattern Similarity Layer,该模块计算以上两种匹配模式之间的相似性 作为两个问题的相似性表示,具体来说作者考虑五种相似度计算方法,以计算两种匹配模式之间的逐元素相似性,分别是内积、余弦相似度、L1 距离、L2 距离以及 Jesene-Shannon 系数,作者在通过超参实验证明,内积的匹配效果最好:
第三模块是 Compression Layer,考虑到 的维度较高,不易于和 Representation-based Similarity Module 的输出融合,作者使用两层 BN-ReLU-Conv 网络以及全局平均池化层,将 压缩为低维向量 。
2.3 Aggregation Module
该部分使用类似于 GRU 中的门控机制,控制 Representation-based Similarity Module 输出 和 Matching Pattern-based Similarity Module 输出 在最终相似性判断中所占的比例,从而得到总体的相似性向量 如下:
最后使用 MLP 层计算两个问题的相似性分数:
2.4 Model Training and Inference
该部分采用多任务学习机制训练模型,除了使用 cross entropy loss 优化相似问题的分类准确性以外,同时使用将 Matching Pattern-based Similarity Module 中 Matching Pattern Layer 输出的两个 [CLS] token(即 BERT 输出的 user question、archived question 与 archived answer 的相似性向量)分别输入 MLP 层,优化目标为该 [CLS] token 能更好地判断该答案是否能回答该问题,使用的损失函数仍然是 cross entropy loss。
实验
该论文的实验在 CQADupStack 和 QuoraQP-a 两个广泛应用的社区问答数据集上进行,采用的 baseline 包括仅使用 question 的深度文本匹配模型和将 archived answer 直接作为 archived question 扩展的 one-side 模型。
3.1 整体实验结果
本论文提出的模型的分类效果超过了所有的 baseline 模型的分类效果,所以由此证明了该匹配方法的有效性,另外,将 archived answer 直接作为 archived question 扩展的模型效果普遍优于仅使用 question 进行匹配的模型,这说明 archived answer 引入的更丰富信息的确提升了模型的效果,但是本文提出的二次匹配方法显然更加高效。
3.2 消融实验
本论文最后将仅使用 Representation-based Similarity Module、仅使用 Matching Pattern-based Similarity Module、用注意力机制替换门控机制三种情况和原模型进行了对比。实验结果显示,当去除任何一个模块的情况下,模型的效果都有显著的下降;另外,使用注意力机制的效果也略弱于门控机制,但也比近使用单一模块好不少。
结论
本文首先分析了问题答案在相似问题判定任务中的作用,认为答案应该作为两个问题的桥梁而不是简单的问题扩展;然后提出了一种全新的相似问题判定模型,该模型在真实数据集上取得了 SOTA 的效果,证明了该方法的有效性。
更多阅读
#投 稿通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
????来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
????投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
如果觉得《SIGIR | 相似问题判定的二次匹配模型》对你有帮助,请点赞、收藏,并留下你的观点哦!