糖尿病康复,内容丰富有趣,生活中的好帮手!
糖尿病康复 > SIGIR | 相似问题判定的二次匹配模型

SIGIR | 相似问题判定的二次匹配模型

时间:2019-12-02 11:12:24

相关推荐

SIGIR  | 相似问题判定的二次匹配模型

©PaperWeekly 原创 ·作者|金金

单位|阿里巴巴研究实习生

研究方向|推荐系统

论文标题:Match²: A Matching over Matching Model for Similar Question Identification

论文来源:SIGIR

论文链接:/pdf/.11719.pdf

简介

本文由中科院计算所团队发表于 SIGIR 。在社区问答中,根据 user question 找到已存在的 archived question 对于问题搜索和冗余消除都有较大意义,本文提出了一种相似问题的二次匹配模型,将 archived question 的回答作为连接二者的桥梁,辅助判定 archived question 是否与 user question 相似。该模型相比于已有的 SOTA 相似问题匹配模型取得了更好的效果。

算法

该模型包括三个部分:Representation-based Similarity module 用于生成两个问题的相似性向量;Matching Pattern-based Similarity module 使用 archived question 的回答,生成两个问题的匹配模式;Aggregation module 结合二者的输出生成匹配分数,模型的整体框架图如下:

2.1 Representation-based Similarity Module

该部分类似于普通的相似问题判定模型,将 user question 和 archived question 作为输入,得到二者的相似性表示向量。具体来说,该模型将两个问题拼接输入 BERT,得到 [CLS] 向量 和序列 token 表示 如下:

2.2 Matching Pattern-based Similarity Module

该部分使用 archived question 的答案作为桥梁,建立 user question 和 archived question 之间的匹配模式。具体来说,该部分主要分为以下三个模块。

第一模块是 Matching Pattern Layer,该模块分别计算两个问题与答案直接的相似性表示。具体来说,以 user question 举例,首先将 user question 和 archived answer 拼接输入 BERT,为每一个 token 得到 L 层的 embedding,user question 的 embedding 表示为 ,archived answer 的 embedding 表示为 :

此后,将二者的 embedding 做逐层的内积运算,得到的每一层的匹配模式 :

最后将每一层的表示拼接得到总体的匹配模式 ,同理计算可得 archived question 和 archived answer 的匹配模式 :

第二模块是 Pattern Similarity Layer,该模块计算以上两种匹配模式之间的相似性 作为两个问题的相似性表示,具体来说作者考虑五种相似度计算方法,以计算两种匹配模式之间的逐元素相似性,分别是内积、余弦相似度、L1 距离、L2 距离以及 Jesene-Shannon 系数,作者在通过超参实验证明,内积的匹配效果最好:

第三模块是 Compression Layer,考虑到 的维度较高,不易于和 Representation-based Similarity Module 的输出融合,作者使用两层 BN-ReLU-Conv 网络以及全局平均池化层,将 压缩为低维向量 。

2.3 Aggregation Module

该部分使用类似于 GRU 中的门控机制,控制 Representation-based Similarity Module 输出 和 Matching Pattern-based Similarity Module 输出 在最终相似性判断中所占的比例,从而得到总体的相似性向量 如下:

最后使用 MLP 层计算两个问题的相似性分数:

2.4 Model Training and Inference

该部分采用多任务学习机制训练模型,除了使用 cross entropy loss 优化相似问题的分类准确性以外,同时使用将 Matching Pattern-based Similarity Module 中 Matching Pattern Layer 输出的两个 [CLS] token(即 BERT 输出的 user question、archived question 与 archived answer 的相似性向量)分别输入 MLP 层,优化目标为该 [CLS] token 能更好地判断该答案是否能回答该问题,使用的损失函数仍然是 cross entropy loss。

实验

该论文的实验在 CQADupStack 和 QuoraQP-a 两个广泛应用的社区问答数据集上进行,采用的 baseline 包括仅使用 question 的深度文本匹配模型和将 archived answer 直接作为 archived question 扩展的 one-side 模型。

3.1 整体实验结果

本论文提出的模型的分类效果超过了所有的 baseline 模型的分类效果,所以由此证明了该匹配方法的有效性,另外,将 archived answer 直接作为 archived question 扩展的模型效果普遍优于仅使用 question 进行匹配的模型,这说明 archived answer 引入的更丰富信息的确提升了模型的效果,但是本文提出的二次匹配方法显然更加高效。

3.2 消融实验

本论文最后将仅使用 Representation-based Similarity Module、仅使用 Matching Pattern-based Similarity Module、用注意力机制替换门控机制三种情况和原模型进行了对比。实验结果显示,当去除任何一个模块的情况下,模型的效果都有显著的下降;另外,使用注意力机制的效果也略弱于门控机制,但也比近使用单一模块好不少。

结论

本文首先分析了问题答案在相似问题判定任务中的作用,认为答案应该作为两个问题的桥梁而不是简单的问题扩展;然后提出了一种全新的相似问题判定模型,该模型在真实数据集上取得了 SOTA 的效果,证明了该方法的有效性。

更多阅读

#投 稿通 道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

????来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

????投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

如果觉得《SIGIR | 相似问题判定的二次匹配模型》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。