糖尿病康复 > 『文献回顾』“文本自动摘要” 相关文献综述

『文献回顾』“文本自动摘要” 相关文献综述

时间：2022-02-03 23:47:59

文献回顾——『文本自动摘要』

在大四毕设选题时，我选到了『在线评论信息的自动摘要技术研究』的题目。因此，我决定在此记录所读的每一篇文献的思路及方法，一方面用于理清每篇文章的思路，另一方面便于日后写论文中的文献综述部分。

此后，随着研究的深入，我会将毕设所用的思路及代码实现进行分享。

自动摘要概述

目的：将大量的文本用简短的语句进行快速表达，保留关键信息。

方法：自动摘要问题按照文档数量来说可以分成单文本摘要和多文本摘要。按照提取方式来分，可以分为抽取式（extractive）和生成式（abstractive）。

抽取式按照一定的规则，给句子进行评分，找出文档中关键的句子，最后汇总形成文档摘要。抽取式摘要存在语义不通顺、表意不清等问题。

生成式则应用先进的自然语言处理的算法，通过转述、同义替换、句子缩写等技术，生成更凝练简洁的摘要。生成式摘要更符合人类的认知习惯，语句通顺，语义清晰。

相关技术：自然语言处理、主题模型、seq2seq、注意力机制

自然语言处理相关文献

（一）融合主题词嵌入和网络结构分析的主题关键词提取方法

主要方法：词向量(Word2Vec)+主题模型(LDA)+关键词网络分析

这篇文献提供了一种关键词提取的思路：

首先利用LDA对于数据集的主题进行初步提取，生成主题 - 词(m×n) 矩阵；

接着，用Word2Vec训练数据集，得到词向量模型；

For each t in Topic (m)：

For each w in KeyWords (n)：

利用生成的词向量模型，用余弦法计算该主题下词与词的相似度，作为两点之间的权重；

设置阈值，过滤掉权重较低的词关系，其余的两两词之间连成一条边；

利用PageRank方法进行迭代，最后输出PR值最高的TopN个词作为该主题下的关键词。

总结：先用LDA方法初步选择出主题及其词分布，接着将每个主题下的词表示为词向量，用相似性表示词与词之间的权重，最后用PageRank方法对于主题下的关键词进行二次过滤。

抽取式摘要相关文献

（一）Opinion mining from online hotel reviews – A text summarization approach

（二）基于语义空间的抽取式单文档摘要方法

主要方法：Word2Vec+TF-IDF+TextRank+句子 - 原文相似度

主要步骤如下图所示：

首先使用Word2Vec训练出词向量，得到词的向量空间，也称为语义空间，其语义空间中语义相近的词的位置非常接近。句子向量：句子中词向量叠加求均值作为句子向量表示；文本向量：通过TF-IDF提取原文的关键词，筛选去除语义表征能力差的词，然后通过原文中关键词的词向量叠加求均值作为原文向量表示。通过余弦相似度公式计算句子和原文之间的距离，从而找出贴近原文中心思想的句子。用Dk表示原文中第 k 个句子与原文的相似度。（与TextRank结合的M1模型）：首先构建无向带权图，顶点为原文中句子；然后确定顶点间关系，即句子之间的相似度，最后用TextRank模型计算句子的权重。

（与TF-IDF结合的M2模型）：通过TF-IDF计算出词的权重，进而计算出句子的权重。句子权重为句子中每个词的权重之和。（M1与M2结合）选出关键句。

核心：把句子－原文相似度应用到单文档摘要中，以提高抽取出的摘要与原文的语义相似度。