糖尿病康复 > DiaKG：用于构建医学知识图谱的糖尿病标注数据集【命名实体识别（NER）和关系抽取（RE

DiaKG：用于构建医学知识图谱的糖尿病标注数据集【命名实体识别（NER）和关系抽取（RE

时间：2024-02-06 11:54:14

原文：DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction

作者: Dejie Chang1, Mosha Chen2, Chaozhen Liu1

代码： /changdejie/diaKG-code

数据：/dataset/dataDetail?dataId=88836 (需要申请后下载)

一、简介

知识图谱在结构化信息和概念性知识的建模方面已经被证明是有效的，特别是在医学领域。然而，缺乏高质量的标注语料库仍然是推进这一任务的研究和应用的关键问题。为了加快医学领域特定知识图谱的研究，我们介绍了DiaKG，一个高质量的糖尿病知识图谱的中文数据集，它包含了22,050个实体和6,890个关系（备注：不重复实体一共4706个，不重复关系一共4038个）。我们实施了最近的典型的命名实体识别和关系抽取方法作为基准来全面评估所提出的数据集。实证结果表明，DiaKG对大多数现有的方法来说是具有挑战性的，并进行了进一步的分析，以讨论未来的改进研究方向。我们希望这个数据集的发布能够帮助糖尿病知识图谱的构建，促进基于人工智能的应用。

糖尿病是一种以高血糖为特征的慢性代谢性疾病。糖尿病不治疗或不控制会引起一系列的并发症，包括急性的如糖尿病酮症酸中毒和慢性的如心血管疾病和糖尿病肾病。随着经济的快速发展和生活方式的改变，中国已成为世界上拥有最多糖尿病患者的国家：中国成年人的糖尿病发病率约为11.2%，并且仍在不断增加[1]。在中国，没有并发症的糖尿病所带来的医疗费用已经占到全国卫生支出的8.5%[2]。心血管疾病是糖尿病的并发症之一，是中国人死亡的主要原因。糖尿病肾病是另一种糖尿病并发症，根据[3]，它可能 “把我们在过去30年里积累的财富浪费在透析机的排水口上”。因此，糖尿病是实现 "健康中国2030 "的一个严重公共卫生问题，需要跨学科的创新来解决。

知识图谱（KG）在结构化信息和概念性知识的建模方面已被证明是有效的，尤其是在医学领域[4]。医学知识图谱因其在智能医疗应用中的强大功能而受到学术界和医疗行业的关注，如用于诊断和治疗的临床决策支持系统（CDSSs）[5,6]，帮助病人根据症状评估健康状况的自我诊断工具[7,8]。高质量的实体和关系语料库对于构建知识库至关重要，然而，目前还没有专门针对糖尿病疾病的数据集。为了解决这个问题，我们介绍了DiaKG，一个用于构建糖尿病知识图谱的高质量中文数据集。

这项工作的贡献如下。

据我们所知，这是国内外第一个用于医学知识图谱构建的糖尿病数据集。

除了医学专家，我们还引入了人工智能专家参与标注过程，提供数据洞察力，这提高了DiaKG的可用性，最终有利于端到端的模型性能。

我们希望这个语料库的发布能够帮助研究人员开发用于临床诊断、药物推荐和辅助诊断的知识库，进一步探索糖尿病的奥秘。这些数据集可在/dataset/dataDetail?dataId=88836 上公开获取。

二、DiaKG结构

1、数据资源

该数据集来自41个糖尿病指南和一致性，这些指南和一致性来自国内权威期刊，涵盖了近年来研究内容最广泛的领域和热点，包括临床研究、药物使用、临床病例、诊断和治疗方法等。因此，它是构建糖尿病知识库的一个有质量保障的资源。

2、标注指南

两位经验丰富的内分泌学家设计了该标注指南。该指南侧重于实体和关系，因为这两种类型是知识图谱的基本要素。

实体 18种类型的实体被定义(表1)。嵌套实体是允许的；例如，'2型糖尿病’是一个’疾病’实体，'2型’是一个’类’实体。

DiaKG中的实体有两个突出的特点。

实体可以根据上下文内容归属于不同的类型。例如，"糖尿病患者需控制饮食 "一句中的 "糖尿病 "是 "疾病 "类型，而在 "糖尿病人所致肾损伤占1/3 "一句中则是 "原因 "类型；有些实体类型的跨度很长，如’致病’类型通常由一个句子组成。

表1: 实体名单：

关系以 "疾病 "和 "药物 "类型为中心，共定义了15种关系（表2）。

关系是以段落为单位进行标注的，因此不同句子中的实体可能会形成一个关系，这就增加了关系抽取任务的难度。在DiaKG中，存在于同一句子中的头部实体和尾部实体只占43.4%。

3、标注过程

标注的过程如图1所示。该过程可分为两个步。

3.1 OCR过程

通过OCR工具将PDF文件转换为纯文本格式，其中非文本数据如数字和表格被手动删除。此外，2名标注员手工逐个检查OCR结果，以避免错误的识别，例如，‘β细胞’可能被识别为’B细胞’。

3.2 标注过程

聘用了6名医学博士候选者，并由我们的医学专家进行了全面的训练，对标注任务有了全面的了解。在试标注中，我们创造性地邀请了2位人工智能专家同时对数据进行标注，这是基于人工智能专家可以从模型的角度提供数据洞察的假设。例如，医学专家倾向于将 "成年型糖尿病（maturity-onset diabetes of the young，MODY）"作为一个整体来标注，而人工智能专家则认为 “成年型糖尿病”，'年轻人的成熟期糖尿病’和’MODY’作为三个独立的实体，对模型更友好。人工智能专家和标注者的反馈被送回给医学专家，以反复完善标注指南。由6名医学博士候选者和1名医学专家开始的正式标注步将在需要时给予及时帮助。质量控制（QC）步由医学专家进行，以保证数据质量，并以批次的方式纠正常见的标注问题。最终的质量由另一位医学专家通过随机抽查300条记录进行评估。实体和关系的准确率分别为90.4%和96.5%，显示了DiaKG的高质量。被检查的数据集包含了22,050个实体和6,890个关系，从经验上看，这对一个特定的疾病来说是足够的。

表2: 关系列表

4、数据统计

DiaKG的详细统计信息见表1和表2。

三、实验

我们进行了命名实体识别（NER）和关系抽取（RE）的实验来评估DiaKG。该代码库在github上是公开的1，实现细节也在githubrepository中说明。

1、命名实体识别（NER）

我们只报告X Li等人（）[10]的结果，因为在写这篇文章时，它是嵌套设置的NER的SOTA模型。

图1: 糖尿病数据集的标注过程。

2、关系抽取（RE）

RE任务被定义为给出头实体和尾实体，对关系类型进行分类。最近提出了许多复杂的RE方法[9]，由于设置简化，我们在本文中报告了双向GRU attention[11]的结果。

表3: 选定的NER结果

表4: 选定的RE结果

四、分析报告

实验结果如表3和表4所示，我们报告了总成绩，加上每个任务的前2个和后3个类型的成绩来分析DiaKG。两个任务的总体macro-average分数分别为83.3%和83.6%，考虑到我们定义的多种类型，这些分数是令人满意的，也表明了DiaKG的高质量。对于NER任务，'疾病’和’药物’类型的结果是预期的，因为这两种类型在文档中经常存在，因此导致了较高的分数。发病机制 "类型的平均实体长度为10.3，表明SOTA MRC-Bert模型仍然不能完美地处理长跨度；我们分析了 "症状 "和 "原因 "类型的错误，发现该模型容易将实体分类为其他类型，这主要是由于实体可能因上下文内容而属于不同类型的特点。对于RE任务，案例研究表明，距离较长的实体很难分类。例如，"药物性疾病 "类型的实体通常存在于同一个子句中，而 "原因性疾病 "类型的实体则通常位于不同的子句中，有时甚至位于不同的句子中。上述实验结果表明，DiaKG对于目前的大多数模型来说是具有挑战性的，鼓励在这个数据集上采用更强大的模型。

五、结论和未来工作

在本文中，我们介绍了DiaKG，一个专门针对糖尿病疾病的特定数据集。通过精心设计的标注过程，我们得到了一个高质量的数据集。实验结果证明了DiaKG的实用性，以及对最新的典型方法的挑战。我们希望这个数据集的发布能够推动糖尿病知识图谱的构建，促进基于人工智能的应用。我们将进一步探索DiaKG的潜力，并将其贡献给CBLUE[12]社区。

参考资料：

DiaKG：用于构建医学知识图谱的糖尿病标注数据集

DiaKG：用于构建医学知识图谱的糖尿病标注数据集【命名实体识别（NER）和关系抽取（RE）】

如果觉得《DiaKG：用于构建医学知识图谱的糖尿病标注数据集【命名实体识别（NER）和关系抽取（RE》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。