中科院自动化所联合实验室获CCKS2020医疗命名实体识别评测冠军

量子位的朋友们 2020-11-18 09:48:25 来源：量子位

并斩获该任务唯一技术创新奖。

日前，第十四届全国知识图谱与语义计算大会（CCKS-2020）在南昌召开。会上公布了CCKS-2020技术评测结果，云知声-中科院自动化所语言与知识计算联合实验室在“面向中文电子病历的医疗命名实体识别评测任务”中获得冠军，并斩获该任务唯一技术创新奖。

CCKS由中国中文信息学会语言与知识计算专业委员会主办，是知识图谱、语义技术、链接数据等领域的核心会议。其中，CCKS技术评测致力于促进国内知识图谱领域的技术发展，以及学术成果与产业需求的融合和对接，而“技术创新奖”的设立，专门用于鼓励创新性技术的使用。

“面向中文电子病历的医疗命名实体识别”是CCKS围绕中文电子病历语义化开展的系列评测的延续，在CCKS 2017、2018、2019相关评测任务的基础上进行了延伸和拓展，旨在从电子病历纯文本文档中识别并抽取出医学临床相关的实体指称，并将其归类到预定义的疾病诊断、影像检查、实验室检验、手术、药物以及解剖部位六种实体类别上。

相对于通用领域的命名实体识别，医疗命名实体识别面临两大核心挑战：

实体标注不一致。医疗领域的标注通常需要医学专业背景的人员，而不同科室方向的标注者对标注标准的理解各异，因此容易出现不同标准的标注结果。这一现象难以用规则去规避，也不能简单的直接纠正训练集中标注不一致的实体，因为并不知道哪一种标准是正确的。

缺乏训练数据。由于医学领域数据的敏感性，研究者们往往难以获得足够多的标注数据。标注数据的缺乏通常会导致长尾现象以及模型泛化性不足。当训练数据缺乏时，模型的预测结果可能会因模型参数的不同设置而剧烈变动。在医学场景下，需要的是更稳定、可靠的模型。

为应对上述难点，云知声-中科院自动化所联合实验室团队基于贝叶斯不确定性策略构建了一个基于有噪标签学习的中文医疗命名实体识别系统。该系统由基于对抗训练的半监督深度学习融合模块与基于实体多标、漏标与错标规则的后处理模块共同组成。在本次评测中，系统在官方决赛测试集上取得了严格指标0.9156，松弛指标0.9660的最高分数。

目前，联合实验室团队这一创新研究成果已在云知声旗下“智能病历质控”、“智能语音电子病历”等产品中应用，并用于医疗知识图谱的构建。相关产品已在全国百余所医院落地，对于提升医生工作效率、强化医院信息化管理及智慧医疗体系建设意义重大。

量子位的朋友们

阶跃星辰推出开源 SOTA 图像编辑模型，一个月连发三款多模态模型2025-04-27
清华系智谱×生数达成战略合作，专注大模型联合创新2025-04-27
夸克AI超级框上新“拍照问夸克” 加码多模态能力2025-04-27
一季度超百万辆！比亚迪凭实力书写行业 “霸榜” 传奇2025-04-27

中科院自动化所联合实验室获CCKS2020医疗命名实体识别评测冠军

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会