国内首个医疗专科推理数据集开源蚂蚁百灵大模型助力行业落地

量子位的朋友们 2023-12-28 17:09:38 来源：量子位

为行业发展提供新思路、新方法、新路径

12月28日，由信通院主办的“虹桥之源”大模型驱动数字经济新生态峰会在上海召开。会上，蚂蚁集团商业机器智能部总经理顾进杰介绍蚂蚁正式开源国内首个医疗专科推理数据集，这将提升大模型在医疗领域的专业性。

图说：商业机器智能部总经理顾进杰介绍国内首个医疗专科推理数据集

在医疗行业，通用型语言模型在应对医疗问诊时，会直接给出答案，而医生则会根据专业知识进行反复的症状探讨，才能给出答案。另外，大模型的幻觉问题和推理能力不足，当前高质量的中文医学专科数据集又较为稀缺，这对训练出色的医疗领域大模型提出了挑战。

为克服这些难题，蚂蚁集团与上海仁济医院泌尿科专家团队联合研发，基于医生团队临床经验，通过构造模拟病例数据的方式，推出了首个中文医疗专科问答推理数据集RJUA-QA，这也是业内首个临床专科数据集。

数据集由训练、验证、测试三部分组成，包含2132个问答对，每个问答对由医生根据临床经验编写的问题、专家提供的回答以及用于帮助推理的上下文构成，病种覆盖了97.6%以上的泌尿科就医人群，能真实复刻诊疗场景。数据集能提高大模型在医疗诊断推理方面的能力，并作为在严肃可控场景下应用的评测基准。

顾进杰进一步介绍了蚂蚁百灵大模型在医疗领域的技术进展。“专业性、可控性、轻量化是大模型技术在医疗行业落地的三个重要挑战和机会。”顾进杰说。

专业性上，由于医疗行业有超百个科室，每个专科和疾病，都需要专业的调试。蚂蚁集团联合医疗专家共同研发了多模态医疗知识引擎，进一步推动中国专业医疗数据集的构建与开放。

在可控性方面，百灵大模型结合知识图谱技术，让大模型的每一个回答都有据可依。“生成内容可以满足不同医院、不同科目的定制需求，包括风格与调性等”，顾进杰说。蚂蚁集团在超大规模图学习和知识图谱技术长期积累，今年联合OpenKG发布的OpenSPG开源项目，重新定义了工业界的知识图谱语义架构，知识检索增强技术也是大幅提升大模型正确性与可控性的重要课题。

医疗行业有数据隐私、专业知识和系统自主性的需求，考虑到机构的算力成本与便捷部署，百灵大模型还攻坚了轻量化技术。在12月份开源的模型轻量化框架（PIA）中，集成了模型剪枝、压缩、量化、推理加速等全链路环节的优化，具备开箱即用、功能无损、低代码接入等优点，可在天级别完成10倍以上压缩比。

目前，蚂蚁百灵大模型在中英文的医疗考试以及基准测试达到或超过了GPT4水准，例如，在中文医疗LLM评测榜单promptCBLUE上，取得A榜第一，B榜第二的成绩；在国际医疗问答榜单PubMedQA中，以80.6%的准确率取得了前五的成绩，而且是前十中参数量最小的模型，更适合被机构部署和使用。

本次峰会也是2024中国信通院ICT+深度观察报告会上海分会场，以“智能涌现，创新生态”为主题，共同探索大模型的前沿技术创新和落地应用实践，为行业发展提供新思路、新方法、新路径。

蚂蚁百灵

量子位的朋友们

小猿学练机推彩墨版搭载专属教育大模型2024-12-18
12/21来成都！携手多点、TuGraph、DB-GPT社区一起玩转 DB+AI2024-12-16
第五届长沙·中国1024程序员节，即将震撼来袭！2024-10-14
国产全AI游戏来了？！大模型直出开放世界游戏，有声可交互2024-12-13

国内首个医疗专科推理数据集开源蚂蚁百灵大模型助力行业落地

热门文章

Sora/可灵/海螺/混元大PK！多场景对比，谁是最强视频生成模型？

AI音乐战火升级！三路国产大军全面对决Suno

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

《2024年度AI十大趋势报告》发布：技术创新、产品洗牌、行业动态一文看尽

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

国内首个医疗专科推理数据集开源 蚂蚁百灵大模型助力行业落地

热门文章

Sora/可灵/海螺/混元大PK！多场景对比，谁是最强视频生成模型？

AI音乐战火升级！三路国产大军全面对决Suno

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

《2024年度AI十大趋势报告》发布：技术创新、产品洗牌、行业动态一文看尽

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

国内首个医疗专科推理数据集开源蚂蚁百灵大模型助力行业落地