引言: 随着科技飞速发展,人工智能(AI)技术已经渗透到了各个领域,为人类带来了前所未有的便利。在生命健康领域,AI正以其独特的能力,在基因组医学的创新和发展中发挥着关键作用。特别是在罕见遗传病的诊断上,AI展现出了巨大的潜力。目前全球有2.63-4.46亿罕见遗传病人群,其中约半数的罕见病疑似病例未得到诊断,而已确诊病例的平均诊断周期约为5-6年,最长的甚至要等待数十年。 国际罕见病联盟的第二个十年计划(2017-2027)的首要目标就是“让所有罕见病患者在就诊后的一年内获得精准的诊断”。基因测序技术的临床应用,可以使一些分子机制已知的罕见病的检测周期缩短至数周。然而要大规模、快速而准确地从海量的基因组变异中识别出致病因素,仍然是一个挑战。以基因检测大数据为基础,AI算法为核心的智能化筛选工具的开发,正在加速相关罕见病的诊断进程。 AI在罕见遗传病筛选致病变异方面的进展 尽管上述工具在临床诊断中展现了很高的应用价值,但它们大多数基于表型语义相似性度量,这要求将患者的临床表型信息转化为标准化的表型词条,例如人类表型本体(HPO)。这一转化过程既是知识密集型的工作、又是劳动密集型的工作,往往需要遗传分析专家的校准,耗时耗力的同时,也高度依赖于基因型与表型关联数据库的全面性和患者临床表型描述的精准度。 大语言模型(large language model,LLM)的最新进展,为罕见病的分析解读提供全新的思路。如近期沙特阿拉伯阿卜杜拉国王科技大学和美国费城儿童医院的两个研究团队先后评估了大型语言模型在罕见遗传病诊断中进行基因优先排序的实用性。 美国费城儿童医院的研究团队的结果表明尽管目前LLMs在生成准确的候选基因预测结果方面落后于传统工具,但随着模型规模的增加,它的性能有望进一步提高,尤其在处理非结构化文本数据时,LLM展现了一定的优势[8]。 上述这些研究结果表明,LLMs凭借其在处理大规模文本数据和复杂问题上的能力,有望辅助临床医生和研究人员更高效地识别疾病相关的基因和变异,从而推动个性化精准医疗的飞速发展。 华大基因基于大语言模型的新方法带来新范式 为了持续提高遗传病分析解读的水平,华大基因AI团队在近期的研究工作中首次应用微调大语言模型来识别罕见遗传疾病的致病变异,开发了大语言模型驱动的新方法Genetic Transformer(GeneT),相关工作在medRxiv预印[10](*点击“阅读原文”即可查看)。 该方法利用了公开数据构建的数万例阴阳性病例作为训练数据集,将基于资深遗传病分析专家们解读思维链构建的提示词作为模型微调的逻辑基础,引导基础大语言模型学习罕见遗传病致病变异筛选的能力。 GeneT在模拟样本和真实临床样本中分别达到99%和98%的致病变异召回率,同时分析效率提升了20倍。这一成果有望替代传统表型驱动的筛选方法,促进罕见遗传病的研究和临床应用,帮助广大患者群体获得精准诊断和治疗。 GeneT研究概览 研究内容 1 预训练模型的选择和特征评估 我们利用公开数据构建的数万例阴阳性病例以及解读专家精心设计的问答提示词,构建了一组不同数据量梯度的训练数据。随后,我们对6个不同参数量的大语言模型进行了微调,以使模型专注于致病变异筛选这一任务。结果表明: 在较少训练集(n=800)时,微调模型已经展现出了不错的预测性能,达到了90%的F1分数。随着数据量的增加,模型准确性稳步提升,当训练集拓展至20000时,F1超过99%。 小参数量的LLMs,如Qwen-1.5-0.5B和Qwen-1.5-1.8B,具有和大参数量的LLMs相当甚至更优的最佳预测性能。考虑小参数量LLMs部署所需硬件配置要求更低、内存占用更小、响应时间更快,在时效要求高、资源有限、注重隐私和安全的场景下将会是更优的选择。 通过“特征递增实验”,我们发现使用变异基础信息加上变异所在基因相关的疾病特征时,模型预测效果得到了显著增强,这强调了基因疾病信息在模型判定变异致病性中的关键作用,与实际解读人员的变异筛选经验相符。 大语言模型在不同数据量梯度下微调后的性能表现及特征评估 2 多元化表型适用性和性能评估 我们使用来自HGMD,OMIM,GPCards三个数据库的已知致病变异和千人基因组的变异分别构建了200个模拟样本,用于评估模型的性能。这三个数据库的病例的表型形式不一,HGMD样本的表型以疾病名为主,OMIM样本的表型为自由文本形式的描述,而GPCards样本的表型为标准的表型词条。测评结果表明: 1 GeneT显著降低了候选变异数目 2 GeneT在三种表型测试集上效果都显著优于现有最优排序方法 3 GeneT使用预测概率作为置信度分值,对所有候选位点排序,可替代现有的排序工具 GeneT 在不同表型数据集上的表现以及和现有工具的性能对比 3 真实临床场景的应用评估 GeneT方法在真实的临床解读场景中进行了应用,比较了应用前后一个月的时间消耗和召回率情况。为保证结果的可靠性,一般会安排专家1和专家2分别进行候选报出变异的初步筛选和初筛结果复核。 应用了GeneT辅助的专家1在选点环节的时间消耗及召回率情况评测结果如下: 1 更快的分析时间: 参考模型推荐位点进行初筛时,专家1能更快定位阳性位点,观察到耗时从60分钟降低到约44分钟,有显著提升。 若初筛环节直接使用GeneT结果,时间可以从60分钟缩短到约3分钟,实现约20倍的效率提升。 2 更准的选点: 初筛环节无论仅参考还是直接使用模型选点结果,均能在召回率方面有所提升,从原来的94.36%上升到97.40%/97.85%。 3 更稳定的个体表现: 因专家解读经验和样本解读难度差异,应用GeneT之前各解读专家之间约有20%的召回率差距。模型应用后解读专家在召回率表型上差异明显缩小到5%,趋近于大语言模型工具的表现。 真实临床场景下, GeneT的分析效率和性能表现 结语 华大基因AI研究团队开创性引入了大语言模型来识别罕见遗传疾病的致病变异,并利用真实临床场景验证展示了其相较于传统工具及遗传病人工筛选的优势,可以更灵活的面向多样化的临床表型信息、更高效精准的进行变异筛选及排序、结合RAG技术还可以实现更新更及时的数据库检索功能等,有望解决现有遗传病分析解读的痛点和难点。 参考资料:(滚动查看) 关注我们!获取公司最新资讯!
图源:medRxiv官网







购买咨询
400-9696-311 转1
问题咨询
400-9696-311 转2
商务合作
400-9696-311 转3
投诉及建议
400-9696-311 转4
关注摩熵医药公众号
随时查阅行业资讯
摩熵医药数据小程序
掌上数据查询系统








浙公网安备33011002015279
本网站未发布麻醉药品、精神药品、医疗用毒性药品、放射性药品、戒毒药品和医疗机构制剂的产品信息
收藏
登录后参与评论
暂无评论