以下文章来源于药研视角 ,作者医药芒草
近日,四川大学华西医院杨胜勇教授和温州医科大学眼视光医院张康教授领衔与温州医科大学李校堃院士、北京生命科学研究所黄牛研究员等团队在国际顶级期刊《Nature Medicine》上发表了一篇题为“Artificial intelligence in drug development”的综述文章,系统探讨了人工智能(AI)技术在药物研发全流程中的应用进展、面临的挑战及未来发展方向。传统药物研发过程复杂且耗时,平均需要投入约26亿美元、耗时12至15年,成功率却不足10%。AI技术的出现为这一领域带来了变革性机遇,尤其在疾病靶点识别、药物发现、临床前和临床研究以及上市后监测等环节展现出巨大潜力。尽管AI在药物研发中展现出巨大价值,但仍面临诸多挑战,如高质量训练数据匮乏、模型可解释性不足、计算资源需求高以及在“不可成药”靶点上的应用难题等。文章强调,未来需开发新策略解决数据稀缺问题,建立多模态融合模型以充分利用多源数据,并将物理定律融入AI算法以降低数据依赖性,同时提升模型的可解释性和透明度。该综述为AI在药物研发领域的应用提供了全面的总结与展望,为未来AI驱动的药物研发提供了重要的理论支持和实践指导。
图片来源:Nature
01
INTRODUCTION
前言
药物研发是一个旨在开发治疗疾病的新型药物的复杂多面过程,涵盖靶点识别、药物发现、临床前研究、临床试验、监管审批以及上市后监测等多个阶段。当前,药物研发面临着诸多挑战,包括高成本、长周期和低成功率。平均而言,研发一种新药需要投入约26亿美元,并可能耗时12至15年,而新药在临床试验阶段的成功率甚至不足10%。这些挑战的根源在于:疾病本身往往复杂且多因素导致,难以找到有效的治疗方法;研发过程本身复杂,涉及多个阶段,任何一个环节的失败都可能导致整个项目的终止;此外,寻找潜在药物候选分子需要探索的化学空间极为庞大(估计达到10⁶⁰至10¹⁰⁰量级),这使得药物发现的难度如同大海捞针。最后,严格的监管要求使得满足安全性、有效性和质量标准的过程既耗时又昂贵。
为了克服这些挑战,科学家们一直在积极探索新技术和方法来改进药物研发过程,而人工智能(AI)技术被认为有可能彻底改变这一领域。近年来,AI在图像识别、自然语言处理(NLP)和计算机视觉等领域取得了显著进展,并在药物研发的关键挑战中展现出巨大潜力。特别是像ChatGPT和Gemini这样的大型语言模型(LLMs),以及像Sora这样的生成式AI,已经在某些情况下展现出超越人类智能的能力。AI处理海量数据的能力有望大幅加速并改善药物研发过程。因此,制药公司、生物技术公司和研究机构越来越多地采用AI驱动的方法来克服传统方法中的障碍。AI已被证明在分析复杂生物系统、识别疾病生物标志物和潜在药物靶点、模拟药物-靶点相互作用、预测药物候选物的安全性和有效性以及管理临床试验等方面具有重要价值。然而,必须认识到,AI驱动的药物研发仍面临一些独特的挑战,如果没有有效的解决方案,AI的潜力可能无法完全实现。
02
AI-driven drug discovery
人工智能驱动的药物发现
①Target identification”(靶点识别)
在药物研发中,小分子靶点识别至关重要,传统方法耗时费力且失败率高。AI 技术的进步为该领域带来变革,它能够分析复杂生物网络中的大数据集。通过构建多组学数据网络,AI 有助于识别疾病相关分子模式和因果关系,进而发现候选药物靶点,例如运用 NLP 技术映射基因功能,以及利用图深度学习技术开发可解释框架预测癌症基因。此外,将多组学数据与科学医学文献整合到知识图谱中,能帮助 AI 识别基因与疾病途径之间的关系,像 PandaOmics 平台就借此发现了潜在治疗靶点。然而,这一过程也面临挑战,文献中可能存在发表偏倚,现实世界数据存在非结构化、缺乏标准化和有偏差等问题,增强模型在不同人群中的泛化性也颇具难度。随着数据的不断丰富,运用先进数据挖掘算法和专家知识,有望提高靶点发现的成功率。
②“Virtual screening”(虚拟筛选)
虚拟筛选是识别潜在先导化合物或药物候选物的关键策略。随着化合物库的迅速扩张,对超大型库的虚拟筛选需求更为迫切,推动了 AI 技术在配体对接领域的发展。基于 AI 的受体 – 配体对接模型可预测配体空间变换,直接生成复杂原子坐标并学习受体 – 配体距离的概率密度分布以产生结合构象。例如,基于 AlphaFold2 和 RosettaFold 的受体-配体共折叠网络,能直接从序列信息预测复杂结构,但可能产生不切实际的配体构象,深度学习模型在口袋导向对接任务中也尚未超越基于物理的方法,精确预测受体 – 配体相互作用仍存在困难。当靶标结构缺失或不完整时,基于序列的预测方法可作为替代,但难以捕捉三维蛋白质 – 配体相互作用的复杂性。对于无明确靶点的疾病,表型虚拟筛选至关重要,然而相关模型的泛化性较差。仅依赖配体化学结构的 AI 活性预测面临数据稀疏、不平衡和活性悬崖等问题,整合细胞形态和转录谱等生物信息可提升模型性能。当前虚拟筛选模型多专注特定任务,开发通用模型很有必要,融入归纳偏差或数据增强技术可提高模型泛化性。商业化合物集合数量庞大,现有分子库覆盖范围有限,积极学习、贝叶斯优化、量子力学与 AI 的结合以及分子动力学模拟等技术,可提升虚拟筛选效率,深生成模型通过生成定制虚拟库也能增强筛选效果。
③“De novo design”(从头设计)
从头设计在药物研发中意义重大,它旨在自主创造满足特定分子特征的全新化学结构。传统的药物设计方法,像基于结构、配体或药效团的设计,主要依靠人工操作,依赖专家经验和明确规则,过程较为繁琐。而 AI 技术,尤其是深度学习的兴起,彻底改变了这一局面,它能够自动识别符合特定要求的新颖结构,推动药物研发进入更高效、创新的时代。
在深度学习驱动的从头设计里,分子生成是核心环节,常借助化学语言或基于图的模型来实现。化学语言模型把分子生成任务转化为序列生成,比如 SMILES 字符串形式,但它需要大量预训练,还可能产生无效的 SMILES 字符串。基于图的模型则将分子表示为图,通过自回归或非自回归策略生成结构,不过这两种策略分别存在产生不合理中间体和难以保证图有效性的问题。由于类药化学空间极为广阔,从头设计通常会利用基于与已知活性分子的相似性、预测生物活性等指标的评分函数优化机制,引导设计朝着目标特征发展。强化学习用于迭代优化虽有效,但设计合适的评分函数颇具挑战,因为直接量化合成可行性或类药性等目标难度较大,可能还会带来意外结果。此外,强化学习的样本效率也是个难题,主动学习或课程学习策略或许能缓解这一问题。除了引入评分函数,融入疾病相关基因表达特征、药效团、蛋白质序列或结构、结合亲和力以及蛋白质 – 配体相互作用等约束条件,也能引导模型生成理想的分子。比如 PocketFlow 模型,基于蛋白质口袋生成的化合物就通过了实验验证,展现出强大的药物设计能力。同时,模型还能通过将输出限制在特定的支架或片段,优化先导化合物,但这可能会限制化学多样性。
图片来源:Nature
④“ADMET”(吸收、分布、代谢、排泄和毒性)
ADMET在评估药物疗效与安全性方面起着关键作用。虽然上市审批仍需湿实验评估,无法完全被模拟替代,但早期的 ADMET 预测有助于减少因药物特性不佳导致的研发失败。
AI 已成为预测 ADMET 性质的重要工具,例如拜耳的计算机模拟 ADMET 平台运用随机森林和支持向量机等机器学习技术,借助分子指纹或描述符来保障预测的准确性和相关性。在过去几十年里,众多用于 ADMET 预测的描述符不断涌现,然而基于这些描述符的特征工程复杂,限制了模型的通用性和灵活性。如今,深度学习推动着 ADMET 预测的发展,它能从简单输入数据中自动提取有意义的特征。多种神经网络架构,如 Transformer、卷积神经网络和图神经网络,在从 SMILES 字符串和分子图等格式的数据中模拟分子性质方面各有所长。其中,SMILES 字符串能简洁地表示分子结构,但缺乏拓扑感知;图神经网络(如 GeoGNN 模型)因融入几何信息,在 ADMET 预测中表现更为出色。不过,尽管新型深度学习算法带来了进步,该领域仍面临诸多挑战。ADMET 预测中标记数据稀缺,这是由于获取成本高、时间投入大,容易导致模型过拟合。无监督和自监督学习为解决这一问题提供了思路,虽然基于 Transformer 的大型模型在其他领域前景良好,但在 ADMET 预测中的应用还需进一步探索。理解 ADMET 预测模型的参数有助于揭示分子子结构与性质之间的关系,注意力机制和融入化学知识虽能增强可解释性,但要全面理解化学知识仍困难重重。
⑤合成规划和自动化合成
化学合成是小分子药物发现的瓶颈之一,计算机辅助合成规划(CASP)和有机化合物自动合成可减轻化学家的重复性劳动负担,推动药物研发进程。随着 AI 的快速发展,制药行业和学术界越来越关注该过程的智能化与自动化。CASP 通过逆合成分析辅助化学家确定反应路线,早期的 CASP 程序基于规则,如今机器学习技术尤其是深度学习模型的应用,使得人工小分子和天然产物的合成规划不断改进。例如,Transformer 模型已被应用于逆合成分析、区域选择性和立体选择性预测以及反应指纹提取。但目前多数深度学习方法存在可解释性差的问题,为此新推出的 RetroExplainer 模型通过可解释的深度学习框架,将逆合成任务重构为分子组装过程,提升了可解释性,在性能上优于现有方法。
有机化合物的自动合成是化学相关领域的前沿方向,理想的自动合成平台应整合化学开发过程的各个环节,包括 CASP、实验设置与优化以及机器人执行的化学合成、分离和纯化。目前,基于深度学习的自动化流动化学和固相合成技术在药物化合物合成中备受关注,自动合成与设计、测试、分析技术相结合,形成了药物发现的自动化核心流程 —— 设计-制造-测试-分析(DMTA)循环。借助深度学习,DMTA 循环的效率大幅提高,加速了药物研发中活性和先导化合物的发现。例如,利用基于深度学习的 AI 驱动 DMTA 平台和微流控技术,成功从头生成了肝脏 X 受体激动剂。此外,大语言模型(LLMs)能够理解人类自然语言,使自动化平台能根据研究人员的简洁输入提供定制解决方案。不过,自动合成和自动化 DMTA 循环仍处于发展初期,面临诸多技术挑战,如减少固体形成、预测溶解度、优化纯化方法和多步反应等。
图片来源:Nature
在新药化合物规划和合成之后,AI 技术还可助力新药作用机制的体内验证。在高内涵筛选中,AI 通过监测组学数据的实时变化,概括特征并建立模型,以解读新化合物的分子和细胞作用机制,以及相关的药代动力学、药效学、毒理学和生物利用度特性。
图片来源:Nature
03
real-world practice
AI在临床试验和真实世界实践中的应用
①生物标志物
生物标志物在医学、生物技术和生物制药领域意义重大,可衡量生理病理过程和治疗反应。但传统基于假设驱动的发现方法效率低,难以应对疾病复杂性,存在耗时久、资源需求大、样本量有限等问题,限制其在不同人群中的广泛验证。AI 技术的发展有力推动了生物标志物的发现。AI 模型在识别诊断和预后生物标志物方面表现突出,前者如 “nuclei.io” 数字病理框架提高了诊断准确性和效率;后者如深度学习模型能分析多种生物样本特征,预测疾病进展和患者生存情况,为精准治疗提供依据。在药物研发中,识别预测性生物标志物对提升研究成功率很关键,虽基于 AI 的预测性生物标志物尚未临床应用,但概念验证研究表明 AI 可通过预测已知生物标志物来预测患者治疗反应。考虑到生物系统的复杂性,整合多种生物数据到 AI 模型有助于提升预测全面性。面对大样本标记数据稀缺问题,研究人员采用整合多源数据集、利用数字生物标志物、识别多模态生物标志物以及进行大规模安全数据收集等策略,为生物标志物发现开辟新途径。不过,AI 模型在生物标志物发现中也面临挑战。数据异质性影响其向临床试验的转化效率,部分研究利用深度学习解析异质性,助力疾病亚型分类和患者分层。AI 模型的可解释性和可信度对临床应用至关重要,可通过整合先验医学知识或嵌入生物关系来提高。同时,还需解决偏差问题,如多区域验证模型、开发公平算法等。可靠的验证和合理的数据管理,对促进生物标志物识别应用、推动药物研发和疾病治疗发展十分关键。
②预测药物计量学特性
AI 能有效解决药物代谢动力学问题,为时间 – 事件分析提供有力支持,尤其在处理高维数据和非线性关系时表现出色。在精准医疗中,AI 可通过优化剂量 – 反应关系、改善药物安全性和明确治疗窗口,实现个性化治疗。例如,通过机器学习分析小分子激酶和不良事件,能够发现新的激酶 – 不良事件对,从而降低风险并开发更安全的小分子激酶抑制剂。
多组学变分自编码器(MOVE)框架可整合多组学数据,揭示药物相互作用,比如二甲双胍与肠道微生物群之间的联系,并对比不同组学模式下的药物反应。特定领域语言模型 PharmBERT 能够从处方标签中提取关键药代动力学信息,有助于识别不良反应和药物相互作用,进而提高药物安全性。此外,AI 还能通过分析患者的遗传和生理数据,优化药物剂量,为医生提供个性化的剂量调整建议,改善治疗效果。
③“老药新用”Drug repurposing
药物再利用是指借助 AI 技术,利用大规模生物医学数据集,重新挖掘已获批药物的新治疗用途,为药物研发注入新活力。AI 在这一领域发挥着重要作用,它能显著缩短研发时间、降低成本。例如,在新冠疫情期间,AI 加速了药物再利用的进程,为应对突发公共卫生事件提供了新的解决方案。AI 进行药物再利用主要通过多种方式实现。一是利用真实世界数据(如电子健康记录、保险索赔数据等)模拟临床试验,以此挖掘潜在的药物候选物。有研究运用深度学习递归神经网络分析医疗索赔数据库,成功识别出针对冠状动脉疾病的有效药物及组合。二是将深度学习应用于组学数据,依据药物在体外诱导的转录扰动对药物进行分类,进而发现药物的新适应症。例如,有研究借助 LINCS 项目的扰动样本和 MeSH 的 12 个治疗类别,实现了较高的药物分类准确率,为药物重新定位提供了可能。此外,AI 驱动的高内涵筛选技术也可用于药物再利用,如 MitoReID 深度学习模型通过线粒体表型分析来识别药物作用机制,在药物发现和再利用方面展现出良好的成本效益和高通量优势,并成功验证了表儿茶素对环氧合酶 – 2 的抑制作用。不过,药物再利用在 AI 应用过程中面临诸多挑战。数据质量参差不齐,模型的可解释性、泛化能力不足,验证成本高昂,监管障碍重重,与现有研发流程难以有效整合,以及计算需求过大等问题,都限制了 AI 药物再利用的广泛应用和实际实施效果。
④提高临床试验效率并预测结果
AI 在临床试验中具有重要价值,能优化试验设计、加快招募进程并预测患者反应,从而提高试验效率与成功率,同时降低成本和缩短周期。例如,有先进的流程整合了多模态数据集,利用 AI 生成分子先导物并按疗效和安全性排序,还通过深度强化学习创造可申请专利的类似物进行测试,该流程能预测 I/II 期临床试验结果,提升预测准确性并识别潜在风险。
在实际研究中,AI 可分析电子健康记录、保险索赔和可穿戴设备数据,评估药物有效性和安全性。如通过分析 61,094 名晚期肺癌患者的电子健康记录数据,发现放宽试验标准能使合格患者数量翻倍并改善生存结果,且该方法在多种癌症研究中得到验证,有助于开展更具包容性和安全性的试验。此外,Digital Twins 技术可创建参与者的虚拟副本作为对照组,增加实验组参与者数量,进而提高试验效率。一些公司已开展基于 Digital Twins 的肺癌等疾病的临床试验模拟,该技术基于基因表达和临床数据进行计算机建模,融合深度学习和生成对抗网络,有望深化对生物机制的数学理解,推动临床实践变革和实现医疗个性化。但该技术面临高计算成本、工作流程整合困难、伦理问题和个性化程度有限等挑战,影响了患者模拟准确性、试验设计和监管认可,阻碍了创新发展。
04
Challenges
挑 战
AI 在药物研发虽有进展,但尚无 AI 开发的药物进入临床试验第三阶段,这体现了药物研发的复杂性。目前面临的挑战如下:
数据问题:高质量训练数据稀缺,获取成本高、隐私法规及数据共享限制,尤其是针对罕见病和新靶点研究。现有数据存在信息缺失、错误和偏差,药物发现实验结果不稳定,节省成本的措施导致数据不完整,文献中 “负数据” 不足,影响对药物相关关系和特征的理解。
药物设计难题:平衡药物设计多目标困难,当前研究重化学空间,轻成药性和可合成性。开发有效评分函数复杂且需大量实验,缺乏标准化评估流程,在冲突目标下模型评估困难,相关基准测试平台未达成最佳实践共识。
分子表示困境:合适的分子表示对生成模型至关重要。传统方法与新数据驱动方法并存,但捕捉分子复杂性和确保可合成性不易,评估合成可行性的方法不精确,易发现不可合成分子。模型的可解释性、新分子生成的不确定性和偏差问题受关注,整合偏差控制和不确定性估计对提升分子质量很关键。
“不可成药” 靶点挑战:AI 面对 “不可成药” 靶点(如某些无序蛋白等)存在困难,因其缺乏合适结合位点。新 AI 方法和高内涵筛选技术有助于探索其构象空间和识别配体结合位点,以克服障碍。
算法与技术瓶颈:用于药物研发的 AI 算法多为其他领域设计,不完全适用,如基于自然语言处理的算法难以捕捉三维空间相互作用。AI 高计算资源需求对小型团队构成障碍,可通过与云服务提供商合作和开发高效算法解决。此外,AI 药物研发还面临人才短缺和投资风险,因其研发周期长、成功率低、回报不确定,影响投资者信心。
未来方向
AI正在通过从复杂的多组学生物医学数据中提取关键信息、识别新的生物标志物以及发现治疗靶点和异常来彻底改变药物研发的流程,从而助力先导化合物和药物候选物的发现。此外,AI加速了药物发现、药物重定位和毒性预测的进程,从而减少了时间和成本,降低了安全风险。然而,AI在这一领域的潜力尚未完全实现,仍有许多挑战需要克服。
未来的研究方向应重点关注以下几个关键领域:
解决数据稀缺问题:开发新策略以促进数据共享、建立数据标准,并开发能够在极少量数据下进行准确预测的“稀疏”AI算法至关重要。多模态预训练模型(整合文本和化学信息)在解决数据稀缺问题上展现出潜力,尤其是在零样本学习场景中。通过整合基因组学、转录组学、疾病特异性分子通路、蛋白质相互作用和临床记录等多源数据,AI还可以识别出具有潜在重定位机会的现有药物,尤其是在被忽视或罕见疾病领域。
多模态融合方法:当前方法多集中于单一数据类型,忽略了不同生物系统之间的复杂关联。建立有效的多模态融合方法可以从多种数据源和格式中提取有价值的信息,推动药物研发。随着大数据和GPU计算(基于图形处理单元而非传统CPU)的发展,AI已能够应用于文本、图像和视频等多种数据形式。基于多组学数据的新兴模型(如深度学习驱动的药物分类)在药物疗效预测、机制识别和毒性评估方面展现出巨大潜力,凸显了多模态AI在未来药物研发中的潜力。
融入物理定律:许多现有的AI模型完全依赖数据驱动,但由于高质量数据的相对缺乏,其在药物研发中的有效性受到限制。由于生命系统遵循物理定律(也称为第一性原理),药物研发也不例外。将物理定律融入现有的数据驱动AI算法是未来研究的一个方向,这有助于减少对数据的依赖,并提高模型的准确性和泛化能力。
确保合规性和可解释性:AI,尤其是大型语言模型(LLMs),可以通过分析大量文件并跟上最新的法规要求来确保药物研发的合规性,从而提高效率、降低违规风险并避免药物审批的延误。开发不仅准确而且可解释的AI模型对于在药物开发者、监管机构、临床医生和患者之间建立信任至关重要,这有助于确保决策过程的透明性和可理解性。这些模型可以早期纳入项目,以优化资金分配并指导投资,从而加速药物研发。
在未来几十年中,AI在医学建模和模拟中的作用将是变革性的。先进的AI模型将创建更加详细的人体虚拟模拟,进一步增强我们对疾病机制、药物作用和个体生物差异的理解。通过模拟,AI可以优化临床试验的设计和执行,测试不同的场景以找到最佳的入选标准,从而加速患者招募并提高试验的代表性。AI还将通过分析健康数据和基因组学提供个性化的医疗决策支持,实现精准的风险预测、优化治疗和改善手术指导。医学教育也将受益于AI驱动的虚拟现实技术,提供更逼真的培训场景,提升医疗服务的质量。
参考来源:
https://doi.org/10.1038/s41591-024-03434-4