Nature Biotechnology:破壁!AI为药物数据搭建“通用桥梁”,新药研发迎来“宇宙大一统”?

时间:2025-07-17

药物筛选的 巴别塔 困境:孤岛般的数据集

如果你想绘制一幅完整的世界地图,但你手头的资料却是几百年来由不同国家的探险家用各自的语言、度量衡和绘画风格绘制的零散海图。有些图用的是公里,有些是英里;有些图详细描绘了海岸线,有些则只标注了主要港口。你无法简单地将它们拼凑在一起,因为它们缺乏一个统一的标准。

这正是高通量筛选(HCS)领域面临的 巴别塔 困境。

HCS的本质,是一场精心策划的 细胞摄影展 。研究人员将细胞培养在特制的微孔板中,然后用成千上万种不同的候选小分子化合物去处理这些细胞。经过一段时间的培养后,再用荧光染料标记细胞内的特定结构,如细胞核、细胞骨架、线粒体等。最后,通过自动化显微镜对每个微孔进行拍照,并用复杂的图像分析软件提取出数百甚至上千个量化特征,比如细胞的大小、形状、纹理、荧光强度分布等等。这些特征共同构成了一个高维度的 细胞表型图谱 (phenotypic profile),就像是每个药物为细胞拍摄的一张 功能快照 。

理论上,如果两种药物能让细胞拍出相似的 快照 ,它们很可能具有相似的作用机制。这便是 依罪推断 (guilt-by-association)的逻辑,也是HCS预测未知化合物功能的核心。

然而,问题恰恰出在这 快照 的拍摄和上。正如该研究所展示的,每一个HCS实验都充满了独特的 实验选择 (experimental choices)。

细胞模型不同:有的研究用的是人细胞A549,有的用的是细胞HepG2,还有的是成纤维细胞。不同的细胞对药物的反应天然存在差异。

染料 不同:有的实验标记的是细胞内的 细胞器标志物 (Organelle markers),有的则关注与疾病相关的 信号通路标志物 (Signaling markers)。

相机 不同:研究人员可能使用不同品牌和型号的显微镜,如Operetta高内涵系统或Zeiss共聚焦显微镜,它们的成像原理和精度各异。

后期处理软件 不同:从原始图像中提取特征的计算方法更是五花八门。有的团队使用学术界经典的 主成分分析 (Principal Component, PC),得到的是几个关键的主成分数值;有的则采用商业软件,进行 KS (Kolmogorov Smirnov statistics);还有的直接用 深度学习特征 (Deep features),生成的是计算机自己学到的抽象特征。

这些选择的任意组合,都会产生一个独特的 数据集方言 。一个数据集的细胞表型图谱可能是由50个主成分构成的向量,而另一个则是由上千个深度学习特征构成的向量。它们的维度不同、数值范围各异、生物学含义也完全不对应。这就导致了,我们无法直接将A实验中化合物X的图谱,与B实验中化合物Y的图谱进行比较。过去二十年间,全球学术界和工业界积累了海量的HCS数据集,但它们就像一座座信息孤岛,彼此隔离,巨大的协同潜力被白白浪费。

寻找 宇宙翻译官 :CLIPⁿ的巧妙诞生

面对这座难以逾越的 巴别塔 ,我们是否注定无能为力?研究人员提出了一个绝妙的设想:虽然各个数据集的 方言 不同,但它们在描述某些 共同事物 时,或许可以为我们提供一把破译密码的钥匙。这些 共同事物 ,就是那些在多个不同实验中都被测试过的 参考化合物 (reference compounds)。

比如,经典的紫杉醇(Paclitaxel)是一种微管蛋白抑制剂,它在A549细胞、HepG2细胞中都会引起相似的细胞骨架变化。尽管在不同实验中,这种变化被描述成了不同的数据形式(比如一组PC值或一组深度特征),但其内在的生物学功能是恒定的。这些重叠的参考化合物,就成了连接不同数据集的 罗塞塔石碑 (Rosetta Stone),或者说 基准点 (fiducials)。

CLIPⁿ框架的核心思想,就是利用这些稀疏的 基准点 ,来学习如何将所有异构的数据集 翻译 到一个共享的、统一的 潜在空间 (latent space)中。

这个过程可以这样理解:

1. 为每种方言配备专属翻译器:CLIPⁿ并不试图用一个通用的模型去处理所有数据。相反,它为每一个数据集都训练了一个专属的 编码器 (encoder)。这个编码器就像一位专门的翻译,负责将该数据集特有的 细胞表型图谱 (原始特征空间)转换成一种标准化的 通用语 (潜在空间中的嵌入向量)。

2. 在 通用语 空间里对齐语义:CLIPⁿ的学习目标非常明确,它采用了一种称为 对比学习 (contrastive learning)的策略。在训练过程中,模型会同时看到来自所有数据集的参考化合物。首先,如果来自不同数据集的两个化合物属于同一类别(例如,它们都是 蛋白酶体抑制剂 ),CLIPⁿ就会调整各自的编码器,使它们在潜在空间中的嵌入向量尽可能地靠近,即 拉近同义词 。反之,如果两个化合物属于不同类别,模型就会让它们的嵌入向量在潜在空间中相互远离,即 推开非同义词 。

3. 迭代学习,全局优化:这个过程是全局性的。模型会轮流将每个数据集作为 枢轴 (pivot),与其他所有 辅助 (auxiliary)数据集进行对比,不断优化所有编码器。最终,它学到的这个潜在空间不再是任何一个原始数据集的简单映射,而是一个融合了所有数据集信息、经过高度整合的全新知识空间。

在这个由CLIPⁿ构建的 通用语 世界里,神奇的事情发生了。原本孤立的数据被彻底打通。一个在A数据集中未经表征的 神秘 化合物,现在可以被映射到这个共享空间。它的 邻居 可能来自B、C、D等任何其他数据集。通过分析这些 跨时空邻居 的身份,我们就能 传递性地 预测出这个神秘化合物的功能。这就是 传递性预测 的威力 我们无需重新进行昂贵的实验,就能在计算机上实现跨数据集的功能注释。

虚拟练兵场:CLIPⁿ的 翻译 能力大考验

在将CLIPⁿ投入到真实世界的复杂数据之前,研究人员首先在一个精心设计的 虚拟练兵场 中对它进行了严格的考验。他们通过计算机模拟生成了多个具有不同特征(如特征维度、数据缺失率、噪声水平)的虚拟数据集,但这些数据集的 正确答案 (即每个样本的类别)是已知的。

第一项测试:对齐能力

首先,要看CLIPⁿ能否把来自不同数据集的 同类项 真正地聚集在一起。研究人员使用 总变异距离 (total variation distance)这一指标来衡量。距离越小,代表对齐效果越好。结果显示,与其他集成方法(如经典的CCA和StabMAP)相比,CLIPⁿ的对齐效果遥遥领先。它的总变异距离中位数显著低于其他方法,且分布非常集中,表明其对齐既准确又稳定。

第二项测试:区分能力

其次,光聚拢还不够,还要能把 非同类项 清晰地分开。研究人员使用 F1分数 (F₁ score)来评估分类的准确性。结果显示,CLIPⁿ的F1分数平均达到了约0.8,几乎是第二名(基于多层感知机的监督学习方法MLP)的两倍,更是将CCA和StabMAP远远甩在身后。这证明在CLIPⁿ构建的潜在空间里,不同药物类别的界限清晰分明。

第三项测试:抗干扰能力

真实世界的数据充满了不完美。比如,在某个实验中,某些药物可能因为细胞不敏感或剂量太低而没有表现出活性。这些 无效数据 会不会干扰模型的判断?研究人员在模拟中引入了这种情况。他们发现,其他方法要么会将这些无效样本随机地散布在空间中,造成混乱;要么会错误地将它们也强行分开,导致过拟合。而CLIPⁿ则表现得非常 聪明 ,它会将大部分无效样本聚集到一个独立的 中立区 ,既不影响其他有活性类别的分离,也正确地反映了它们 无活性 的本质。

最终考验:真正的 传递性预测

这是最关键的测试。研究人员在训练模型时,故意 隐藏 掉某些数据集中的某些药物类别,然后看模型能否在整合后的空间里,仅凭其他数据集的信息,正确预测出这些被隐藏样本的身份。结果再次证明了CLIPⁿ的强大。随着数据集数量的增加和噪声水平的提升,CLIPⁿ的预测准确率始终保持在高位,稳定地超越了所有对手。这证明,CLIPⁿ的 传递性预测 能力不是空谈,而是在严格的模拟考验中得到了验证的实战能力。

穿越二十年光阴:整合药物发现的历史长卷

模拟的成功给了研究人员巨大的信心,他们决定挑战一项前所未有的任务:整合横跨20年(从2004年到2023年)的13个真实的HCS数据集。

这13个数据集堪称一部微缩的HCS技术发展史,它们来源广泛、技术多样,整合后包含了来自36个药物类别的14,382个参考化合物处理过的孔板数据,背后是超过千万个细胞的 功能快照 。

在整合之前,每个数据集都是一幅独立的、杂乱的 星图 。即使是同一类药物,在不同 星图 中的位置和分布也毫无规律可言。将它们放在一起,就像是13幅风格迥异的涂鸦,令人眼花缭乱。

而当CLIPⁿ施展其 魔法 后,奇迹发生了。

一幅统一、有序、信息丰富的 药物宇宙星图 呈现在我们眼前。在这张全新的UMAP降维可视化图谱中:同类相聚,近邻有义。来自13个不同数据集的、属于同一作用机制的药物,现在都紧密地聚集在一起,形成了清晰的 星团 。例如,所有的 微管蛋白聚合抑制剂 (Tubulin polymerization inhibitor)、 mTOR抑制剂 、 蛋白酶体抑制剂 (Proteasome inhibitor)和 EGFR抑制剂 都各自抱团,泾渭分明。同时,生物学上相关的药物类别,在空间中的位置也相互靠近。这表明CLIPⁿ不仅对齐了标签,更捕捉到了药物背后深层的生物学关联。

量化分析进一步证实了这种协同效应。研究人员评估了整合前后,每个数据集中药物类别的分类准确性(F1分数)。结果发现,整合后的分类性能普遍得到了提升。对于那些在原始数据中就已经有一定区分度的类别(F1分数大于0.5),超过70%的情况在经过CLIPⁿ整合后,其分类准确性变得更高。这说明CLIPⁿ的整合不是简单的数据堆砌,而是实现了 1+1 2 的知识增益。

从预测到实证:实验室里的 寻宝 之旅

模型构建得再好,终究要在现实世界中接受检验。CLIPⁿ真的能发现那些被传统方法遗漏的 宝藏 吗?研究团队设计了一场精彩的实验验证。

他们将焦点放在了两个包含了大量未知化合物的数据集上。在这两个数据集中,总共有超过1万种化合物被筛选,其中有429种显示出了区别于阴性对照(DMSO)的生物活性。

传统方法的局限是明显的:如果仅使用单个数据集内的参考药物进行预测,只有53.3%的活性化合物能够被高置信度地归类。而当使用CLIPⁿ整合所有13个数据集的参考信息进行 传递性预测 后,高置信度预测的比例飙升至76.3%!这意味着,借助更广阔的 知识网络 ,许多原本模糊的信号现在变得清晰起来。

研究人员从中挑选了55个 最有趣 的候选者 这些化合物在CLIPⁿ的预测中置信度很高,但在原始的单数据集分析中却置信度很低。它们是CLIPⁿ挖掘出的、最有可能被传统方法错过的 潜力股 。

接下来,就是激动人心的实验室验证环节。针对不同的预测类别,研究人员设计了高度特异性的 金标准 检测实验。实验结果堪称惊艳!在55个被测试的化合物中,高达38个(占比近70%)在对应的特异性检测中显示出显著的生物活性,完美印证了CLIPⁿ的预测。

显微镜下的图像提供了最直观的证据。一个被CLIPⁿ预测为 微管蛋白抑制剂 的化合物(编号136513),处理过的细胞中,微管蛋白网络完全解体,呈现出典型的药物作用表型,与已知的参考药物 阿苯达唑 (Albendazole)效果几乎一致。另一个被预测为 mTOR抑制剂 的化合物(编号80997),则能显著抑制细胞内pS6蛋白的磷酸化水平,其效果与参考药物Torin 1相当。

更深一步的分析揭示了CLIPⁿ的非凡潜力。在这些被成功验证的 新药苗子 中,有些在化学结构上与已知数据库(ChEMBL)中报道的活性分子有相似之处,而这些已知的活性分子并未包含在CLIPⁿ的训练数据中。这说明CLIPⁿ能够超越训练集,真正识别出化学结构与生物功能之间的联系。最令人兴奋的是,还有一些被验证的 新药苗子 ,在已知数据库中找不到任何结构相似的 亲戚 。这意味着,CLIPⁿ不仅能找到已知的活性骨架,更有能力发现全新的、具有独特化学结构的先导化合物,为新药研发开辟了全新的化学空间。

CLIPⁿ的无限宇宙:拥抱更多数据维度与挑战

这项研究的意义远不止于此。研究人员还展示了CLIPⁿ框架惊人的可扩展性和通用性。

即时更新的知识库

当一个新的、庞大的数据集(如来自Recursion制药公司的RxRx3数据集)发布时,我们是否需要从头开始,将所有数据重新训练一遍?研究表明,不必如此。CLIPⁿ支持一种更高效的 合并策略 (merge strategy),即冻结原有的整合空间,只为新数据集学习一个编码器,将其 注入 到现有的知识体系中。这种方法的准确性与完全重训练相差无几,但速度却快了整整五倍。这使得CLIPⁿ系统可以像一个动态的、不断学习的知识库,随时吸收和整合新的数据资源。

跨越模态的对话

CLIPⁿ的能力甚至超越了图像数据。它能否让不同 模态 (modality)的数据,比如细胞图像和基因表达谱,实现 跨界对话 ?答案是肯定的。研究团队成功地将6个图像数据集与2个著名的转录组数据集(LINCS L1000)进行了整合。结果,在一个统一的潜在空间里,药物的分类边界变得比任何单一模态的数据都更加清晰。这就像一个翻译官,不仅精通视觉语言(图像),还精通文本语言(基因表达),并能将两者完美融合,提供更全面的理解。

超越药物的视野

CLIPⁿ的应用场景也不局限于药物筛选。研究人员将其应用于一个完全不同的生物学问题:追踪细胞在不同时长的 缺氧 (hypoxia)胁迫下的表型变化轨迹。在这个场景里,不同的缺氧时长就扮演了原先 药物类别 的角色。即便是面对不完整、不重叠的时间点数据,CLIPⁿ依然成功地重构出了一条清晰的、反映细胞从常氧到长期缺氧适应过程的 压力轨迹 。这充分证明了CLIPⁿ框架的普适性,它可以被广泛应用于各种需要整合异构生物学数据的场景。

一种细胞对话的统一语言:未来已来

CLIPⁿ的诞生,为我们解决HCS数据整合这一长期存在的挑战,提供了一个强大而优雅的解决方案。它通过巧妙的对比学习和专属编码器设计,成功地为描述细胞状态的各种 数据方言 创造了一种 统一语言 。

这项工作的重要性在于,它将从根本上改变我们利用生物学数据的方式。它让我们能够:唤醒沉睡数据,盘活全球实验室过去数十年积累的宝贵数据资源;加速功能注释,通过高效的 传递性预测 快速获得化合物的潜在功能;提升研发效率,通过整合多源信息,提高了预测的准确性和置信度,从而降低新药研发的成本和失败风险。

未来,CLIPⁿ的应用前景广阔无垠。正如研究人员所设想的,它可以被扩展到整合基于CRISPR基因编辑的筛选数据,将基因功能图谱与药物功能图谱联系起来;也可以融合更多维度的检测数据,构建一个前所未有的、全面的细胞状态模型。

可以说,CLIPⁿ为我们描绘了一幅新药发现的未来蓝图:一个不再由孤立实验构成,而是由一个全球性的、持续学习和迭代的整合知识网络驱动的新范式。在这个范式中,每一个新的数据点都将不再是一座孤岛,而是汇入知识的江海,为我们战胜疾病的伟大征程贡献自己的力量。这场由AI引领的数据 宇宙大一统 ,或许已经悄然拉开序幕。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

100医药网 www.100yiyao.net
版权所有 © 2019-2020 Design by Dongyan