人工智能“数字胚胎”预测人类植入前胚胎的“秘密”
发布时间:2021-09-03 09:29 来源:内蒙古自治区科技厅基础研究处
基于人工智能的算法,内蒙古大学省部共建草原家畜生殖调控与繁育国家重点实验室左永春教授科研团队,研发了第一个人类植入前胚胎谱系机器学习预测分析平台HelPredictor,通过增量特征选择算法来预测人类植入前胚胎的“秘密”。与此同时,科研团队还研发出造血干细胞(HSC)分化发育阶段预测器,帮助临床医学人员更好地理解HSC在发育过程中的分化命运。相关论文近日刊登于生物信息学期刊《Briefings in Bioinformatics》和《Bioinformatics》。
人工智能模型预测早期胚胎发育阶段的谱系分化类型
了解人类早期发育的遗传基础不仅对哺乳动物胚胎发育机理和干细胞生物学研究具有重要意义,而且对再生医学、不孕症治疗以及更好地了解先天性疾病的原因也具有重要指导作用。人类植入前胚胎在合子基因组激活 (ZGA) 后,细胞间的差异逐渐显现,导致全能卵裂球在胚胎第5天 (E5) 逐渐分化为内细胞团 (ICM) 和滋养外胚层 (PE)。ICM细胞显示特异转录因子 (TFs) 的“Salt and Pepper”表达,表明EPI和PE细胞逐渐变得不同。
近年来,人工智能算法发展迅速并在精准医学领域得到广泛应用,尤其在识别候选发育相关调控因子和谱系决定分子事件方面具有显著优势。高通量测序、单细胞组学和基因组编辑等前沿生物技术的快速发展以及早期人类胚胎新型干细胞模型的构建,使得利用人工智能和机器学习方法等数据科学方法直接在人类细胞和胚胎中进行功能基因组相关的生物信息学研究变得可行。
科研团队将前沿生物技术与人工智能技术相结合,研发出HelPredictor,该平台集成了三种特征选择方法,即主成分分析 (PCA)、F-score算法和方差平方系数 (CV2),以及四种不同组合的经典人工智能算法,并通过增量特征选择算法来预测人类植入前胚胎谱系细胞。HelPredictor不仅通过交叉验证和独立测试分别达到94.9%和90.9%,而且使用该平台预测的因子能够分类不同的胚胎谱系及其发育轨迹,并对候选谱系特异性基因进行了详细讨论,以探索胚胎异质性的转变。该工具可以快速有效地揭示潜在的谱系特异性和阶段依赖性生物标志物,并为发育生物学研究提供新的见解。
eHSCpr机器学习预测器的搭建及分析流程框架
HSC类似于一棵树干,可以长出树杈、树叶,并开花结果,它是所有血细胞和免疫细胞的起源,它会根据机体的生理需求适时地补充血液系统各个成熟细胞组分。同时在损伤、炎症等应激状态下,造血干细胞也扮演着调节和维持体内血液系统各个细胞组分生理平衡的角色。临床治疗中,HSC移植也被广泛应用于治疗癌症和其他免疫性疾病,而且在大部分白血病,特别是急性髄系白血病以及慢性髄性白血病的发生,都直接或间接与HSC异常相关。
医学上根据HSC的特性将其称为“万用细胞”,因此能够系统全面地了解HSC的早期发育阶段对于体外获得血液研究以及再生医学具有重要的指导意义。基于上述目的,科研团队将单细胞RNA测序数据和临床分子标记整合用于机器学习建模,设计并开发了HSC分化发育阶段预测器“eHSCpr”,它可以有助于更好地帮助临床医学人员理解HSC在发育过程中作出不同的分化命运。
科研团队首先通过F-score算法与三种传统差异基因筛选方法(DESeq2、edgeR、limma)来得到不同的差异基因集,然后分别比较它们在人工智能算法中的建模表现。在多项评估指标下,F-score算法不依赖先验生物学知识的情况下,优于传统的差异基因筛选方法可以更精准地识别HSC发育阶段,而且发现了一些与早期HSC发育相关的新的关键信号基因,最后,我们建立了首个eHSCpr在线预测网站来方便相关科研工作者使用。
https://academic.oup.com/bioinformatics/article/37/15/2157/6126801