日本一道本高清一区二区-色妞熟女午夜福利在线视频-欧美成人情激情免费看-老司机午夜精品免费视频

加快打造原始創(chuàng)新策源地,加快突破關鍵核心技術,努力搶占科技制高點,為把我國建設成為世界科技強國作出新的更大的貢獻。

——習近平總書記在致中國科學院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康,率先實現(xiàn)科學技術跨越發(fā)展,率先建成國家創(chuàng)新人才高地,率先建成國家高水平科技智庫,率先建設國際一流科研機構。

——中國科學院辦院方針

首頁 > 科研進展

深圳先進院提出微生物組數(shù)據(jù)挖掘新方法tmap

2020-01-17 深圳先進技術研究院
【字體:

語音播報

  近日,中國科學院深圳先進技術研究院合成生物學研究所趙國屏課題組(周豪魁為通訊作者,廖天華為第一作者)在微生物組學數(shù)據(jù)挖掘領域取得新突破,相關論文tmap: an integrative framework based on topological data analysis for population-scale microbiome stratification and association studies(《tmap微生物組大數(shù)據(jù)挖掘方法開發(fā)——基于拓撲學數(shù)據(jù)分析的人群分層及宿主表型關聯(lián)分析》)在線發(fā)表在期刊Genome Biology

  隨著高通量多組學技術的發(fā)展,傳統(tǒng)的數(shù)據(jù)分析方法難以在日益復雜、規(guī)模龐大的微生物組數(shù)據(jù)中挖掘出有效可靠的信息,在數(shù)據(jù)集龐大、樣本之間存在各種復雜差異性,微生物組和宿主表型特征之間存在的細微關聯(lián)可能是研究目的所在,但是極易被掩蓋掉。這是對數(shù)據(jù)分析工作的挑戰(zhàn),也對開發(fā)創(chuàng)新性分析方法提出迫切需求。

  本課題組結合mapper算法和網(wǎng)絡富集分析,開發(fā)基于拓撲學數(shù)據(jù)分析(topological data analysis, TDA)tmap軟件,提供了整合大規(guī)模人群微生物組數(shù)據(jù)的分析框架。tmap將不同國家地區(qū)、不同疾病類型和不同宿主表型的人群微生物組大數(shù)據(jù)加以整合,融合不同來源的微生物組及其宿主表型的醫(yī)療健康大數(shù)據(jù),是目前微生物組數(shù)據(jù)共享和整合的創(chuàng)新性方法。這對大規(guī)模人群隊列的數(shù)據(jù)分析而言,不僅歸納總結了數(shù)據(jù)隱含的規(guī)律,也對科學假設的提出,科學問題的提煉有很大幫助。

  本研究中tmap的大致工作流程是將高維微生物組數(shù)據(jù)轉化為拓撲學網(wǎng)絡結構,并用于微生物組人群分層及相關性分析。通過Mapper算法及網(wǎng)絡分析,tmap利用樣本的微生物組數(shù)據(jù)構建TDA網(wǎng)絡結構,并通過SAFE score量化了樣本表型或者物種在一簇樣本中的富集程度?;?span>SAFE score可以實現(xiàn)以下3個分析目的:一是Ranking,即對每個表型或物種的SAFE score之和排序,其含義與linear regression中的effective size類似,但是對線性及非線性的關聯(lián)都可以較好地識別;二是Ordination,SAFE scorePCA,目的為展示一個整體富集規(guī)律(overall enrichment pattern)不僅可以識別對微生物組變化貢獻最大的物種或表型,也可以了解哪些表型或物種的聯(lián)系比較緊密;三是Co-enrichment network,這里的網(wǎng)絡基于物種及表型關聯(lián)的顯著性構建,用于探索其生物學意義上的關聯(lián)或者混雜因素(confounder),需要以研究目的和意義為導向。

  另外,本研究通過對4個數(shù)據(jù)集(包括1個合成數(shù)據(jù)和3個真實世界數(shù)據(jù))對tmap方法加以驗證,結果表明與傳統(tǒng)的線性方法(如envfit, adonis, ADONISM)相比,tmap都表現(xiàn)更好,對非線性關聯(lián)及潛在規(guī)律都有較好的識別。以比利時隊列FGFP為例:2016年發(fā)表在Science,研究內(nèi)容為健康正常人群的腸道微生物組。研究納入了1106個糞便16S rRNA樣本,及樣本的69個宿主表型特征,包括了7metadata類別:社會人口學特征,生活方式,血液指標,健康狀況,飲食習慣,腸道健康狀況及病史用藥情況。文章表明,僅有7.63%的微生物組改變與宿主表型的變化有關。tmap提高了識別并解讀population-scale的微生物組-宿主表型關聯(lián)的能力。如下圖所示,tmap不僅可以較好地復現(xiàn)envfit這種基于線性回歸的方法,也在對非線性變化的捕捉上,比envfit更加靈敏。通過對FGFP數(shù)據(jù)轉化的SAFE score分析,可以得到許多原始文章中沒有挖掘到的規(guī)律和線索。如下圖所示,比如兩種藥物雖然與同一種疾病相關聯(lián),但其對微生物組的影響是不同的,具體表現(xiàn)為在網(wǎng)絡圖上的富集部位不一樣。這都是傳統(tǒng)線性分析難以得到的。

  總的來說,tmap有助于將不同國家地區(qū)、不同疾病類型、不同宿主表型的人群微生物組大數(shù)據(jù)加以整合,對人群做精細分層,為特異性的干預性治療、數(shù)據(jù)來源多樣化的meta分析等研究提供了有效線索。有效融合不同來源的微生物組及其宿主的醫(yī)療健康大數(shù)據(jù),是實現(xiàn)微生物組數(shù)據(jù)共享和整合的創(chuàng)新性方向。其次,tmap不僅可以勝任傳統(tǒng)線性研究對線性關系的刻畫,也對非線性關聯(lián)靈敏,優(yōu)于傳統(tǒng)分析方法。且基于微生物組網(wǎng)絡地圖,可以挖掘基于微生物組變化背景的宿主表型關聯(lián),使表型之間的關系不會與微生物組變化割裂開來。最后,了解不同宿主表型在網(wǎng)絡圖上的分布,捕捉變量之間聯(lián)系及變量自身的重要性排序,對大規(guī)模人群隊列的數(shù)據(jù)分析,不僅歸納總結了現(xiàn)有數(shù)據(jù)規(guī)律,也對科學假設的提出,科學問題的提煉有很大幫助。

  本研究工作得到深圳市科技計劃基金支持。

  論文鏈接

tmap的大致工作流程:將高維微生物組數(shù)據(jù)轉化為拓撲學網(wǎng)絡結構,并用于微生物組人群分層及相關性分析。

  以比利時隊列為例,左圖為關聯(lián)微生物組特征與宿主表型,對宿主表型進行排序。并與傳統(tǒng)envfit方法比較。右圖表現(xiàn)了tmap對線性及非線性關聯(lián)均有良好的捕捉。

  以比利時隊列為例,對疾病和用藥的共富集分析。左圖為關聯(lián)微生物組特征與宿主表型,對宿主表型進行排序。并與傳統(tǒng)envfit方法比較。右圖表現(xiàn)了tmap對線性及非線性關聯(lián)均有良好的捕捉。

打印 責任編輯:葉瑞優(yōu)

掃一掃在手機打開當前頁

© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002

地址:北京市西城區(qū)三里河路52號 郵編:100864

電話: 86 10 68597114(總機) 86 10 68597289(總值班室)

  • © 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864

    電話: 86 10 68597114(總機) 86 10 68597289(總值班室)

  • © 1996 - 中國科學院 版權所有
    京ICP備05002857號-1
    京公網(wǎng)安備110402500047號
    網(wǎng)站標識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864
    電話:86 10 68597114(總機)
       86 10 68597289(總值班室)