碳水化合物活性酶(CAZyme)是復雜碳水化合物代謝的最重要的酶之一,植物細胞壁中的復雜碳水化合物是動物微生物的主要食物來源,在可持續生物能源與生物材料生產原料等方面具有極大的潛能。同時,人類腸道微生物在其基因組中編碼了數百種CAZyme基因,用以降解各種飲食和宿主碳水化合物。
近期,南開大學計算機與控制工程學院張瀚教授課題組在CAZyme相關的生物能源領域中取得一系列研究成果。這些成果包括新一代自動化注釋服務器的開發、深度注釋信息在線數據庫的提供、CAZyme家族系統發育樹構建的提速設計與軟件開發等。此外,張瀚課題組在具有批次效應誤差的生物數據恢復上取得重要進展,所設計方法可較準確預測更細致因子信息,估計真實數據,還原數據真相。以上科研成果以論文形式,連續發表在生物信息學頂級期刊《核酸研究》(Nucleic Acids Research)和《生物信息學》(Bioinformatics)上。
事實上,CAZyme不僅是生物能源中最重要的酶,對人類健康也非常重要。在生物能源領域,隨著測序的植物及植物相關微生物基因組與宏基因組數量越來越龐大,進行CAZyme相關基因組數據挖掘的重要自動化工具研發與資源建設顯得尤為迫切。此外,生物信息數據特別是基因表達數據普遍存在著批次效應引起的誤差,這是令數據使用者非常苦惱的問題。因而預測引起誤差的因子,以消除數據的實驗批次誤差影響,就成為數據科學研究者感興趣的重要問題。
張瀚課題組開發了新一代dbCAN服務器dbCAN2,為新測序CAZyme基因組提供全自動CAZyme功能注釋的免費服務。dbCAN2服務器的設計目標為提供準確的自動化的CAZome(基因組的所有CAZymes)注釋,為此在構造Profile-HMM模型表示CAZyme家族簽名域(signature domain)的基礎上,服務器集成了3個最新工具:可搜索dbCAN-HMM(隱馬爾可夫模型)數據庫的HMMER、可搜索CAZy預注釋CAZyme序列數據庫的DIAMOND、可搜索CAZyme短序列數據庫的HOTPEP。以上3種工具輸出結果的融合可以顯著提高CAZome注釋的準確性。此外,dbCAN2還可處理用戶提交的核苷酸序列,提供預測物理連接的CAZyme基因聚類的服務,這是一個可用于識別微生物基因組或宏基因組中多糖利用位點(PULs)的非常有用的在線工具。用戶可在dbCAN2服務器上提交新的已測序基因組,方便快速地得到其所包含CAZyme的數量與種類等功能注釋信息。新一代服務器dbCAN2將成為CAZym研究人員獲取全自動CAZyme注釋的主要服務器。
同樣對于CAZyme,張瀚課題組建立了提供全面深度注釋信息的在線數據庫dbCAN-SEQ,為5349個細菌基因組提供計算出的CAZyme序列和功能注釋數據。與其他CAZyme資源相比,dbCAN-SEQ給使用者提供如下新功能:允許批量下載所有序列與注釋數據的下載頁面;提供最全面功能注釋數據的各CAZyme注釋頁;根據物種元數據如疾病、生活環境、氧需求、溫度、新陳代謝等方面組織細菌基因組的元數據頁;可識別物理連接的CAZyme酶基因聚類的工具;除此之外,它還提供快速高效數據查詢的強大搜索功能。dbCAN-SEQ作為CAZym研究領域的現有主要生物信息數據庫,將成為用于CAZyme研究的具有重要價值的Web資源。
張瀚課題組還基于Profile隱馬爾可夫模型之間距離矩陣比較的思想,設計了可快速有效構建系統發育樹的方法流程,開發了一套可用于構建蛋白質家族(如碳水化合物活性酶和Pfam clans)系統發育樹的在線服務。
上述研究成果作為3篇論文分別發表于《核酸研究》(Nucleic Acids Research,2018.05.16在線發表,gky418)《核酸研究》(Nucleic Acids Research,2018,46,D516)《生物信息學》(Bioinformatics, 2017,33,1093)。以上論文第一作者分別為張瀚、碩士生黃樂和碩士生霍路陽,南開大學均為第一單位。論文通訊作者為張瀚與美國北伊利諾伊大學生物信息研究室Yanbin Yin副教授。
此外,張瀚課題組提出了檢測生物信息數據中隱含批次效應因子的數據驅動方法?;跀祿寗铀悸?,利用凸優化聚類與半定矩陣分解技術,設計了兩階段批次效應因子預測的非參數方法DASC。它具備識別隱藏的層次批次效應的優點,并提供了可供研究者下載使用的R軟件包(https://github.com/zhanglabNKU/DASC)。與從特征值分解出發的現有經典SVA系列方法不同的是,它對數據分布無特定要求,并大幅提高魯棒性與準確性。此方法與軟件可供實驗數據的使用者用于預測數據中的批次效應誤差,估計真實數據,在數據批次效應處理上具有廣泛的應用價值。該成果作為論文發表在《生物信息學》(Bioinformatics,2018,34,1141),碩士生益海冬為論文第一作者,張瀚為第一通訊作者,南開大學為第一單位。
以上研究工作得到了國家自然科學基金項目海外及港澳學者合作研究基金、天津市應用基礎與前沿技術研究計劃項目的支持。在數據庫研發中,得到論文共同作者南開大學計算機與控制工程學院大數據技術研究所楊征路教授、碩士生吳沛之的合作支持。
張瀚課題組專注于統計機器學習、健康大數據、生物信息大數據分析等研究方向,已發表SCI、EI論文20余篇,其中影響因子大于7的論文7篇。課題組與美國萊斯大學統計與電子計算機系、貝勒醫學院、佐治亞大學、北伊利諾伊大學、普度大學建立了密切的國際學術聯系。
上一篇:為何要大力發展生物能源?
下一篇:生物質能源行業發展前景分析