納米孔測(cè)序“僵尸數(shù)據(jù)”困境破局!復(fù)旦大學(xué)聯(lián)合新華醫(yī)院推出LongBow算法
納米孔測(cè)序技術(shù)憑借其長(zhǎng)讀長(zhǎng)、可直接檢測(cè)堿基修飾以及實(shí)時(shí)測(cè)序等優(yōu)勢(shì),正在深刻改變生命科學(xué)與醫(yī)學(xué)研究的格局。然而,在目前公開的超70萬組數(shù)據(jù)中,約85%因缺乏關(guān)鍵元數(shù)據(jù)——特別是測(cè)序芯片類型與堿基識(shí)別配置信息——而成為難以有效利用的"僵尸數(shù)據(jù)"。
近日,上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院與復(fù)旦大學(xué)合作開發(fā)的LongBow算法成功破解了這一技術(shù)難題。該創(chuàng)新算法僅需通過FASTQ文件中的質(zhì)量值(QV)即可精準(zhǔn)還原測(cè)序芯片類型與堿基識(shí)別配置信息。經(jīng)多類樣本測(cè)試驗(yàn)證,LongBow的識(shí)別準(zhǔn)確率超過95%。研究團(tuán)隊(duì)還同步構(gòu)建了配套數(shù)據(jù)庫(kù)LongBowDB,為科研人員提供高效的數(shù)據(jù)查詢支持。此外,LongBow還有效解決了納米孔測(cè)序相關(guān)研究的可重復(fù)性危機(jī),填補(bǔ)了納米孔測(cè)序數(shù)據(jù)再利用的關(guān)鍵技術(shù)空白。該工具為基于納米孔測(cè)序的大數(shù)據(jù)研究打下了堅(jiān)實(shí)的基礎(chǔ)。?
相對(duì)于傳統(tǒng)的短讀長(zhǎng)二代測(cè)序,納米孔測(cè)序具有長(zhǎng)讀長(zhǎng)、能直接檢測(cè)堿基修飾、以及實(shí)時(shí)測(cè)序等眾多優(yōu)勢(shì),對(duì)生命科學(xué)與醫(yī)學(xué)研究帶來了革命性的影響。隨著納米孔測(cè)序技術(shù)近年來的廣泛應(yīng)用,公共數(shù)據(jù)庫(kù)中已經(jīng)累計(jì)了大量數(shù)據(jù),僅SRA數(shù)據(jù)庫(kù)中就有超過70萬組數(shù)據(jù)發(fā)表。若能有效整合這些數(shù)據(jù),將極大的推動(dòng)基因組學(xué)、表觀遺傳學(xué)、醫(yī)學(xué)基因檢測(cè)、以及生物醫(yī)學(xué)AI大模型的發(fā)展。然而令人遺憾的是,由于關(guān)鍵元數(shù)據(jù)的缺失,大多數(shù)(約85%)的公開納米孔測(cè)序數(shù)據(jù)都是難以直接利用的“僵尸數(shù)據(jù)”。
納米孔測(cè)序中最基礎(chǔ)也是最容易被忽略的元數(shù)據(jù)就是測(cè)序芯片類型(flowcell type)以及堿基識(shí)別(basecaller)算法的配置信息,其中包括堿基識(shí)別軟件的版本以及堿基識(shí)別模式等參數(shù)。由于這些元數(shù)據(jù)會(huì)對(duì)測(cè)序數(shù)據(jù)的錯(cuò)誤率以及錯(cuò)誤模式產(chǎn)生重大影響,因此絕大多數(shù)下游分析軟件,如變異檢測(cè)、基因組組裝、以及單倍型分型等,都需要直接或間接的將芯片類型與堿基識(shí)別算法的配置信息作為輸入(表1)。如果使用錯(cuò)誤的參數(shù)進(jìn)行分析,可能會(huì)導(dǎo)致準(zhǔn)確率下降高達(dá)50%(圖1d-g)。?
表1.?需要將芯片類型與堿基識(shí)別算法的配置信息作為輸入的常用軟件
圖1.?測(cè)序芯片類型與堿基識(shí)別算法的配置信息對(duì)下游分析算法有重大影響,但是大多數(shù)公開納米孔測(cè)序數(shù)據(jù)都缺少這些信息。
針對(duì)上述問題,本文作者提出了一種名為L(zhǎng)ongBow(Lucid Dorado and?Guppy?Basecaller configuration predictor)的算法,能夠根據(jù)FASTQ文件中堿基質(zhì)量分?jǐn)?shù)(QV)準(zhǔn)確預(yù)測(cè)納米孔測(cè)序的關(guān)鍵元數(shù)據(jù)——測(cè)序芯片類型與堿基識(shí)別算法配置信息。LongBow是一種層級(jí)啟發(fā)式的算法,只使用FASTQ文件中的測(cè)序質(zhì)量值(QV)作為輸入,使用三層分類模型分別還原測(cè)序信息的不同部分(圖2)。在LongBow模型中,第一層使用QV值的最大值區(qū)分目前主流的兩種堿基識(shí)別軟件(Guppy/Dorado);第二層使用QV值的百分比分布特征預(yù)測(cè)出相應(yīng)的測(cè)序芯片版本(R9/R10)和堿基識(shí)別軟件的版本(例如Guppy4,Guppy6);在第三層中使用QV值的自相關(guān)性精細(xì)區(qū)分具體的堿基識(shí)別模式(FAST/HAC/SUP)。
圖2. LongBow的工作原理與流程
本文作者基于44個(gè)物種的66組納米孔測(cè)序數(shù)據(jù)進(jìn)行了測(cè)試。獨(dú)立測(cè)試集涵蓋動(dòng)物、植物、細(xì)菌和病毒等不同生物類群,并包含基因組DNA、游離DNA、細(xì)胞器DNA及宏基因組等多種測(cè)序類型。結(jié)果表明,LongBow在這些多樣化數(shù)據(jù)集上的準(zhǔn)確率可達(dá)95.33%。作者還在1989組關(guān)聯(lián)文章報(bào)道了測(cè)序芯片類型與堿基識(shí)別算法配置信息的人類納米孔測(cè)序數(shù)據(jù)上進(jìn)行了測(cè)試,LongBow的預(yù)測(cè)結(jié)果與文章報(bào)道的一致性為91.45%。此外,作者還利用LongBow對(duì)SRA數(shù)據(jù)庫(kù)中所有人類納米孔測(cè)序數(shù)據(jù)進(jìn)行了預(yù)測(cè),并基于預(yù)測(cè)結(jié)果構(gòu)建了LongBowDB數(shù)據(jù)庫(kù)(圖3),為研究人員提供便捷的查詢服務(wù)。
圖3.?LongBowDB界面
除了會(huì)影響納米孔測(cè)序的大數(shù)據(jù)挖掘以外,公開數(shù)據(jù)與文獻(xiàn)中缺少測(cè)序芯片類型與堿基識(shí)別算法配置信息還影響了相關(guān)研究的可靠性與可重復(fù)性,造成了嚴(yán)重的可重復(fù)性危機(jī)。嚴(yán)格意義上講,所有缺少測(cè)序芯片類型與堿基識(shí)別算法配置信息的研究工作都是不可重復(fù)的。作者發(fā)現(xiàn)COG-UK項(xiàng)目涉及了超過10萬組新冠病毒基因組納米孔測(cè)序數(shù)據(jù),其中絕大多數(shù)數(shù)據(jù)未披露測(cè)序芯片與堿基識(shí)別算法配置信息,因此相關(guān)研究工作報(bào)道的結(jié)果是無法從原始測(cè)序數(shù)據(jù)開始重復(fù)的。作者按照COG-UK文章中的算法與代碼,隨機(jī)填寫測(cè)序芯片與堿基識(shí)別算法配置信息,結(jié)果發(fā)現(xiàn)基因組變異檢測(cè)的準(zhǔn)確率下降了近10%,完全無法重復(fù)文章報(bào)道的結(jié)果。然而,使用LongBow預(yù)測(cè)的結(jié)果作為輸入,則能夠得到與原文相近的準(zhǔn)確率。
綜上所述,LongBow作為一種創(chuàng)新的大數(shù)據(jù)挖掘基礎(chǔ)算法,通過從納米孔測(cè)序數(shù)據(jù)的FASTQ文件中提取堿基質(zhì)量值(QV)模式,高效準(zhǔn)確地推斷出關(guān)鍵的元數(shù)據(jù)——測(cè)序芯片類型(如R9/R10)和堿基識(shí)別器配置(如Guppy/Dorado),解決了當(dāng)前大規(guī)模挖掘納米孔測(cè)序數(shù)據(jù)的痛點(diǎn)問題。其創(chuàng)新性體現(xiàn)在:1)首次實(shí)現(xiàn)了無需原始測(cè)序日志即可還原分析必需參數(shù),突破了大規(guī)模納米孔測(cè)序數(shù)據(jù)深度挖掘的技術(shù)瓶頸;2)配套開發(fā)的LongBowDB數(shù)據(jù)庫(kù)為SRA中所有人源納米孔測(cè)序數(shù)據(jù)提供便捷查詢服務(wù),顯著提升了數(shù)據(jù)復(fù)用性;3)在COG-UK新冠病毒測(cè)序項(xiàng)目中的實(shí)踐表明,基于LongBow的變異檢測(cè)能發(fā)現(xiàn)更多功能重要的基因組變異,直接解決了納米孔測(cè)序研究中的可重復(fù)性問題。該工具為群體基因組學(xué)、病原體監(jiān)測(cè)和進(jìn)化研究提供了不可或缺的分析基礎(chǔ)。
復(fù)旦大學(xué)生命科學(xué)學(xué)院博士生孟子鈞和上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院陳文雋為本文共同第一作者。上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院馮智星、余永國(guó)、孫錕教授與復(fù)旦大學(xué)生命科學(xué)學(xué)院馮會(huì)娟青年研究員為本文的共同通訊作者。
LongBow GitHub鏈接:https://github.com/JMencius/longbow
LongBowDB鏈接:https://jmencius.github.io/LongBowDB/
論文原文:Mencius, J., Chen, W., Zheng, Y.et al.?Restoring flowcell type and basecaller configuration from FASTQ files of nanopore sequencing data.?Nat Commun?16, 4102 (2025).?https://doi.org/10.1038/s41467-025-59378-x
-
投融資
-
并購(gòu)
-
科技前沿
-
項(xiàng)目成果