蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當(dāng)前位置: 首頁» 新聞中心» 科研進(jìn)展

基因組所研發(fā)出新型轉(zhuǎn)錄組定量方法

2023-09-07 02:45:57來源:

【字體:

  


近日,,《生物信息學(xué)簡(jiǎn)報(bào)(Briefings in Bioinformatics)》 在線發(fā)表了基因組所易會(huì)廣課題組聯(lián)合南方科技大學(xué)的研究論文,題為“A fast and globally optimal solution for RNA-seq quantification(核糖核酸測(cè)序定量的一種快速且全局最優(yōu)的解決方案)”。該研究開發(fā)了一種新型RNA-seq(核糖核酸測(cè)序)定量方法TQSLE, 可準(zhǔn)確定量序列高度相似的轉(zhuǎn)錄本的表達(dá)水平,尤其是當(dāng)不同轉(zhuǎn)錄本包含了拷貝數(shù)不同(CNVs)的重復(fù)序列片段時(shí),TQSLE是目前唯一的能給出準(zhǔn)確轉(zhuǎn)錄本表達(dá)定量的非基于序列比對(duì)(Alignment-free)的方法,。



基于RNA-seq的轉(zhuǎn)錄本或基因表達(dá)定量(簡(jiǎn)稱RNA-seq定量)在生物醫(yī)學(xué)領(lǐng)域中具有極其廣泛的應(yīng)用,例如發(fā)現(xiàn)表型關(guān)聯(lián)基因、組織中的細(xì)胞類型分類以及研究疾病進(jìn)程等,。RNA-seq定量的核心流程是:1)預(yù)先對(duì)已知的參考轉(zhuǎn)錄組序列進(jìn)行索引。2)對(duì)于每個(gè)樣本的RNA-seq數(shù)據(jù),,將RNA-seq序列讀段(reads)或者序列讀段的K-子串(Kmer)映射到參考轉(zhuǎn)錄組序列上,,通過計(jì)算、統(tǒng)計(jì)推斷方法估算出各參考轉(zhuǎn)錄本的表達(dá)量,。根據(jù)reads/Kmer映射的策略不同,,RNA-seq定量方法可分為基于序列比對(duì)的(Alignment-based)和非序列比對(duì)的(Alignment-free)兩類。Alignment-based的方法在一些情況下映射更為精確,,但Alignment-free 的方法比Alignment-based的方法通??鞌?shù)十倍,,更適合于高通量RNA-seq數(shù)據(jù)的分析。


由于存在著序列極其相似的不同參考轉(zhuǎn)錄本,,一部分RNA-seq reads(或Kmer)無法唯一地映射到其來源轉(zhuǎn)錄本上(稱之映射不確定性),,從而令通過映射reads的計(jì)數(shù)進(jìn)行轉(zhuǎn)錄本定量這一簡(jiǎn)單想法變得不可行。此前的RNA-seq定量方法,,如RSEM,、Kallisto、Salmon等使用最大期望(Expectation-maximization algorithm,,簡(jiǎn)稱EM)算法來解決映射不確定性問題,。但EM算法只保證局部最優(yōu)解而非全局最優(yōu)解。尤其是對(duì)映射較不精確的Alignment-free 的方法如Kallisto,、Salmon等,,EM算法的誤差可能被進(jìn)一步放大。


因此,,研究人員開發(fā)了一種非基于EM算法且非序列比對(duì)的方法 TQSLE,,為RNA-seq定量提供一個(gè)快速且全局最優(yōu)解(下載地址:https://github.com/yhg926/TQSLE)。在參考轉(zhuǎn)錄組索引這一步,,TQSLE構(gòu)建一個(gè)Kmer頻率矩陣 A,,矩陣 A的每一行表示一種存在的Kmer,每一列表示一個(gè)參考轉(zhuǎn)錄本,,值A(chǔ)ij表示Kmer i在轉(zhuǎn)錄本j中出現(xiàn)的次數(shù),,并可根據(jù)預(yù)設(shè)的RNA-seq偏倚模型賦權(quán)。 在RNA-seq序列映射這一步,,TQSLE構(gòu)建一個(gè)Kmer頻率向量 b,,其值bi 表示Kmer i在RNA-seq中的出現(xiàn)的次數(shù)。通過求解線性方程組 Ax = b 即可求得轉(zhuǎn)錄本表達(dá)量 x(圖1),。



圖1|TQSLE算法原理


先前研究已發(fā)現(xiàn)非序列比對(duì)的RNA-seq定量方法難以對(duì)基因ENSG00000205944的9個(gè)相似轉(zhuǎn)錄本進(jìn)行準(zhǔn)確定量,。本研究模擬了ENSG00000205944 RNA-seq數(shù)據(jù),并用包括TQSLE的各種方法進(jìn)行定量,,發(fā)現(xiàn)只有TQSLE和RSEM的定量結(jié)果是可靠的,。進(jìn)一步研究表明,ENSG00000205944的不同轉(zhuǎn)錄本含有拷貝數(shù)不同的重復(fù)序列(CNVs),,并且重復(fù)序列之間略有差異,,據(jù)此,研究人員提出了一個(gè)猜想來解釋這個(gè)結(jié)果:不同轉(zhuǎn)錄本含有拷貝數(shù)不同的重復(fù)序列(CNVs),,如果拷貝是完美無突變的,,理論上將導(dǎo)致所有基于EM算法的方法(即除TQSEL外的所有方法:RSEM,Kalliso,,Sailfish和Salmon)失效,,但若拷貝有少量突變,,那么基于比對(duì)的RSEM法也能準(zhǔn)確定量。為了驗(yàn)證這個(gè)假設(shè),,研究人員構(gòu)造了兩個(gè)參考轉(zhuǎn)錄本A 和 B,,其中A含有2個(gè)單元序列的拷貝,B含有3個(gè)單元序列的拷貝,。在A+B的模擬RNA-seq數(shù)據(jù)上,,只有TQSLE能夠準(zhǔn)確定量,所有基于EM算法的RNA-seq定量法,,包括RSEM都失敗了,。接著,在轉(zhuǎn)錄本B的第三個(gè)單元序列上引入點(diǎn)突變打破完美CNVs,,構(gòu)造轉(zhuǎn)錄本B’,。 在A+B’的模擬RNA-seq數(shù)據(jù)上,只有TQSLE和RSEM可以準(zhǔn)確定量,,而所有的基于EM算法的非序列比對(duì)法都失敗了,。從而證實(shí)了上述猜想的正確性,并展示了基于EM算法的RNA-seq定量法的局限性,。



圖2|在相似轉(zhuǎn)錄本的模擬RNA-seq數(shù)據(jù)上TQSLE與其它方法的定量準(zhǔn)確度


研究還比較了TQSLE和其他方法在SEQC HRR樣本混合前后的RNA-seq定量的一致性。SEQC HRR實(shí)驗(yàn)樣本包含A,、B,、C三個(gè)樣本,其中C由A和B按3:1比例混合而成,,每個(gè)樣本5個(gè)重復(fù),,共15個(gè)樣本。因此,,理論上表達(dá)量服從理論模型C ~ 0.75 × A + 0.25 × B,。研究發(fā)現(xiàn),TQSLE較之其他方法得到的定量與理論模型擬合的更好,。


圖3|TQSLE與其它方法在SEQC實(shí)驗(yàn)樣本混合前后一致性的比較



基因組所副研究員易會(huì)廣和南方科技大學(xué)生物系碩士生林彥靈(已畢業(yè))為該論文的第一作者,,基因組所副研究員易會(huì)廣和南方科技大學(xué)生物系副教授靳文菲為該論文的通訊作者,基因組所易會(huì)廣課題組科研助理常青參與了該研究,。該研究得到深圳市基礎(chǔ)研究機(jī)構(gòu)專項(xiàng),、深圳市博士后出站科研資助、深圳市大鵬新區(qū)博士后出站科研資助及中國(guó)國(guó)家自然科學(xué)基金的資助,。





TOP TOP