本發(fā)明涉及生物信息,特別是涉及一種基于特征融合及交叉注意力機(jī)制的抗癌肽預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、癌癥仍然是現(xiàn)代醫(yī)學(xué)面臨的巨大挑戰(zhàn),其種類(lèi)繁多且具有較強(qiáng)的轉(zhuǎn)移性,使其成為人類(lèi)尚未完全征服的惡性疾病。盡管在癌癥治療領(lǐng)域取得了顯著進(jìn)展,并進(jìn)行了多種治療嘗試,但尚未找到一種普遍有效且對(duì)患者友好的治療方法。目前的癌癥治療方法——包括化療、放療、手術(shù)和靶向治療——各有局限性。化療和放療對(duì)身體造成了很大負(fù)擔(dān),且常伴隨嚴(yán)重的副作用,如脫發(fā)和嘔吐。手術(shù)干預(yù)通常無(wú)法清除已轉(zhuǎn)移到身體其他部位的癌細(xì)胞;雖然原發(fā)性腫瘤可以切除,但殘留在周?chē)M織中的孤立腫瘤細(xì)胞可能未被發(fā)現(xiàn)。此外,靶向治療費(fèi)用高昂,僅對(duì)特定類(lèi)型的癌癥有效。
2、近年來(lái),抗癌肽(acps)引起了研究人員的廣泛關(guān)注??拱╇膹V泛存在于各種生物體中,包括哺乳動(dòng)物、兩棲動(dòng)物、昆蟲(chóng)、植物和微生物,并且也可以通過(guò)合成方式獲得。它們通過(guò)與癌細(xì)胞膜的磷脂雙層相互作用,改變細(xì)胞膜的通透性,導(dǎo)致細(xì)胞內(nèi)容物泄漏,從而最終引起細(xì)胞死亡??拱╇脑谀[瘤治療中具有許多優(yōu)勢(shì):它們分子量低、結(jié)構(gòu)簡(jiǎn)單、抗癌活性強(qiáng)、選擇性高;副作用少,可通過(guò)多種途徑給藥,且不易誘發(fā)多藥耐藥性。
3、然而,在大量提取的肽中識(shí)別和發(fā)現(xiàn)抗癌肽通常依賴于傳統(tǒng)方法,如體外細(xì)胞實(shí)驗(yàn)或動(dòng)物實(shí)驗(yàn)。這些方法既耗時(shí),又需要精心設(shè)計(jì)實(shí)驗(yàn)方案、選擇合適的對(duì)照組,并且需要大量的財(cái)力支持。此外,動(dòng)物實(shí)驗(yàn)因其涉及的倫理和道德問(wèn)題,逐漸受到越來(lái)越多的質(zhì)疑。隨著人工智能的飛速發(fā)展,大量基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法被提出,但這些方法嚴(yán)重依賴于傳統(tǒng)的特征編碼技術(shù),需要復(fù)雜的特征工程步驟,提取出來(lái)的特征之間沒(méi)有過(guò)多的關(guān)聯(lián),側(cè)重點(diǎn)較為片面。
4、由此可知,傳統(tǒng)的生物學(xué)實(shí)驗(yàn)方法實(shí)驗(yàn)規(guī)模較大,機(jī)器學(xué)習(xí)方法準(zhǔn)確性較低。因此,傳統(tǒng)的發(fā)現(xiàn)抗癌肽的方式存在效率低、準(zhǔn)確率低且成本較高的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、基于此,為了解決上述技術(shù)問(wèn)題,提供一種基于特征融合及交叉注意力機(jī)制的抗癌肽預(yù)測(cè)方法及系統(tǒng),可以快速、高效、準(zhǔn)確進(jìn)行抗癌肽預(yù)測(cè)。
2、一種基于特征融合及交叉注意力機(jī)制的抗癌肽預(yù)測(cè)方法,所述方法包括:
3、從數(shù)據(jù)庫(kù)中收集抗癌肽序列、非抗癌肽序列構(gòu)建為包含有各個(gè)蛋白質(zhì)序列的數(shù)據(jù)集;
4、將所述蛋白質(zhì)序列輸入至蛋白質(zhì)語(yǔ)言模型esm-2中,通過(guò)transformer編碼器提取所述蛋白質(zhì)序列中的肽類(lèi)結(jié)構(gòu)特征;
5、將所述蛋白質(zhì)序列輸入至特征提取模型中,通過(guò)所述特征提取模型提取出所述蛋白質(zhì)序列中的肽類(lèi)物理化學(xué)特征;
6、對(duì)所述肽類(lèi)結(jié)構(gòu)特征進(jìn)行維度變換處理,得到處理后的肽類(lèi)結(jié)構(gòu)特征;使用bilstm將離散的肽類(lèi)物理化學(xué)特征連續(xù)化,得到連續(xù)化的肽類(lèi)物理化學(xué)特征;
7、使用交叉注意力機(jī)制將所述處理后的肽類(lèi)結(jié)構(gòu)特征、連續(xù)化的肽類(lèi)物理化學(xué)特征進(jìn)行特征融合,得到目標(biāo)特征;
8、將所述目標(biāo)特征輸入至多層感知機(jī)mlp中,得到抗癌肽預(yù)測(cè)結(jié)果。
9、在其中一個(gè)實(shí)施例中,從數(shù)據(jù)庫(kù)中收集抗癌肽序列、非抗癌肽序列構(gòu)建為包含有各個(gè)蛋白質(zhì)序列的數(shù)據(jù)集,包括:
10、從數(shù)據(jù)庫(kù)中收集經(jīng)過(guò)試驗(yàn)驗(yàn)證的抗癌肽序列,使用cd-hit工具對(duì)所述抗癌肽序列進(jìn)行去冗余處理,并進(jìn)行過(guò)濾得到最終的抗癌肽序列;
11、隨機(jī)采集非抗癌肽序列,使用同源性偏差去除和pssm提取標(biāo)準(zhǔn),從所述非抗癌肽序列中提取出最終的非抗癌肽序列;
12、分別從所述最終的抗癌肽序列、最終的非抗癌肽序列中隨機(jī)選擇抗癌肽序列、非抗癌肽序列構(gòu)建為包含有各個(gè)蛋白質(zhì)序列的數(shù)據(jù)集。
13、在其中一個(gè)實(shí)施例中,將所述蛋白質(zhì)序列輸入至蛋白質(zhì)語(yǔ)言模型esm-2中,通過(guò)transformer編碼器提取所述蛋白質(zhì)序列中的肽類(lèi)結(jié)構(gòu)特征,包括:
14、將所述蛋白質(zhì)序列輸入至蛋白質(zhì)語(yǔ)言模型esm-2中,通過(guò)所述蛋白質(zhì)語(yǔ)言模型將所述蛋白質(zhì)序列轉(zhuǎn)化為數(shù)值向量表示;
15、將所述數(shù)值向量表示輸入至所述蛋白質(zhì)語(yǔ)言模型esm-2中的transformer編碼器中;
16、通過(guò)所述transformer編碼器中的點(diǎn)乘注意力機(jī)制和線性層進(jìn)行計(jì)算,得到肽類(lèi)結(jié)構(gòu)特征。
17、在其中一個(gè)實(shí)施例中,將所述蛋白質(zhì)序列輸入至特征提取模型中,通過(guò)所述特征提取模型提取出所述蛋白質(zhì)序列中的肽類(lèi)物理化學(xué)特征,包括:
18、將所述蛋白質(zhì)序列輸入至特征提取模型中,使用所述特征提取模型中的獨(dú)熱編碼將所述蛋白質(zhì)序列中的每個(gè)氨基酸都通過(guò)一熱編碼進(jìn)行表示,得到與所述蛋白質(zhì)序列對(duì)應(yīng)的二進(jìn)制向量;
19、通過(guò)所述特征提取模型,計(jì)算所述蛋白質(zhì)序列中各個(gè)氨基酸所有元素質(zhì)量的總和,并將所述元素質(zhì)量的總和作為分子量;
20、獲取所述蛋白質(zhì)序列中氨基酸的酸堿值,根據(jù)所述酸堿值計(jì)算得到等電點(diǎn);
21、計(jì)算所述蛋白質(zhì)序列中氨基酸疏水基團(tuán)的數(shù)量和性質(zhì),基于所述疏水基團(tuán)的數(shù)量和性質(zhì)確定氨基酸疏水性;
22、將所述二進(jìn)制向量、分子量、等電點(diǎn)、疏水性作為蛋白質(zhì)序列中的肽類(lèi)物理化學(xué)特征。
23、在其中一個(gè)實(shí)施例中,對(duì)所述肽類(lèi)結(jié)構(gòu)特征進(jìn)行維度變換處理,得到處理后的肽類(lèi)結(jié)構(gòu)特征;使用bilstm將離散的肽類(lèi)物理化學(xué)特征連續(xù)化,得到連續(xù)化的肽類(lèi)物理化學(xué)特征,包括:
24、將所述肽類(lèi)結(jié)構(gòu)特征輸入至線性層中進(jìn)行維度變換處理,得到處理后的肽類(lèi)結(jié)構(gòu)特征;
25、將所述肽類(lèi)物理化學(xué)特征輸入至雙向長(zhǎng)短期記憶網(wǎng)絡(luò)bilstm中,通過(guò)bilstm捕獲所述肽類(lèi)物理化學(xué)特征中長(zhǎng)序列的長(zhǎng)距離依賴關(guān)系,完成肽類(lèi)物理化學(xué)特征連續(xù)化,得到連續(xù)化的肽類(lèi)物理化學(xué)特征。
26、在其中一個(gè)實(shí)施例中,使用交叉注意力機(jī)制將所述處理后的肽類(lèi)結(jié)構(gòu)特征、連續(xù)化的肽類(lèi)物理化學(xué)特征進(jìn)行特征融合,得到目標(biāo)特征,包括:
27、通過(guò)交叉注意力機(jī)制使用所述處理后的肽類(lèi)結(jié)構(gòu)特征、連續(xù)化的肽類(lèi)物理化學(xué)特征分別生成查詢矩陣、鍵矩陣、值矩陣;
28、確定所述處理后的肽類(lèi)結(jié)構(gòu)特征、連續(xù)化的肽類(lèi)物理化學(xué)特征對(duì)應(yīng)的鍵向量維度;
29、根據(jù)所述查詢矩陣、鍵矩陣、值矩陣、鍵向量維度計(jì)算出交叉注意力;
30、基于所述交叉注意力完成所述處理后的肽類(lèi)結(jié)構(gòu)特征、連續(xù)化的肽類(lèi)物理化學(xué)特征的特征融合,得到目標(biāo)特征。
31、在其中一個(gè)實(shí)施例中,所述方法還包括:
32、將所述目標(biāo)特征輸入至transformer架構(gòu)中,通過(guò)所述transformer架構(gòu)中的多頭自注意力機(jī)制為每個(gè)位置計(jì)算查詢向量、鍵向量、值向量;
33、對(duì)所述查詢向量、鍵向量、值向量進(jìn)行加權(quán)平均計(jì)算,得到加權(quán)特征;
34、使用前饋神經(jīng)網(wǎng)絡(luò)對(duì)所述加權(quán)特征進(jìn)行逐位置的非線性轉(zhuǎn)換。
35、在其中一個(gè)實(shí)施例中,將所述目標(biāo)特征輸入至多層感知機(jī)mlp中,得到抗癌肽預(yù)測(cè)結(jié)果,包括:
36、將所述目標(biāo)特征輸入至多層感知機(jī)mlp的輸入層中,通過(guò)所述多層感知機(jī)mlp中的隱藏層和線性層進(jìn)行結(jié)果預(yù)測(cè);
37、將預(yù)測(cè)結(jié)果從所述多層感知機(jī)mlp的輸出層輸出,得到抗癌肽預(yù)測(cè)結(jié)果。
38、一種基于特征融合及交叉注意力機(jī)制的抗癌肽預(yù)測(cè)系統(tǒng),所述系統(tǒng)包括:
39、數(shù)據(jù)收集模塊,用于從數(shù)據(jù)庫(kù)中收集抗癌肽序列、非抗癌肽序列構(gòu)建為包含有各個(gè)蛋白質(zhì)序列的數(shù)據(jù)集;
40、結(jié)構(gòu)特征提取模塊,用于將所述蛋白質(zhì)序列輸入至蛋白質(zhì)語(yǔ)言模型esm-2中,通過(guò)transformer編碼器提取所述蛋白質(zhì)序列中的肽類(lèi)結(jié)構(gòu)特征;
41、其他特征提取模塊,用于將所述蛋白質(zhì)序列輸入至特征提取模型中,通過(guò)所述特征提取模型提取出所述蛋白質(zhì)序列中的肽類(lèi)物理化學(xué)特征;
42、特征處理模塊,用于對(duì)所述肽類(lèi)結(jié)構(gòu)特征進(jìn)行維度變換處理,得到處理后的肽類(lèi)結(jié)構(gòu)特征;使用bilstm將離散的肽類(lèi)物理化學(xué)特征連續(xù)化,得到連續(xù)化的肽類(lèi)物理化學(xué)特征;
43、特征融合模塊,用于使用交叉注意力機(jī)制將所述處理后的肽類(lèi)結(jié)構(gòu)特征、連續(xù)化的肽類(lèi)物理化學(xué)特征進(jìn)行特征融合,得到目標(biāo)特征;
44、預(yù)測(cè)模塊,用于將所述目標(biāo)特征輸入至多層感知機(jī)mlp中,得到抗癌肽預(yù)測(cè)結(jié)果。
45、在其中一個(gè)實(shí)施例中,所述數(shù)據(jù)收集模塊,還用于從數(shù)據(jù)庫(kù)中收集經(jīng)過(guò)試驗(yàn)驗(yàn)證的抗癌肽序列,使用cd-hit工具對(duì)所述抗癌肽序列進(jìn)行去冗余處理,并進(jìn)行過(guò)濾得到最終的抗癌肽序列;隨機(jī)采集非抗癌肽序列,使用同源性偏差去除和pssm提取標(biāo)準(zhǔn),從所述非抗癌肽序列中提取出最終的非抗癌肽序列;分別從所述最終的抗癌肽序列、最終的非抗癌肽序列中隨機(jī)選擇抗癌肽序列、非抗癌肽序列構(gòu)建為包含有各個(gè)蛋白質(zhì)序列的數(shù)據(jù)集。
46、上述基于特征融合及交叉注意力機(jī)制的抗癌肽預(yù)測(cè)方法及系統(tǒng),通過(guò)使用蛋白質(zhì)語(yǔ)言模型提取肽類(lèi)結(jié)構(gòu)特征,使用傳統(tǒng)的特征提取模型提取肽類(lèi)物理化學(xué)特征,使用交叉注意力機(jī)制進(jìn)行特征融合,最后基于多層感知機(jī)mlp得到抗癌肽預(yù)測(cè)結(jié)果,無(wú)需耗時(shí)提供高成本,也不會(huì)涉及倫理道德問(wèn)題,且提取出來(lái)的特征相互關(guān)聯(lián),可以快速、高效、準(zhǔn)確進(jìn)行抗癌肽預(yù)測(cè)。