本發(fā)明涉及用于對抗原結(jié)合蛋白例如b細(xì)胞受體、抗體和t細(xì)胞受體進(jìn)行工程化(engineering)的方法,其通過進(jìn)行以下來實(shí)現(xiàn):確定候選可變鏈配對是否可能具有功能性,例如確定候選重鏈-輕鏈對或候選α-β或γ-δ鏈對是否可能具有功能性,或者鑒定可能與輸入鏈(例如輕/重鏈、β/α鏈、δ/γ鏈)形成功能性配對的候選可變鏈(例如重/輕鏈、α/β鏈、γ/δ鏈)。本發(fā)明還涉及提供來源于輸入可變鏈(例如b細(xì)胞受體/抗體重鏈或輕鏈)的抗原結(jié)合蛋白(例如治療性抗體)的方法。
背景技術(shù):
1、有效的體液免疫需要能夠通過其b細(xì)胞受體(b?cell?receptor,bcr)結(jié)合不同的抗原的多種多樣的b細(xì)胞。據(jù)估計(jì),人中bcr庫的理論總大小高達(dá)約1015種變體,其中約109種變體在任何時候在單個個體中流通[rees,2020]。bcr包含兩對的兩條蛋白質(zhì)鏈:兩條重鏈和兩條輕鏈。每個b細(xì)胞均表達(dá)重鏈和輕鏈對(可能是唯一的)以形成其bcr,所述bcr在其表面上表達(dá),或作為抗體分泌。超過6億條不同的人重鏈序列和約7000萬條輕鏈序列目前被編入observed?antibody?space[kovaltsuk?et?al.,2018]。表征個體的bcr集合(也稱為個體的bcr庫)已被證明是理解多種疾病的生物學(xué)[vander?heiden?et?al.,2017;bashford-rogers?et?al,2019;nielsen?et?al.,2020;simonich?et?al.,2019]和發(fā)現(xiàn)新的治療性抗體藥物[krawczyk?et?al.,2019;galson?et?al.,2020]的有價值的工具。
2、有兩種主要方法來表征個體的bcr庫:單個b細(xì)胞的測序和大量b細(xì)胞群體(bulk?bcell?population)的測序。單細(xì)胞測序更常用于抗體發(fā)現(xiàn)應(yīng)用,因?yàn)槠浔A袅酥劓溑c輕鏈之間的配對信息。然而,單細(xì)胞測序具有有限的通量,并且不同的平臺和方案在其單一樣品中存在的bcr庫的覆蓋方面不同。即使最先進(jìn)的微流控系統(tǒng)通常也僅能復(fù)原約104個b細(xì)胞/樣品的序列[king?et?al.,2021;eccles?et?al.,2020;setliff?et?al.,2019]。人通常具有約106個b細(xì)胞/毫升血液[mora?and?walczak,2019],這意味著單細(xì)胞方法無法表征即使是小樣品的完整b細(xì)胞多樣性。另外,與批量測序相比,單細(xì)胞測序具有非常特殊的樣品要求(例如,細(xì)胞通常必須保持存活直至被處理,因此需要在收集當(dāng)天處理的新鮮樣品,或者根據(jù)特定方案冷凍的新鮮樣品)、非常高的成本/樣品(單細(xì)胞測序比批量測序至少貴一個數(shù)量級),并且需要專用的實(shí)驗(yàn)室設(shè)備(equipment)。
3、對大量b細(xì)胞群體進(jìn)行測序可以更容易地復(fù)原約107個b細(xì)胞序列/樣品[brineyet?al.,2019],這與個體中的預(yù)期多樣性顯著接近。然而,由于b細(xì)胞在文庫制備期間被裂解,因此沒有保留重鏈-輕鏈配對信息。通常來說,這些大量bcr測序方法僅關(guān)注重鏈,因?yàn)槠湓诳乖Y(jié)合中發(fā)揮主導(dǎo)作用,并且比輕鏈庫更加多樣化[kovaltsuk?et?al.,2018]。然而,對于抗體發(fā)現(xiàn),有必要具有抗體的重鏈和輕鏈二者,以便可以合成抗體并功能表征抗體。輕鏈配對信息的缺口(gap)促進(jìn)了計(jì)算配對方法的發(fā)展[reddy?etal.,2010,zhu?etal.,2013,raybould?et?al.,2021,rakocevic?et?al.,2021]。然而,這些僅限于特定的數(shù)據(jù)集和這些數(shù)據(jù)集中的一些特定序列。
4、類似地,細(xì)胞免疫需要能夠通過其t細(xì)胞受體(t?cell?receptor,tcr)結(jié)合不同抗原的多種多樣的t細(xì)胞。據(jù)估計(jì),人中tcr庫的總大小包含高達(dá)約1015種獨(dú)特的αβt細(xì)胞受體(tcr)對[carter?et?al.,2019]。雖然已經(jīng)開發(fā)了配對αβtcr測序的實(shí)驗(yàn)方法(包括單細(xì)胞方法[zheng?et?al.,2017]和基于多細(xì)胞去卷積的方法[howie?et?al.,2015]),但這些方法仍然是專門的并且在通量上受到限制。因此,大多數(shù)可用的tcr庫知識是基于單鏈庫(主要是β鏈庫)的批量測序。這在本質(zhì)上是有限的,尤其是因?yàn)橐呀?jīng)表明αtcr鏈和βtcr鏈二者均參與同種異體反應(yīng)性和抗原特異性[carter?et?al.,2019]。
5、因此,仍然需要用于從不包含這種配對信息的數(shù)據(jù)中鑒定鏈對,例如bcr重鏈-輕鏈對或tcrαβ鏈對的改進(jìn)的方法。
技術(shù)實(shí)現(xiàn)思路
1、鑒定bcr重鏈-輕鏈對的問題遠(yuǎn)非微不足道。事實(shí)上,bcr庫的多樣性產(chǎn)生了巨大的檢索空間。另外,雖然數(shù)種重鏈-輕鏈組合可產(chǎn)生穩(wěn)定的bcr(該觀察結(jié)果已導(dǎo)致一些人推測配對可能是隨機(jī)的[glanville?et?al.,2009;jayaram?et?al.,2012;dekosky?et?al.,2016]),但僅有限數(shù)目的配對產(chǎn)生能夠結(jié)合其靶抗原的功能性bcr[teplyakov?et?al.,2016;ling?et?al.,2018]。這表明功能性配對是非隨機(jī)的,但是功能性配對的決定因素被可能穩(wěn)定但非功能性的配對的數(shù)目所掩蓋。在實(shí)踐中,這意味著即使可以預(yù)測穩(wěn)定的對,但發(fā)現(xiàn)特定重鏈的正確輕鏈也是具有挑戰(zhàn)性的,因?yàn)檫@將產(chǎn)生大量需要實(shí)驗(yàn)驗(yàn)證的方案,并且如果主要基于穩(wěn)定性進(jìn)行選擇,則預(yù)期將很難驗(yàn)證。
2、已經(jīng)提出了多種不同的計(jì)算方法,每種方法均具有數(shù)個顯著的缺點(diǎn)。第一種方法基于在獨(dú)立測序時匹配bcr重鏈和輕鏈的相對頻率[reddy?etal.,2010]。在這項(xiàng)研究中,首先對小鼠進(jìn)行免疫接種以產(chǎn)生強(qiáng)烈的免疫應(yīng)答,并隨后選擇前4至5個最常見的重鏈和輕鏈以進(jìn)行配對。除了這些前4至5個序列之外,基于相對頻率的配對是不可能的。最近,rakocevic?etal.[2021]表明,該方法僅在樣品由少量高頻率b細(xì)胞占主導(dǎo)地位時有效。zhuet?al.[2013]提出了稱為系統(tǒng)發(fā)育配對的方法,其涉及比較從重鏈和輕鏈序列數(shù)據(jù)生成的系統(tǒng)發(fā)育樹的結(jié)構(gòu)。這種方法僅限于檢查特定的克隆擴(kuò)增;在這種情況下,為已知的抗病毒抗體譜系,而不是整個bcr庫。raybould?et?al.[2021]提出了基于計(jì)算機(jī)重鏈和輕鏈配對結(jié)構(gòu)模型的方法。該方法固有地受到高品質(zhì)結(jié)構(gòu)模板的有限和嚴(yán)重傾斜的可用性的限制,并且最多能夠鑒定與穩(wěn)定性相關(guān)不一定轉(zhuǎn)化為功能的特征。此外,該方法僅能配對相似序列的家族,而不能配對特定序列(其將限制其實(shí)際應(yīng)用性-這尚未得到實(shí)驗(yàn)上地驗(yàn)證)。因此,本發(fā)明人已經(jīng)確定,目前用于計(jì)算性重鏈-輕鏈配對的方法受到限制,因?yàn)樗鼈儍H適用于特定的數(shù)據(jù)集和這些數(shù)據(jù)集中的序列。事實(shí)上,現(xiàn)有的任何經(jīng)驗(yàn)證的方法僅適用于其中重鏈和輕鏈序列二者均可從樣品中獲得的數(shù)據(jù)集,其中數(shù)據(jù)以大克隆擴(kuò)增為主,并且僅促進(jìn)這些數(shù)據(jù)集中有限數(shù)目的序列的配對。
3、本發(fā)明人還確定了對于抗體發(fā)現(xiàn)的一般應(yīng)用,期望能夠?yàn)槿魏谓o定的重鏈產(chǎn)生可行的輕鏈。還期望能夠僅使用重鏈信息來產(chǎn)生這種結(jié)果,因?yàn)閎cr庫批量測序工作通常將有限的資源集中于測序重鏈,其被認(rèn)為比輕鏈發(fā)揮更重要的功能作用。為了解決這些問題,本發(fā)明人假設(shè)有可能使用受自然語言處理(natural?language?processing,nlp)的最新進(jìn)展所啟發(fā)的深度學(xué)習(xí)方法。具體地,他們假設(shè)包含編碼器-解碼器結(jié)構(gòu)(例如如轉(zhuǎn)換器(transformer)[vaswani?et?al.,2017])及衍生結(jié)構(gòu)例如bert[devlin?et?al.,2018]和roberta[liu?et?al.,2019](僅編碼器結(jié)構(gòu))或gpt[brown?et?al.2020]和falcon[penedoet?al.2023]的深度學(xué)習(xí)模型應(yīng)該能夠以與用于訓(xùn)練此類模型進(jìn)行自然語言處理相類似的方式,使用掩蔽語言建模(masked?language?modelling)來學(xué)習(xí)抗體的特征。他們還假設(shè),產(chǎn)生的學(xué)習(xí)表示(learned?representation)將攜帶可被分類器模型用來預(yù)測候選對是否可能形成功能性對的信息。轉(zhuǎn)換器已在廣泛多種nlp任務(wù)中顯示出最先進(jìn)的結(jié)果[vaswaniet?al.,2017;devlin?et?al.,2018;liu?et?al.,2019;rothe?et?al.,2020]。因此,本發(fā)明人設(shè)計(jì)了使用預(yù)訓(xùn)練的編碼器(稱為‘a(chǎn)ntiberta’)或解碼器(稱為‘fabcon’)來生成重鏈和輕鏈的學(xué)習(xí)表示的方法,該學(xué)習(xí)表示作為用于配對任務(wù)的分類器的一部分進(jìn)行微調(diào)。在對具有已知配對的單細(xì)胞數(shù)據(jù)集進(jìn)行多次盲測后,他們表明該方法以高召回率和精確率預(yù)測真實(shí)對(true?pair)。該方法提供了針對輕鏈配對的新的解決方案,以及填補(bǔ)大量重鏈測序中的缺口的方式。本發(fā)明人還確定了,相同的方法可用于解決tcr鏈配對問題。
4、因此,根據(jù)第一方面,提供了確定包含第一鏈和第二鏈的蛋白質(zhì)鏈對是否可能形成功能性抗原結(jié)合蛋白的方法,所述方法包括:向深度學(xué)習(xí)模型提供包含第一蛋白質(zhì)鏈的序列和第二蛋白質(zhì)鏈的序列的查詢序列對作為輸入,所述深度學(xué)習(xí)模型被配置成將蛋白質(zhì)鏈序列對作為輸入并產(chǎn)生指示所述蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的評分(score)作為輸出,其中所述深度學(xué)習(xí)模型包含編碼器模塊和分類器模塊,并且其中該深度學(xué)習(xí)模塊已使用來自已知抗原結(jié)合蛋白的成對訓(xùn)練序列進(jìn)行訓(xùn)練。
5、根據(jù)本方面,還描述了鑒定包含第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈的抗原結(jié)合蛋白的方法,所述方法包括:提供查詢第一蛋白質(zhì)鏈,提供一個或更多個候選第二蛋白質(zhì)鏈序列;以及使用如上所述的方法確定包含查詢第一蛋白質(zhì)鏈和候選第二蛋白質(zhì)鏈的每個蛋白質(zhì)鏈對是否可能形成功能性抗原結(jié)合蛋白。因此,根據(jù)本方面,還提供了鑒定包含鏈對的抗原結(jié)合蛋白的方法,所述方法包括:提供查詢第一蛋白質(zhì)鏈,以及通過以下來鑒定第二蛋白質(zhì)鏈:提供一個或更多個候選第二蛋白質(zhì)鏈序列;以及通過以下來確定一個或更多個候選第二鏈序列是否可能與查詢第一蛋白質(zhì)鏈形成功能性抗原結(jié)合蛋白:向深度學(xué)習(xí)模型提供一個或更多個查詢序列對中的每個查詢序列對作為輸入,每個查詢序列對包含(i)第一蛋白質(zhì)鏈的序列和(ii)候選第二蛋白質(zhì)鏈序列,其中所述深度學(xué)習(xí)模型被配置成將蛋白質(zhì)鏈序列對或多個蛋白質(zhì)序列對作為輸入并產(chǎn)生指示每個蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的評分或來源于其的信息作為輸出,其中深度學(xué)習(xí)模型包含編碼器模塊和分類器模塊,并且其中深度學(xué)習(xí)模塊已使用來自已知抗原結(jié)合蛋白的成對訓(xùn)練序列進(jìn)行訓(xùn)練。
6、根據(jù)本方面的方法可具有一個或更多個以下特征。
7、指示蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的評分可以是蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率。
8、鑒定第二蛋白質(zhì)鏈可包括提供多個候選第二鏈序列,以及獲得包含第一蛋白質(zhì)鏈和相應(yīng)候選第二鏈的每個蛋白質(zhì)對的評分。來源于評分的信息可包括蛋白質(zhì)鏈序列對的排序,其中更有可能形成功能性抗原結(jié)合蛋白的蛋白質(zhì)序列對的排序高于更不太可能形成功能性抗原結(jié)合蛋白的蛋白質(zhì)序列對。排序可以基于評分,例如如按評分降低或升高來排序。因此,根據(jù)本方面,還提供了鑒定包含鏈對的抗原結(jié)合蛋白的方法,所述方法包括:提供查詢第一蛋白質(zhì)鏈,以及通過以下來鑒定第二蛋白質(zhì)鏈:提供多個候選第二蛋白質(zhì)鏈序列;以及通過以下來確定候選第二鏈序列是否可能與查詢第一蛋白質(zhì)鏈形成功能性抗原結(jié)合蛋白:向深度學(xué)習(xí)模型提供多個查詢序列對作為輸入,每個查詢序列對包含(i)第一蛋白質(zhì)鏈的序列和(ii)候選第二蛋白質(zhì)鏈序列,其中深度學(xué)習(xí)模型被配置成將多個蛋白質(zhì)鏈序列對作為輸入并產(chǎn)生指示每個蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的相應(yīng)評分或來源于其的信息(例如如,多個對的排序)作為輸出,其中深度學(xué)習(xí)模型包含編碼器模塊和分類器模塊,并且其中深度學(xué)習(xí)模塊已使用來自已知抗原結(jié)合蛋白的成對訓(xùn)練序列進(jìn)行訓(xùn)練。類似地,根據(jù)本方面還提供了鑒定包含鏈對的功能性抗原結(jié)合蛋白的方法,所述方法包括:提供包含第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈的多個查詢抗原結(jié)合蛋白;以及通過以下來確定查詢第一鏈序列和第二鏈序列是否可能形成功能性抗原結(jié)合蛋白:向深度學(xué)習(xí)模型提供多個查詢序列對作為輸入,其中深度學(xué)習(xí)模型被配置成將多個蛋白質(zhì)鏈序列對作為輸入并產(chǎn)生指示每個蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的相應(yīng)評分或來源于其的信息(例如如,多個對的排序)作為輸出,其中深度學(xué)習(xí)模型包含編碼器模塊和分類器模塊,并且其中深度學(xué)習(xí)模塊已使用來自已知抗原結(jié)合蛋白的成對訓(xùn)練序列進(jìn)行訓(xùn)練。該方法可用于基于使用深度學(xué)習(xí)模型預(yù)測的查詢鏈對/抗原結(jié)合蛋白形成功能性抗原結(jié)合蛋白的可能性,對查詢鏈對/抗原結(jié)合蛋白劃分優(yōu)先順序。
9、鏈對和/或每個蛋白質(zhì)鏈可稱為“可變鏈”。用語“已知鏈對”或“已知抗原結(jié)合蛋白”是指已知存在于顯示出期望抗原結(jié)合功能的抗原結(jié)合蛋白中或存在于形成至少一個對象的b細(xì)胞或t細(xì)胞庫的一部分的抗原結(jié)合蛋白中的抗原結(jié)合蛋白/來自抗原結(jié)合蛋白的可變鏈序列對。后者也可稱為“天然”鏈對。因此,“已知蛋白質(zhì)鏈/抗原結(jié)合蛋白”可以是先前已鑒定(例如在包含天然鏈對/蛋白質(zhì)的樣品、個體等中)的蛋白質(zhì)/鏈對和/或具有期望功能(例如通過體外或體內(nèi)測試已驗(yàn)證或可驗(yàn)證的,例如與靶標(biāo)的結(jié)合親和力、表達(dá)、穩(wěn)定性等)的蛋白質(zhì)/鏈對。所有序列均可以是氨基酸序列。第一(查詢)鏈序列可以是重鏈序列,并且第二序列可以是輕鏈序列??乖Y(jié)合蛋白可以是b細(xì)胞受體或抗體,或由來源于其的蛋白質(zhì)。因此,抗原結(jié)合蛋白可包含重鏈-輕鏈對。查詢序列可包含重鏈序列或輕鏈序列。對應(yīng)鏈序列(corresponding?chain?sequence)可以是輕鏈序列或重鏈序列。
10、抗原結(jié)合蛋白可以是t細(xì)胞受體或來源于其的蛋白質(zhì)??乖Y(jié)合蛋白可包含αβ鏈對,其中第一鏈序列是β鏈序列或α鏈序列,并且對應(yīng)鏈序列是α鏈序列或β鏈序列。第一鏈序列可以是β鏈序列,并且對應(yīng)序列(corresponding?sequence)可以是α鏈序列??乖Y(jié)合蛋白可包含γδ鏈對,其中第一鏈序列是δ鏈序列或γ鏈序列,并且對應(yīng)鏈序列是γ鏈序列或δ鏈序列。第一鏈序列可以是δ鏈序列,并且對應(yīng)序列可以是γ鏈序列??乖Y(jié)合蛋白可以是t細(xì)胞受體或來源于其的蛋白質(zhì)。因此,抗原結(jié)合蛋白可包含αβ鏈對或γδ鏈對。因此,查詢序列可包含β或δ鏈序列,或者α或γ鏈序列。對應(yīng)鏈序列可以是α或γ鏈序列,或者β或δ鏈序列。
11、編碼器模塊可包含多個編碼器(也稱為“編碼器模型”)。每個編碼器可將蛋白質(zhì)鏈序列作為輸入。編碼器模塊可包含一個或兩個基于轉(zhuǎn)換器的編碼器模型。編碼器模塊可包含一個或兩個已使用來自來自于已知抗原結(jié)合蛋白的非成對蛋白質(zhì)鏈的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練的編碼器。編碼器模塊可包含序列至序列模型(sequence-to-sequence?model)的一個或兩個編碼器。序列至序列模型可以是遞歸神經(jīng)網(wǎng)絡(luò)(recurrent?neural?network)或轉(zhuǎn)換器。序列至序列模型可以是序列至序列基于轉(zhuǎn)換器的模型。遞歸神經(jīng)網(wǎng)絡(luò)可以是基于門控遞歸單元(gated?recurrent?unit,gru)的模型或長短期記憶(long?short-term?memory,lstm)模型。例如,基于gru的模型可包含基于gru的編碼器(encoder)和基于gru的解碼器(decoder)。編碼器可以是4層雙向gru,例如隱藏維度(hidden?dimension)為1024。解碼器可以是4層僅正向gru(forward-only?gru),例如隱藏維度為1024。轉(zhuǎn)換器是使用注意力機(jī)制的深度學(xué)習(xí)模型?;谵D(zhuǎn)換器的模型可以是針對編碼器和解碼器二者的具有使用自注意力(self-attention)和逐點(diǎn)(point-wise)的全連接層的結(jié)構(gòu)的轉(zhuǎn)換器模型。編碼器和/或解碼器可由相同層(例如如6、12、24或30個層)的堆棧(stack)構(gòu)成。編碼器的每一層可具有兩個子層:多頭自注意力層(multi-head?self-attention?layer)和逐位置(position-wise)的全連接的前饋網(wǎng)絡(luò)層。解碼器的每一層可具有三個子層:自注意力子層、對編碼器堆棧的輸出進(jìn)行多頭注意力的層以及前饋網(wǎng)絡(luò)層。編碼器模塊可包含這樣的解碼器模型,該模型已使用包含來自已知抗原結(jié)合蛋白的成對和非成對的蛋白質(zhì)鏈的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練。解碼器可以是僅解碼器基于轉(zhuǎn)換器的模型(decoder?only?transformer-basedmodel)的解碼器。編碼器模塊可包含僅解碼器自回歸轉(zhuǎn)換器模型的嵌入層和解碼器層(其可合稱為“解碼器模型”)。解碼器模型可使用flash注意力(flash?attention)、多查詢注意力(multi-query?attention)和/或位置編碼。解碼器可以是24層解碼器,每層有12個注意力頭,嵌入維度為768,并且前饋維度為3072。解碼器可以是28層解碼器,每層有16個注意力頭,嵌入維度為1024,并且前饋維度為4096。解碼器可以是56層解碼器,每層有32個注意力頭,嵌入維度為2048,并且前饋維度為8192。每個這樣的模型均是可用的,但這些模型中最小的模型已經(jīng)被發(fā)現(xiàn)具有非常好的性能。
12、編碼器模塊可包含一個或兩個使用位置編碼(例如絕對位置編碼或相對位置編碼)的編碼器。在一些實(shí)施方案中,編碼器模塊包含一個或兩個使用絕對位置編碼的編碼器。在一些實(shí)施方案中,編碼器模塊包含一個或兩個使用相對位置編碼的編碼器。相對位置編碼(也稱為相對位置表示)可如shaw?et?al.(2018)中所描述的來實(shí)現(xiàn)。使用相對位置編碼的編碼器可以是使用旋轉(zhuǎn)位置編碼的編碼器。旋轉(zhuǎn)位置編碼可如su?et?al.(2022)中所描述的來實(shí)現(xiàn)。相對位置編碼可改善模型捕捉鏈中位置之間關(guān)系的能力。具有相對位置編碼的轉(zhuǎn)換器樣模型(包括例如僅編碼器模型或轉(zhuǎn)換器模型)可使用相對位置信息作為轉(zhuǎn)換器樣模型的自注意力機(jī)制中使用的鍵和值的另外的組件。編碼器模塊可包含使用位置編碼(例如alibi位置編碼(如press?et?al.,2021所述))的解碼器。編碼器模塊可包含使用如suet?al.(2022)中所述的旋轉(zhuǎn)位置嵌入的解碼器。例如,falcon(falconllm.tii.ae/)和llama2(touvron?et?al.,2023)模型是使用旋轉(zhuǎn)位置嵌入的僅決策器模型(decider?onlymodel)。
13、編碼器模塊可包含已使用掩蔽語言建模進(jìn)行訓(xùn)練的序列至序列模型的一個或兩個編碼器模型?;蛘撸幋a器可已使用基于跨度的掩蔽語言建模進(jìn)行訓(xùn)練(參見例如joshiet?al.2020)。訓(xùn)練編碼器模型可包括訓(xùn)練模型以替換訓(xùn)練氨基酸序列的隨機(jī)掩蔽位置。模型可已使用掩蔽語言建模進(jìn)行訓(xùn)練,其中15%的位置在訓(xùn)練期間被掩蔽,并且/或者其中掩蔽位置被掩蔽標(biāo)記(mask?token)、隨機(jī)氨基酸或該位置的原始氨基酸替換。編碼器模塊可包含一個或兩個這樣的編碼器,所述編碼器已使用包含來自已知抗原結(jié)合蛋白的非成對的第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練。用于預(yù)訓(xùn)練的訓(xùn)練序列可包含至少1百萬、至少2百萬、至少5百萬、至少1千萬、至少2千萬或至少5千萬個獨(dú)立序列。編碼器模塊可包含這樣的編碼器的兩個副本,所述編碼器已使用包含來自已知抗原結(jié)合蛋白的非成對的第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練。編碼器模塊可包含這樣的編碼器,所述編碼器已使用包含來自來自于已知抗原結(jié)合蛋白的第一鏈的序列與來自來自于已知抗原結(jié)合蛋白的第二蛋白質(zhì)鏈的序列的串聯(lián)體(concatenation)的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練,其中所串聯(lián)的序列包含來自非成對蛋白質(zhì)鏈的序列。
14、解碼器可以是生成式語言模型(generative?language?model)的解碼器模型,其中解碼器模型已使用因果語言建模(causal?language?modelling)(即下一個標(biāo)記預(yù)測任務(wù)(next?token?prediction?task))或跨度建模(span?modelling)(也稱為“基于跨度的掩蔽語言建模(span-based?maskedlanguage?modelling)”)進(jìn)行訓(xùn)練。編碼器模塊可包含這樣的解碼器,所述解碼器已使用包含來自已知抗原結(jié)合蛋白的非成對的第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈以及來自已知抗原結(jié)合蛋白的成對的第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練。訓(xùn)練序列可包含至少5億、6億或7億個獨(dú)立序列和/或至少100萬、150萬或200萬成對序列。編碼器模塊可包含這樣的解碼器,所述解碼器已使用各自包含來自已知抗原結(jié)合蛋白的單鏈或來自來自于已知抗原結(jié)合蛋白的第一鏈的序列與來自來自于已知抗原結(jié)合蛋白的第二蛋白鏈的序列的串聯(lián)體的訓(xùn)練序列進(jìn)行預(yù)訓(xùn)練。
15、深度學(xué)習(xí)模型還可包含交叉注意力模塊(cross-attention?module),該模塊將編碼器模塊的輸出作為輸入,并產(chǎn)生輸出,其被分類器模塊用于提供指示蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的評分。交叉注意力模塊可包含一個或更多個交叉注意力塊(cross-attention?block),其中每個交叉注意力塊包含自注意力層(self-attentionlayer)和交叉注意力層(cross?attention?layer)。交叉注意力模塊可包含多個交叉注意力塊。交叉注意力模塊可包含一個或更多個包含交叉注意力層和自注意力層的交叉注意力塊,并且每個交叉注意力層和自注意力層可包含多個注意力頭(attention?head)。每個自注意力層可包含一個或更多個注意力頭,所述注意力頭關(guān)注以第一鏈序列作為輸入的第一編碼器的輸出。每個交叉注意力塊還可包含第一編碼器的輸出與自注意力層的輸出之間的殘差連接(residual?connection)。每個交叉注意力層可包含一個或更多個注意力頭,所述注意力頭關(guān)注:(i)自注意力層的輸出或以第一鏈序列作為輸入的第一編碼器的輸出;以及(ii)以第二鏈序列作為輸入的第二編碼器的輸出。每個交叉注意力塊還可包含第一編碼器的輸出與交叉注意力層的輸出之間的殘差連接。每個自注意力層可包含2、3、4、5、6、12個或更多個注意力頭。每個交叉注意力層可包含2、3、4、5、6、12個或更多個注意力頭。每個交叉注意力塊可包含自注意力層和交叉注意力層。每個交叉注意力塊可包含自注意力層和/或交叉注意力層的輸出與以第一鏈序列作為輸入的第一編碼器的輸出之間的殘差連接。自注意力層和/或交叉注意力層輸出在提供為后續(xù)層或模塊的輸入之前可進(jìn)行層歸一化(layernormalised)。分類模塊可包含softmax層,所述softmax層產(chǎn)生0至1的評分,所述評分可解釋為輸入蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率。分類模塊可包含以下中的一者或更多者:降維層(dimensionality?reduction?layer)、正則化機(jī)制(regularisationmechanism)和具有激活函數(shù)(activation?function)的層。降維層可包含注意力池化層(attention?pooling?layer)或平均池化層(average?pooling?layer)。正則化層可包含丟棄機(jī)制(dropout?mechanism)。激活函數(shù)可選自tanh、leaky?relu、gelu、smelu、swish和relu。每層中的激活函數(shù)可獨(dú)立地選自swish和relu。深度學(xué)習(xí)模型可將多個查詢鏈序列對作為輸入,并產(chǎn)生指示每個查詢蛋白質(zhì)鏈對形成功能性抗原結(jié)合蛋白的概率的相應(yīng)評分和/或多個查詢鏈序列對的排序作為輸出,所述排序使得更有可能形成功能性抗原結(jié)合蛋白的查詢蛋白質(zhì)序列對的排序高于更不太可能形成功能性抗原結(jié)合蛋白的查詢蛋白質(zhì)序列對。例如,深度學(xué)習(xí)模型可將8、16、32或64個查詢序列對(例如如32對)作為輸入。這樣的深度學(xué)習(xí)模型可有利地能夠以高的計(jì)算效率提供對許多候選鏈配對的預(yù)測。
16、來自已知抗原結(jié)合蛋白的成對訓(xùn)練序列可包含來自單個b細(xì)胞測序數(shù)據(jù)的成對的訓(xùn)練重鏈和輕鏈序列。訓(xùn)練數(shù)據(jù)可包含一個或更多個數(shù)據(jù)集,每個數(shù)據(jù)集先前通過對從對象獲得的樣品的單個b細(xì)胞測序或通過對來源于其的文庫的測序獲得。訓(xùn)練數(shù)據(jù)還可包含來自已知抗體/b細(xì)胞受體的成對的訓(xùn)練重鏈和輕鏈序列。例如,訓(xùn)練數(shù)據(jù)可包含來自一個或更多個抗體/bcr數(shù)據(jù)庫、來自一個或更多個已知治療性抗體/bcr和/或來自一個或更多個已知具有期望結(jié)合功能的抗體/bcr的成對的訓(xùn)練重鏈和輕鏈序列。訓(xùn)練數(shù)據(jù)可包含來自初始b細(xì)胞受體文庫的成對的訓(xùn)練重鏈和輕鏈序列。訓(xùn)練數(shù)據(jù)可包含來自經(jīng)歷抗原的b細(xì)胞受體文庫的成對的訓(xùn)練重鏈和輕鏈序列。因此,訓(xùn)練數(shù)據(jù)可包含從已經(jīng)暴露于一種或更多種特異性抗原的對象獲得的成對的訓(xùn)練重鏈和輕鏈序列。來自已知鏈對的訓(xùn)練第一鏈序列和第二鏈序列可包含來自單個t細(xì)胞測序數(shù)據(jù)的成對的訓(xùn)練的α和β鏈序列。訓(xùn)練數(shù)據(jù)可包含一個或更多個數(shù)據(jù)集,所述數(shù)據(jù)集各自先前通過對從對象獲得的樣品的單個t細(xì)胞測序或通過對來源于其的文庫的測序獲得。訓(xùn)練數(shù)據(jù)還可包含來自已知t細(xì)胞受體的成對的訓(xùn)練第一鏈序列和對應(yīng)鏈序列。例如,訓(xùn)練數(shù)據(jù)可包含來自一個或更多個t細(xì)胞受體數(shù)據(jù)庫、來自一個或更多個已知治療性tcr和/或來自一個或更多個已知具有期望結(jié)合功能的tcr的成對的訓(xùn)練α鏈和β鏈序列。訓(xùn)練數(shù)據(jù)可包含來自初始t細(xì)胞受體文庫的成對的訓(xùn)練α和β(或δ和γ)鏈序列。訓(xùn)練數(shù)據(jù)可包含來自經(jīng)歷抗原的t細(xì)胞受體文庫的成對的訓(xùn)練α和β(或δ和γ)鏈序列。因此,訓(xùn)練數(shù)據(jù)可包含從已經(jīng)暴露于一種或更多種特定抗原的對象獲得的成對的訓(xùn)練α和β(或δ和γ)鏈序列。來自已知鏈對的訓(xùn)練第一鏈序列和第二鏈序列可包含成對的訓(xùn)練鏈序列,其中每對包含含有以下或由以下組成的鏈序列:v基因序列或標(biāo)識符、j基因序列或標(biāo)識符、和連接序列,以及任選的d基因序列或標(biāo)識符。來自已知鏈對的訓(xùn)練第一鏈序列和對應(yīng)鏈序列可包含成對的訓(xùn)練鏈序列,其中每對包含含有以下或由以下組成的鏈序列:含有以下或由以下組成的鏈序列:v基因序列或標(biāo)識符、j基因序列或標(biāo)識符、和連接序列。提及v基因或j基因可以指與相應(yīng)基因?qū)?yīng)的氨基酸序列。訓(xùn)練數(shù)據(jù)可包含至少80,000、至少100,000、至少120,000、至少150,000、至少500,000或至少1500,000對訓(xùn)練序列,例如訓(xùn)練重鏈和輕鏈序列。有利地,訓(xùn)練數(shù)據(jù)可包含至少1,500,000對訓(xùn)練重鏈和輕鏈序列。訓(xùn)練數(shù)據(jù)可包含哺乳動物,例如如人的鏈序列對。訓(xùn)練數(shù)據(jù)可包含哺乳動物重鏈和/或輕鏈序列。訓(xùn)練數(shù)據(jù)可包含人重鏈和/或輕鏈序列。訓(xùn)練數(shù)據(jù)可包含來自與查詢序列相同物種的序列的訓(xùn)練對。訓(xùn)練數(shù)據(jù)可包含來自與查詢序列相同物種的至少50%、至少60%、至少70%、至少80%、至少90%或至少95%的序列。查詢序列可以是不存在于訓(xùn)練數(shù)據(jù)中的序列。查詢序列可以是從來自具有期望特征(例如期望表型)的對象的樣品中獲得的序列。例如,對象可具有特定的臨床特征。
17、訓(xùn)練數(shù)據(jù)可包含模擬訓(xùn)練序列(simulated?training?sequence)。訓(xùn)練數(shù)據(jù)可包含模擬成對序列(simulated?paired?sequence)、成對模擬序列(paired?simulatedsequence)或模擬非成對訓(xùn)練序列(simulated?unpaired?training?sequence)。模擬數(shù)據(jù)可包含使用用于模擬抗原結(jié)合蛋白序列的方法(例如如immunesim(weber?et?al.,2020))和/或用于模擬蛋白質(zhì)序列的方法(例如progen2(nijkamp?et?al.,2022))獲得的序列。已知的蛋白質(zhì)對可稱為對的“正集(positive?set)”。訓(xùn)練數(shù)據(jù)可包含預(yù)期不會形成功能性抗體結(jié)合蛋白的鏈序列對的負(fù)集(negative?set)。負(fù)集可包含隨機(jī)配對的第一蛋白質(zhì)鏈序列和第二蛋白質(zhì)鏈序列。替代地或除此之外,負(fù)集可包含模擬的序列對或模擬序列的對。替代地或除此之外,負(fù)集可包含來自先前確定為無功能的抗原結(jié)合蛋白的序列對。可根據(jù)一個或更多個預(yù)定的功能性標(biāo)準(zhǔn)將對確定為無功能的。例如,無法通過實(shí)驗(yàn)表達(dá)或未能結(jié)合靶標(biāo)的對可被視為無功能的。因此,訓(xùn)練數(shù)據(jù)還可包含含有隨機(jī)配對的第一蛋白質(zhì)鏈序列和第二蛋白質(zhì)鏈序列的負(fù)集。隨機(jī)配對的第一蛋白質(zhì)鏈序列和第二蛋白質(zhì)鏈序列可已經(jīng)獲得或者可作為方法的一部分通過對來自已知抗原結(jié)合蛋白的成對訓(xùn)練序列進(jìn)行重新配對和/或通過對非成對訓(xùn)練序列進(jìn)行隨機(jī)配對而獲得。負(fù)集可包含來自先前確定為無功能的抗原結(jié)合蛋白的成對的第一蛋白質(zhì)鏈序列和第二蛋白質(zhì)鏈序列。已知的成對訓(xùn)練序列(正集)可與第一標(biāo)簽(label)相關(guān)聯(lián),而隨機(jī)配對的/負(fù)集訓(xùn)練序列可與第二標(biāo)簽相關(guān)聯(lián)。訓(xùn)練數(shù)據(jù)可包含與非二進(jìn)制標(biāo)簽相關(guān)聯(lián)的對。訓(xùn)練數(shù)據(jù)可包含與可取多個值的評分(至多并包括連續(xù)評分,其中該連續(xù)評分可以例如在0至1之間)相關(guān)聯(lián)的對的正集。例如,正集中的對可能與指示“天然性”或“功能性”的評分相關(guān)聯(lián)。這樣的評分可例如反映與已知對相關(guān)的功能信息,例如如結(jié)合親和力,或任何其他與結(jié)合強(qiáng)度相關(guān)的指標(biāo)。訓(xùn)練數(shù)據(jù)可包含與單個值(例如0)或多個值(例如如指示該對無功能的置信度的值)相關(guān)聯(lián)的對的負(fù)集。
18、訓(xùn)練數(shù)據(jù)還可包含非成對的訓(xùn)練第一序列和/或第二序列。這些序列可用于預(yù)訓(xùn)練編碼器模塊的編碼器或解碼器。非成對的訓(xùn)練第一鏈序列和/或第二鏈序列可具有關(guān)于成對序列所描述的序列的任何特征。特別地,非成對的鏈序列可以是與成對序列相同類型的序列(例如,當(dāng)成對訓(xùn)練序列是重鏈和輕鏈對時,非成對的訓(xùn)練第一鏈序列/第二鏈序列可包含非成對的重鏈和/或輕鏈),可包含來自相同生物體的序列(例如,可包含哺乳動物和/或人序列,可包含來自一種或更多種生物體的序列,可包含來自初始文庫和/或抗原暴露的文庫的序列,等),可包含相同的信息(例如如基因區(qū)段標(biāo)識符、序列及其組合)。非成對訓(xùn)練序列可包含存在于成對訓(xùn)練序列中的第一序列和/或第二序列中的一些或全部。有利地,非成對訓(xùn)練序列可包含比成對訓(xùn)練鏈序列更多的第一鏈序列和/或更多的第二鏈序列。第一(例如查詢)鏈序列可包含以下或由以下組成:v基因序列或標(biāo)識符、j基因序列或標(biāo)識符、和連接序列以及任選的d基因序列或標(biāo)識符。第二鏈(例如對應(yīng))序列可包含以下或由以下組成:v基因序列或標(biāo)識符、j基因序列或標(biāo)識符和連接序列。第一鏈序列和第二鏈序列的形式與訓(xùn)練鏈序列的形式相關(guān)。因此,已使用包含v基因序列或標(biāo)識符、j基因序列或標(biāo)識符、和連接序列,以及任選的d基因序列或標(biāo)識符或者由其組成的訓(xùn)練鏈序列訓(xùn)練過的深度學(xué)習(xí)模型可接受包含這些組分或由這些組分組成的鏈序列作為輸入。類似地,已使用包含v基因序列或標(biāo)識符、j基因序列或標(biāo)識符以及連接序列或者由其組成的訓(xùn)練鏈序列訓(xùn)練過的深度學(xué)習(xí)模型可接受包含這些組分或由這些組分組成的鏈序列作為輸入。查詢序列可包含一個或更多個第一鏈cdr序列或由其組成。第二序列可包含一個或更多個對應(yīng)鏈cdr序列或由其組成。第一序列和/或第二序列可包含cdr3序列或其組成。第一蛋白質(zhì)鏈和第二蛋白質(zhì)鏈可以是具有不同長度范圍和/或不同結(jié)構(gòu)域結(jié)構(gòu)的鏈。
19、向深度學(xué)習(xí)模型提供蛋白質(zhì)鏈序列對作為輸入(無論是用于訓(xùn)練還是預(yù)測)可包括使用預(yù)定編碼方案來編碼每個蛋白質(zhì)鏈序列。根據(jù)編碼方案,每個氨基酸可單獨(dú)編碼。在一些實(shí)施方案中,使用各自對應(yīng)于單獨(dú)k-mer的標(biāo)記(token)來編碼序列。向深度學(xué)習(xí)模型提供序列對可包括使用編碼方案來編碼序列,其中每個氨基酸單獨(dú)編碼。例如,可為每種可能的氨基酸提供不同的標(biāo)記。向深度學(xué)習(xí)模型提供序列對可包括使用編碼方案來編碼序列,其中每個基因序列標(biāo)識符對應(yīng)于單獨(dú)的標(biāo)記。向深度學(xué)習(xí)模型提供序列對可包括使用編碼方案來編碼查詢序列,其中每個氨基酸對應(yīng)于單獨(dú)的標(biāo)記。向深度學(xué)習(xí)模型提供序列對可包括使用編碼方案來編碼查詢序列,其中在鏈序列之前或之后有指示該蛋白質(zhì)鏈序列是第一蛋白質(zhì)鏈還是第二蛋白質(zhì)鏈的特殊標(biāo)記(例如,重鏈-h或輕鏈-l)。向深度學(xué)習(xí)模型提供序列對可包括使用編碼方案來編碼每個序列,其中使用各自對應(yīng)于單獨(dú)k-mer的標(biāo)記(例如如使用字節(jié)對編碼(byte-pair?encoding))來編碼序列(即,可作為全序列而非基因標(biāo)識符獲得的序列)??墒褂弥丿B的k-mer來編碼每個序列。k-mer可具有短于預(yù)期鏈長度的任何長度。例如,k-mer可具有1至100、2至100、2至50、2至20或2至10的長度。k-mer可具有1至5的長度。k-mer可具有固定的長度。例如,可使用1、2、3、4或5的固定k-mer長度。長度為1的k-mer相當(dāng)于單獨(dú)編碼每個字符(character)(例如,每個氨基酸)。長度k>2(例如如3)的k-mer可用作使用重疊或非重疊k-mer的編碼方案的一部分。重疊的k-mer可以不同程度地重疊。例如,長度為3的k-mer可重疊1或2個字符。在使用k=3的方案中,每個標(biāo)記對應(yīng)于3個字符的獨(dú)特組(例如3個氨基酸的基序)。非成對的訓(xùn)練數(shù)據(jù)可能已被過濾,以排除任何包含長度超出相應(yīng)預(yù)定長度范圍的特定區(qū)域的序列。例如,任何在cdr1區(qū)之前具有少于20個氨基酸、在連接區(qū)之后具有少于10個氨基酸、cdr1區(qū)長度超出5至12個氨基酸的范圍、cdr2區(qū)長度超出1至10個氨基酸的范圍和/或cdr3區(qū)長度超出5至38個氨基酸的范圍的序列,均可從非成對的訓(xùn)練數(shù)據(jù)中排除。成對的訓(xùn)練數(shù)據(jù)可能已被過濾,以排除包含在預(yù)定長度范圍之外的連接序列(在第一鏈和/或?qū)?yīng)鏈中)的任何對。換言之,訓(xùn)練數(shù)據(jù)可不包含含有在預(yù)定長度范圍之外的第一(例如,重)鏈連接和/或在預(yù)定長度范圍之外的第二(例如,輕)鏈連接的任何對。例如,包含低于預(yù)定長度(例如如3、4、5、6、7、8、9或10個氨基酸)的重鏈連接序列的對可已經(jīng)被排除。作為另一個實(shí)例,包含超過預(yù)定長度,例如如25、26、27、28、29、30、31、32、33、34或35個氨基酸的重鏈連接序列的對可已經(jīng)被排除。作為另一個實(shí)例,包含低于預(yù)定長度例如如3、4、5、6、7、8、9或10個氨基酸的輕鏈連接序列的對可已經(jīng)被排除。作為另一個實(shí)例,包含超過預(yù)定長度,例如如15、16、17、18、19、20、20、21、22、23、24、25、26、27、28、29或30個氨基酸的輕鏈連接序列的對可已經(jīng)被排除。對于一對的對應(yīng)(例如,輕)鏈和第一(例如,重)鏈中的連接序列,預(yù)定長度可以相同或不同。在一個具體實(shí)例中,包含少于7個氨基酸的重鏈連接序列的對可已經(jīng)被排除,并且/或者包含多于30個氨基酸的重鏈連接序列的對可已經(jīng)被排除。替代地或除此之外,包含少于7個氨基酸的輕鏈連接序列的對可已經(jīng)被排除,并且/或者包含多于20個氨基酸的輕鏈連接序列的對可已經(jīng)被排除。查詢序列或序列對可包含一個或更多個基因序列標(biāo)識符,并且該方法還可包括用對應(yīng)的種系序列替換一個或更多個基因序列標(biāo)識符。深度學(xué)習(xí)模型可以是基于轉(zhuǎn)換器的模型,其包含已使用非成對的訓(xùn)練第一鏈序列和/或?qū)?yīng)鏈序列預(yù)訓(xùn)練過的編碼器,以及已使用非成對的訓(xùn)練對應(yīng)鏈序列和/或第一鏈序列預(yù)訓(xùn)練過的解碼器或雙向編碼器。編碼器模塊可包含bert模型或其變體,例如如bert、roberta、distilbert或roformer(su?et?al.,2022)。編碼器模塊可包含使用非成對的訓(xùn)練第一鏈序列和第二鏈序列進(jìn)行訓(xùn)練的編碼器。或者,編碼器模塊可包含使用訓(xùn)練第一(例如重或輕)鏈序列進(jìn)行訓(xùn)練的模型,以及使用第二(例如輕或重)鏈序列進(jìn)行訓(xùn)練的模型。當(dāng)編碼器模塊包含兩個使用非成對的訓(xùn)練第一鏈序列和第二鏈序列進(jìn)行訓(xùn)練的編碼器時,這兩個編碼器可以是相同的預(yù)訓(xùn)練模型。因此,這兩個編碼器可使用具有相同結(jié)構(gòu)和相同參數(shù)的預(yù)訓(xùn)練模型進(jìn)行初始化。非成對的訓(xùn)練鏈序列可包含第二鏈的可變區(qū)的全長序列。非成對的訓(xùn)練鏈序列可包含第一鏈的可變區(qū)的全序列?;蛘撸幋a器模塊可包含已使用非成對訓(xùn)練序列和成對訓(xùn)練序列預(yù)訓(xùn)練過的解碼器。例如,解碼器可將字符串(string)作為輸入,該字符串包含第一鏈或第二鏈的編碼,前面有指示鏈類型的標(biāo)記,并且任選地包含一個或更多個填充標(biāo)記(padding?token)。解碼器還可將包含第一鏈的編碼和對應(yīng)第二鏈的編碼的字符串作為輸入(即,一對鏈,每條鏈前面都有指示鏈類型的標(biāo)記,并且任選地包含一個或更多個填充標(biāo)記)。深度學(xué)習(xí)模型可已使用來自已知鏈對的成對的第一和第二(例如重和輕)鏈序列訓(xùn)練過,其中所述序列不包含第二鏈和/或第一鏈的可變區(qū)的全長序列。在這樣的實(shí)施方案中,深度學(xué)習(xí)模型可已通過經(jīng)由輸入缺失序列信息獲得包含對應(yīng)鏈和/或第一鏈的可變區(qū)的全長序列的成對訓(xùn)練序列來訓(xùn)練過。輸入缺失序列信息可包括用相應(yīng)的種系序列替換基因標(biāo)識符。輸入缺失序列信息可包括使用預(yù)訓(xùn)練的編碼器從部分序列預(yù)測每個成對的訓(xùn)練第一(例如重)和/或第二(例如輕)鏈序列的全長序列?;蛘撸陬A(yù)訓(xùn)練編碼器之前,非成對的訓(xùn)練第二(例如輕)鏈序列和/或非成對的訓(xùn)練第一(例如重)鏈序列可已被轉(zhuǎn)換成與各自的成對訓(xùn)練序列的格式相匹配的格式。
20、提供查詢第一蛋白質(zhì)鏈或查詢對中的查詢第一蛋白質(zhì)鏈可包括如下獲得查詢第一蛋白質(zhì)鏈的序列:經(jīng)由用戶界面從用戶獲得、從計(jì)算設(shè)備獲得、從序列獲取裝置或與序列獲取裝置相關(guān)聯(lián)的計(jì)算設(shè)備獲得、從數(shù)據(jù)庫或其他計(jì)算機(jī)可讀介質(zhì)獲得。提供查詢第一蛋白質(zhì)鏈或查詢對中的查詢第一蛋白質(zhì)鏈可包括對包含編碼含有查詢序列的抗原結(jié)合分子的遺傳物質(zhì)的樣品進(jìn)行測序。獲得查詢序列可包括對包含b細(xì)胞的樣品進(jìn)行b細(xì)胞批量測序,對包含t細(xì)胞的樣品進(jìn)行t細(xì)胞批量測序,或?qū)Π磉_(dá)含有查詢序列的抗原結(jié)合分子的任何其他細(xì)胞或來源于其的遺傳物質(zhì)(例如b細(xì)胞受體文庫或t細(xì)胞受體文庫)的樣品進(jìn)行批量測序。提供查詢第一蛋白質(zhì)鏈或查詢對中的查詢第一蛋白質(zhì)鏈可包括獲得包含b細(xì)胞、t細(xì)胞或表達(dá)含有查詢序列的抗原結(jié)合分子的其他細(xì)胞或來源于其的遺傳物質(zhì)(例如b細(xì)胞受體文庫或t細(xì)胞受體文庫)的樣品。提供一個或更多個候選第二蛋白質(zhì)鏈序列可包括如下獲得候選第二蛋白質(zhì)鏈的序列:經(jīng)由用戶界面從用戶獲得、從計(jì)算設(shè)備獲得、從序列獲取裝置或與序列獲取裝置相關(guān)聯(lián)的計(jì)算設(shè)備獲得、從數(shù)據(jù)庫或其他計(jì)算機(jī)可讀介質(zhì)獲得。一個或更多個候選第二蛋白質(zhì)鏈序列可以是已知的第二鏈蛋白質(zhì)序列或模擬的第二鏈蛋白質(zhì)序列。已知的第二鏈蛋白質(zhì)序列可以是先前已觀察到的(例如在樣品、個體等中)或已知具有預(yù)定功能(例如先前顯示與特定靶標(biāo)結(jié)合、將在樣品中表達(dá)等的抗原結(jié)合蛋白)的第二鏈的序列。提供查詢序列(或序列對)可包括如下獲得查詢序列(或序列對):經(jīng)由用戶界面從用戶獲得、從計(jì)算設(shè)備獲得、從序列獲取裝置或與序列獲取裝置相關(guān)聯(lián)的計(jì)算設(shè)備獲得、從數(shù)據(jù)庫或其他計(jì)算機(jī)可讀介質(zhì)獲得。提供查詢序列或序列對可包括對包含編碼含有查詢序列的抗原結(jié)合分子的遺傳物質(zhì)的樣品進(jìn)行測序。提供查詢序列可包括獲得包含b細(xì)胞、t細(xì)胞或表達(dá)含有查詢序列的抗原結(jié)合分子的其他細(xì)胞或來源于其的遺傳物質(zhì)(例如b細(xì)胞受體文庫或t細(xì)胞受體文庫)的樣品。提供查詢序列可包括對包含編碼含有查詢序列的抗原結(jié)合分子的遺傳物質(zhì)的樣品進(jìn)行測序,例如通過對包含b細(xì)胞(或表達(dá)含有查詢序列的抗原結(jié)合分子的任何其他細(xì)胞,或來源于其的遺傳物質(zhì),例如b細(xì)胞受體文庫)的樣品進(jìn)行b細(xì)胞批量測序。提供查詢序列可包括獲得包含b細(xì)胞、或表達(dá)含有查詢序列的抗原結(jié)合分子的其他細(xì)胞、或來源于其的遺傳物質(zhì)例如b細(xì)胞受體文庫的樣品。
21、該方法可包括確定多個對的概率,并使用所確定的概率對該多個對進(jìn)行排序。該方法還可包括經(jīng)由用戶界面向用戶提供一個或更多個經(jīng)鑒定的第二蛋白質(zhì)鏈/對、其一部分或來源于其的信息,和/或一個或更多個查詢對形成功能性抗原結(jié)合蛋白的一個或更多個概率或來源于其的信息(例如如,根據(jù)查詢對的形成功能性抗原結(jié)合對的概率/評分對查詢對的排序)。該方法還可包括預(yù)測指示包含相應(yīng)候選第二蛋白質(zhì)鏈序列的每一個或更多個查詢對形成功能性抗原結(jié)合蛋白的概率的評分,以及通過對評分/概率應(yīng)用一個或更多個標(biāo)準(zhǔn)來鑒定候選第二蛋白質(zhì)鏈序列。所述一個或更多個標(biāo)準(zhǔn)可獨(dú)立地選自:評分/概率高于預(yù)定截止值;評分/概率是候選第二蛋白質(zhì)鏈序列組的最高預(yù)測評分/概率;以及評分/概率處于候選第二蛋白質(zhì)鏈序列組的預(yù)測概率的預(yù)定的前百分位數(shù)(top?percentile)。
22、根據(jù)第二方面,提供了這樣的方法,其為包含第一鏈序列的多個查詢序列提供抗原結(jié)合蛋白鏈配對,所述方法包括:對每個查詢序列進(jìn)行第一方面的任何實(shí)施方案的方法。多個查詢序列可以是通過大量b細(xì)胞庫測序獲得的重鏈或輕鏈序列。多個查詢序列可包含至少10個、至少100個、至少1000個、至少10,000個或至少100,000個序列。多個查詢序列可已經(jīng)通過對樣品(例如來自對象的樣品)中的重鏈或輕鏈庫的大量b細(xì)胞測序而獲得。多個序列可以是通過對樣品中的重鏈或輕鏈庫的大量b細(xì)胞測序而獲得的序列組的子集。根據(jù)本方面的方法可具有關(guān)于第一方面所描述的任何特征。
23、根據(jù)第三方面,提供了提供具有期望特性的抗原結(jié)合蛋白的方法,所述方法包括:提供一個或更多個包含第一鏈序列的查詢序列,其中一個或更多個查詢序列中的至少一個可能具有期望的特性,以及使用第一方面的任何實(shí)施方案的方法鑒定一個或更多個查詢序列中每一個的對應(yīng)鏈序列。該方法可具有以下特征中的任一個或更多個。
24、該方法還可包括獲得一種或更多種候選抗原結(jié)合蛋白,每種候選抗原結(jié)合蛋白包含查詢序列之一和一個或更多個經(jīng)鑒定的第二序列。該方法還可包括測試一種或更多種候選抗原結(jié)合蛋白的期望特性。本方面的方法可具有關(guān)于第一或第二方面所描述的任何特征。一種或更多種候選抗原結(jié)合蛋白可以是抗體或其片段。來源于經(jīng)鑒定的鏈配對的序列可包含:含有相同cdr但具有不同框架區(qū)的序列、與經(jīng)鑒定的鏈配對相比含有一個或更多個突變的序列、以及含有經(jīng)鑒定的鏈配對的一個或更多個片段的序列。獲得候選抗原結(jié)合蛋白可包括鑒定候選抗原結(jié)合蛋白的編碼序列,以及在合適的表達(dá)系統(tǒng)(例如如在合適的宿主細(xì)胞中)中表達(dá)該序列。期望的特性可以是期望的結(jié)合特性(例如如與一種或更多種靶標(biāo)結(jié)合的能力、以高于一個或更多個相應(yīng)閾值的親和力與一種或更多種靶標(biāo)結(jié)合的能力等)、期望的表達(dá)特性(例如如與一個或更多個表達(dá)系統(tǒng)中的標(biāo)準(zhǔn)相比提高的表達(dá)水平、高于一個或更多個表達(dá)系統(tǒng)中的預(yù)定水平的表達(dá)水平、高于一個或更多個表達(dá)系統(tǒng)中的預(yù)定水平的產(chǎn)量等)、期望的穩(wěn)定性特性(例如如在一種或更多種條件下高于特定閾值的穩(wěn)定性)、或其組合。期望的特性可包括結(jié)合預(yù)定靶標(biāo)的能力。測試一種或更多種候選抗原結(jié)合蛋白的期望特性可包括鑒定與一種或更多種候選抗原結(jié)合蛋白結(jié)合的一種或更多種抗原,例如通過測試與一種或更多種候選抗原的結(jié)合來進(jìn)行。測試一種或更多種候選抗原結(jié)合蛋白的期望特性可包括鑒定可能與一種或更多種候選抗原結(jié)合蛋白結(jié)合的一種或更多種抗原,例如通過與一種或更多種具有已知靶標(biāo)的抗體進(jìn)行比較來進(jìn)行??乖Y(jié)合蛋白可以是治療性抗體,并且期望的特性可包含治療靶標(biāo)的結(jié)合??乖Y(jié)合蛋白在本文中也可稱為“免疫蛋白”。
25、測試一種或更多種候選抗原結(jié)合蛋白的期望特性可包括鑒定表達(dá)一種或更多種候選抗原結(jié)合蛋白的生物體(例如如動物模型)或細(xì)胞中的期望表型的存在或缺乏。鑒定期望表型的存在可包括在一種或更多種模型細(xì)胞(例如一種或更多種細(xì)胞系)或生物體(例如如一種或更多種動物模型)中表達(dá)一種或更多種候選抗原結(jié)合蛋白。該方法還可包括優(yōu)化一種或更多種候選抗原結(jié)合蛋白中的至少一者的序列。優(yōu)化候選抗原結(jié)合蛋白的序列可例如使用本領(lǐng)域已知的任何抗體優(yōu)化技術(shù)來進(jìn)行。優(yōu)化候選抗原結(jié)合蛋白的序列可使用來自從其中鑒定鏈配對的序列數(shù)據(jù)的信息(例如通過分析與從其中鑒定鏈配對的輸入序列相似的序列)來進(jìn)行。用于優(yōu)化抗原結(jié)合蛋白的方法是本領(lǐng)域已知的,并且包括mason?et?al.[2021]、seeliger?et?al.,[2015]、warszawski?et?al.[2019]、hsiao?et?al.[2019]和richardson?et?al.[2021]等中描述的方法。這些方法中的任一種均可在本發(fā)明的范圍內(nèi)使用。
26、查詢序列可包含已知抗體的重鏈序列(或重鏈序列的一部分)。因此,第一鏈可以是已知抗體的重鏈序列或已知抗體的重鏈序列的一部分。查詢序列可已經(jīng)通過對一個或更多個樣品中的重鏈庫進(jìn)行大量bcr測序而獲得。該方法可包括通過對一個或更多個樣品中的重鏈庫的大量bcr測序來獲得查詢序列的步驟。一個或更多個樣品可來自一個或更多個對象。一個或更多個對象可已經(jīng)被鑒定為具有期望的特征,例如如特定的臨床表型或臨床相關(guān)特征,例如生物標(biāo)志物譜。例如,一個或更多個對象可對特定的疾病或病癥有抵抗力。疾病或病癥可選自癌癥(例如如乳腺癌)、神經(jīng)退行性疾病(例如如肌萎縮側(cè)索硬化)和感染性疾病(例如如covid-19)。該方法可包括為選自一個或更多個樣品中鑒定的第一(例如,重)鏈序列的多個查詢鏈序列(例如,重鏈序列)鑒定鏈配對(例如,重-輕配對),從而獲得鏈配對(例如,重鏈-輕鏈配對)組。該方法還可包括通過從與一個或更多個樣品相同的來源中篩選針對多種候選肽的抗體來鑒定一種或更多種靶標(biāo)。多種候選肽可基于一個或更多個樣品所來源于的物種來選擇。例如,一個或更多個樣品的來源可以是一個或更多個人對象,并且來自與一個或更多個樣品相同來源的抗體庫可針對代表人肽組(peptidome)的候選肽組進(jìn)行篩選,以選擇多種候選肽。鑒定與一種或更多種候選抗原結(jié)合蛋白結(jié)合的抗原可包括使用一種或更多種靶標(biāo),所述靶標(biāo)通過從與一個或更多個樣品相同的來源中篩選針對多種候選肽的抗體來鑒定。該方法還可包括基于一種或更多種標(biāo)準(zhǔn)過濾經(jīng)鑒定的鏈配對組。所述一種或更多種標(biāo)準(zhǔn)可應(yīng)用于候選抗原結(jié)合蛋白與之結(jié)合或預(yù)測與之結(jié)合的抗原或抗原組的身份。提供一個或更多個查詢序列可包括提供第一查詢(例如,重)鏈序列和第二查詢(例如,重)鏈序列,并且鑒定一個或更多個查詢序列中的每一個的第二(例如,輕)鏈序列可包括鑒定第一查詢序列的一個或更多個第二(例如,輕)鏈序列以及第二查詢序列的一個或更多個第二(例如,輕)鏈序列。該方法還可包括比較前一個第二鏈序列和后一個對應(yīng)鏈序列,以鑒定可能適合用作包含該兩個第一(例如重)鏈的雙特異性抗體的共用第二(例如輕)鏈的一個或更多個輕鏈。例如,一個或更多個候選第二鏈序列對于第一查詢和第二查詢可以是相同的或至少部分重疊的,并且滿足應(yīng)用于候選序列與第一查詢和第二查詢形成功能性對的預(yù)測概率的一個或更多個標(biāo)準(zhǔn)的一個或更多個候選第二鏈序列可被鑒定為適合用作雙特異性抗體的共用第二鏈。根據(jù)第四方面,提供了提供用于預(yù)測蛋白質(zhì)鏈對是否可能形成功能性抗原結(jié)合蛋白或用于鑒定包含鏈對的抗原結(jié)合蛋白的工具的方法,所述方法包括:提供包含來自已知的抗原結(jié)合蛋白的訓(xùn)練第一和第二/對應(yīng)蛋白質(zhì)鏈序列的訓(xùn)練數(shù)據(jù),以及訓(xùn)練深度學(xué)習(xí)模型以將一個或更多個蛋白質(zhì)鏈序列對作為輸入并使用該訓(xùn)練數(shù)據(jù)生成指示該/每個蛋白質(zhì)鏈對是功能性抗原結(jié)合蛋白的一部分的概率的評分(或來源于其的信息)。該深度學(xué)習(xí)模型包含編碼器模塊和分類器模塊。本方面的方法可具有關(guān)于第一方面所描述的任何特征。
27、該方法可具有以下特征中的任一個或更多個。提供訓(xùn)練數(shù)據(jù)可包括提供非成對的訓(xùn)練第一鏈序列和第二鏈序列。非成對的訓(xùn)練第一鏈序列和第二鏈序列可被稱為預(yù)訓(xùn)練數(shù)據(jù)。編碼器模塊可包含一個或更多個編碼器或解碼器。該方法還可包括使用非成對的訓(xùn)練第一和/或第二(例如重和/或輕)鏈序列訓(xùn)練序列至序列模型,以及使用預(yù)訓(xùn)練模型的編碼器對編碼器模塊的編碼器進(jìn)行初始化。編碼器模塊可包含一個或兩個這樣的編碼器,其可各自為以下的編碼器:bert模型或其變體,例如如bert、roberta、roformer、spanbert(joshi?et?al.2020)或distilbert;或者一個或兩個解碼器,其可各自為僅解碼器語言模型(decoder?only?language?model)(例如falcon、llama、gpt3及其變體)的解碼器。第一和第二基于轉(zhuǎn)換器的模型可各自包含roberta模型、bert模型或roformer模型。編碼器模塊可包含僅解碼器模型,例如falcon模型(例如,falcon模型的嵌入層和解碼器層)。該方法還可包括向用戶提供經(jīng)訓(xùn)練的深度學(xué)習(xí)模型。除非上下文另有說明,否則本文中所述的方法是計(jì)算機(jī)實(shí)施的,例如如在獲得、處理、分析樣品,或者生產(chǎn)、測試分子或組合物,或者使用分子或組合物以用于任何其他目的的情況下。
28、根據(jù)第五方面,提供了系統(tǒng),其包含:處理器;以及包含指令的計(jì)算機(jī)可讀介質(zhì),所述指令在由所述處理器執(zhí)行時使得處理器進(jìn)行任何前述方面的任何實(shí)施方案的方法的步驟。所述指令可使處理器進(jìn)行第一至第四方面的任何實(shí)施方案的方法的步驟。
29、根據(jù)第六方面,提供了一種或更多種包含指令的計(jì)算機(jī)可讀介質(zhì),所述指令在由一個或更多個處理器執(zhí)行時使得一個或更多個處理器進(jìn)行任何前述方法方面的任何實(shí)施方案的方法的步驟。所述指令可使處理器進(jìn)行第一至第四方面的任何實(shí)施方案的方法的步驟。
30、根據(jù)第七方面,提供了包含指令的計(jì)算機(jī)程序產(chǎn)品,所述指令在由一個或更多個處理器執(zhí)行時使得一個或更多個處理器進(jìn)行任何前述方法方面的任何實(shí)施方案的方法的步驟。所述指令可使處理器進(jìn)行第一至第四方面的任何實(shí)施方案的方法的步驟。