本發(fā)明涉及機(jī)器學(xué)習(xí),尤其涉及一種預(yù)測效果好的基于端粒長度的人體生理年齡預(yù)測方法。
背景技術(shù):
1、端粒是存在于真核生物線狀染色體末端的一小段dna蛋白質(zhì)復(fù)合體,它與端粒結(jié)合蛋白一起構(gòu)成了特殊的“帽子”結(jié)構(gòu),作用是保持染色體的完整性和控制細(xì)胞分裂周期。人類剛出生時,端粒長度在10000-15000個堿基對左右。細(xì)胞在分裂過程中,由于存在末端復(fù)制問題,dna?雙鏈中的一條不能進(jìn)行完全復(fù)制,導(dǎo)致dna變短,端粒會丟失幾個堿基對,每年會縮短30-200個堿基對左右。當(dāng)端??s短到一個臨界長度時,細(xì)胞將無法繼續(xù)分裂,觸發(fā)dna損傷,導(dǎo)致細(xì)胞衰老和死亡,引起人體衰老和各種衰老疾病。這也被稱為海夫利克極限,即胎兒細(xì)胞具有有限的復(fù)制潛能,只可以復(fù)制40-60次。
2、然而,除了細(xì)胞的分裂之外,還存在一些其他的因素影響著端??s短的速率,包括遺傳因素、生活方式、環(huán)境壓力等。比如端粒酶活性被抑制,從而端粒無法得到補(bǔ)充延長而加劇端??s短的速度;端粒維持基因(如tert、terc、dkc等)的突變會導(dǎo)致端??s短加速;氧化應(yīng)激會破壞端粒酶的功能,導(dǎo)致端粒無法正常修復(fù),從而加速縮短;過大的壓力、肥胖、不良的生活方式(如吸煙、酗酒、缺乏運(yùn)動)和環(huán)境毒素等均會加速端??s短;慢性炎癥和感染會增加氧化應(yīng)激,進(jìn)而加速端??s短。所以,量化端粒損耗的程度和縮短的速率,可以評估端粒功能是否正常和可能影響端粒速率的因素。
3、參考rossiello?f等在《nature?cell?biology》上發(fā)表的文章:telomeredysfunction?in?ageing?and?age-related?diseases,端粒縮短會激活細(xì)胞周期抑制因子(如p16ink4a和p21),導(dǎo)致細(xì)胞進(jìn)入衰老狀態(tài),而且端??s短過快,會提高各種衰老相關(guān)疾病發(fā)生的風(fēng)險。比如端??s短過快導(dǎo)致細(xì)胞進(jìn)入衰老狀態(tài),細(xì)胞功能下降,組織再生能力減弱,從而加速細(xì)胞衰老;同時激活炎癥通路,釋放炎癥因子,加劇組織損傷,促使肺纖維化(ipf)、動脈粥樣硬化、肝硬化、二型糖尿病、阿爾茨海默癥與帕金森病還有骨質(zhì)疏松癥等衰老相關(guān)疾病的發(fā)生;還會導(dǎo)致干細(xì)胞功能下降,無法有效修復(fù)受損組織,從而引起干細(xì)胞衰竭。所以,通過個體的實(shí)際年齡和端粒長度預(yù)測人體的生理年齡,監(jiān)控個體的衰老速度,個性化定制個體的健康管理干預(yù)方案,可以有效延緩衰老和提高身體健康水平。
4、參考?lópez-otín?c等在《cell》上發(fā)表的文章:hallmarks?of?aging:?anexpanding?universe,端粒損耗是十二大衰老標(biāo)志物之一,可以評估個體在生理上的衰老程度,端粒越長越年輕,越短越衰老,疾病患者的端粒長度要顯著高于健康個體,不良的生活習(xí)慣(吸煙,飲酒,熬夜等)也與更短的端粒長度相關(guān)。所以量化端粒損耗程度和衰老程度的關(guān)系,為人體的健康管理干預(yù)提供了可靠的證據(jù)。
5、當(dāng)前,基于端粒長度預(yù)測生理年齡的做法,因?yàn)闃颖举|(zhì)量、檢測端粒長度技術(shù)的穩(wěn)定性和準(zhǔn)確性等不可抗力的因素導(dǎo)致的異常數(shù)據(jù)并沒有進(jìn)行過濾,影響到了模型的學(xué)習(xí),并且沒有區(qū)分性別,也沒有探索不同的年齡段的差異,建立的模型在不同年齡段上以及男女之間并沒有很好的泛化適應(yīng)能力。因?yàn)椴煌挲g段和不同性別之間,身體代謝能力、自我修復(fù)能力和免疫能力是有較大的差異的,單一的整體模型難以準(zhǔn)確反映其具體狀況。因此,有必要提出一種改進(jìn)以克服現(xiàn)有技術(shù)缺陷。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是解決現(xiàn)有技術(shù)中的問題,提供一種基于端粒長度的人體生理年齡預(yù)測方法。
2、本發(fā)明的技術(shù)方案是:
3、一種基于端粒長度的人體生理年齡預(yù)測方法,包括以下步驟:s1、端粒數(shù)據(jù)采集及過濾:采集端粒檢測數(shù)據(jù)及日歷年齡;將端粒檢測數(shù)據(jù)進(jìn)行分組,在分組數(shù)據(jù)中進(jìn)行異常數(shù)據(jù)過濾:將端粒檢測數(shù)據(jù)按年齡進(jìn)行分組,計算每個年齡組的四分位距(iqr,上四分位與下四分位的差值),然后根據(jù)上四分位值與iqr的2.5倍值之和為上限閾值,下四分位與iqr的2.5倍值之差為下限閾值,將每個年齡組數(shù)據(jù)中高于所述上限閾值和低于所述下限閾值的數(shù)據(jù)作為異常值過濾掉;s2、在過濾掉異常值的數(shù)據(jù)中,按照性別分為男性數(shù)據(jù)集和女性數(shù)據(jù)集,并且按照年齡段分別將男性數(shù)據(jù)集和女性數(shù)據(jù)集拆分成不同年齡段的男性數(shù)據(jù)子集和女性數(shù)據(jù)子集;s3、分別將各男性數(shù)據(jù)子集和女性數(shù)據(jù)子集按照比例劃分為訓(xùn)練集和測試集;s4、分別在訓(xùn)練集中使用機(jī)器學(xué)習(xí)模型進(jìn)行建模,模型訓(xùn)練結(jié)束后在測試集中進(jìn)行驗(yàn)證;s5、進(jìn)行人體生理年齡預(yù)測校正:根據(jù)回歸趨中效應(yīng)進(jìn)行年齡校正,將日歷年齡作為自變量,原始年齡差作為因變量進(jìn)行線性回歸;原始年齡差=斜率*日歷年齡+截距+殘差;其中,殘差為校正之后的年齡差,即從原始的年齡差中去除與日歷年齡相關(guān)的部分,公式為:校正年齡差=原始年齡差–(斜率*原始年齡差+截距);其中,斜率和截距為計算得出,具體計算方法為:分別在男性數(shù)據(jù)集和女性數(shù)據(jù)集的訓(xùn)練集中將原始年齡差和日歷年齡進(jìn)行線性擬合,得到男性數(shù)據(jù)集和女性數(shù)據(jù)集中的斜率和截距;然后,在測試集中將預(yù)測得到的生理年齡與日歷年齡的原始差值帶入公式得到測試集中的校正年齡差。
4、作為一種優(yōu)選的技術(shù)方案,步驟s5之后還包括以下步驟:s6、計算衰老指數(shù):衰老指數(shù)計算公式為:衰老指數(shù)=校正年齡差/日歷年齡。
5、作為一種優(yōu)選的技術(shù)方案,步驟s5之后還包括以下步驟:s7、計算基于男女不同年齡段的數(shù)據(jù)子集所建模型的mae值(平均絕對值誤差),分別在男女不同年齡段的數(shù)據(jù)子集所建模型中選擇mae值最小的模型,進(jìn)行步驟s3至s5,進(jìn)行該年齡段的生理年齡預(yù)測。
6、作為一種優(yōu)選的技術(shù)方案,步驟s1中所述端粒檢測數(shù)據(jù)為端粒絕對長度。
7、作為一種優(yōu)選的技術(shù)方案,步驟s3中訓(xùn)練集和測試集數(shù)據(jù)量的比值為2:1、3:1、4:1或5:1。
8、作為一種優(yōu)選的技術(shù)方案,步驟s3與步驟s4之間還包括以下步驟:s8、對訓(xùn)練集的數(shù)據(jù)進(jìn)行均一化處理;均一化的方式可以為z-score標(biāo)準(zhǔn)化,最大最小值均一化,中值均一化,最大絕對值均一化中的任意一種。
9、作為一種優(yōu)選的技術(shù)方案,步驟s4中機(jī)器學(xué)習(xí)模型為線性回歸模型linearregression、svr、lightgbm、catboost、ridge、randomforest、xgboost、huber、lasso、elasticnet、neural?network中的一種。
10、作為一種進(jìn)一步優(yōu)選的技術(shù)方案,步驟s4中機(jī)器學(xué)習(xí)模型采用線性回歸模型linearregression。
11、本發(fā)明的一種基于端粒長度的人體生理年齡預(yù)測方法,基于人群血液中白細(xì)胞的端粒長度指標(biāo),以端粒損耗程度量化個體的衰老程度,同時基于端粒長度和實(shí)際日歷年齡構(gòu)建預(yù)測生理年齡的機(jī)器學(xué)習(xí)模型,用以評估人體相對于自身真實(shí)年齡的衰老狀況。在預(yù)測過程中,首先針對每個年齡上的端粒數(shù)據(jù)異常分布值做了識別和過濾,在機(jī)器學(xué)習(xí)模型構(gòu)建過程中,本發(fā)明分別針對男女在不同年齡段構(gòu)建了生理年齡模型,用以準(zhǔn)確評估個體的健康狀況和衰老程度。因此,本發(fā)明的一種基于端粒長度的人體生理年齡預(yù)測方法具有預(yù)測效果好,準(zhǔn)確性高的優(yōu)點(diǎn)。