国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

一種基于序相關(guān)度的部分有序數(shù)據(jù)分類方法及系統(tǒng)

文檔序號:42326718發(fā)布日期:2025-07-01 19:45閱讀:10來源:國知局

本發(fā)明屬于部分有序數(shù)據(jù)分類研究,具體涉及一種基于序相關(guān)度的部分有序數(shù)據(jù)分類方法及系統(tǒng)。


背景技術(shù):

1、數(shù)據(jù)集的復(fù)雜性通常體現(xiàn)在數(shù)據(jù)的多樣性上。數(shù)據(jù)不僅在格式上存在差異,在不同的應(yīng)用場景下,數(shù)據(jù)的特性也可能存在顯著差異,既有連續(xù)型變量,也有離散型變量,甚至在某些情況下,還包括具有特定序列關(guān)系的特征。這些復(fù)雜的特征關(guān)系,往往使得數(shù)據(jù)的處理變得更加困難,尤其是在進行分類、聚類、回歸等任務(wù)時。在機器學(xué)習(xí)的分類任務(wù)中,通常需要將數(shù)據(jù)集中的樣本根據(jù)特征的不同分配到預(yù)定義的類別中。

2、一般的分類方法通常采用統(tǒng)一的方式來處理數(shù)據(jù)集中的所有特征,而忽視了不同特征之間可能存在的顯著差異。這類方法在處理部分有序數(shù)據(jù)集中的特征時,沒有考慮特征間具有的序關(guān)系,可能導(dǎo)致模型性能的下降。序關(guān)系是指特征與類別之間的一種潛在的順序性關(guān)聯(lián),即某些特征的取值與類別之間存在著明確的順序或者等級關(guān)系。這種特征通常被稱為有序特征。相反,類別與特征之間未呈現(xiàn)出這種順序關(guān)系的特征稱為無序特征。在現(xiàn)實世界的應(yīng)用中,許多數(shù)據(jù)集往往是部分有序數(shù)據(jù)集,即同時包含了有序特征和無序特征。例如,在醫(yī)學(xué)診斷中,血糖水平、血壓等生物標志物通常與疾病的嚴重程度呈現(xiàn)出明顯的序關(guān)系;在教育數(shù)據(jù)分析中,學(xué)生的考試成績與學(xué)業(yè)表現(xiàn)等級之間也往往存在著某種序列性;在金融風(fēng)險管理中,信用評分和違約風(fēng)險的關(guān)系常常具有明顯的序性。這些特征的識別和合理利用,對于提高分類模型的性能和解釋性具有重要意義。

3、然而,在傳統(tǒng)的數(shù)據(jù)分類方法中,通常沒有充分考慮有序特征的特殊性。很多經(jīng)典的分類算法,如支持向量機(svm)、決策樹(decision?tree)、k-近鄰(knn)等,往往假設(shè)所有特征是獨立同等的,且對不同類型的特征采取相同的處理方式。這種“一刀切”的處理方式,忽視了有序特征所包含的潛在信息,從而導(dǎo)致模型在分類任務(wù)中的效果未能達到最佳。有序特征作為數(shù)據(jù)與類別之間的重要橋梁,能夠為分類模型提供更具區(qū)分度和解釋力的特征信息。如何在部分有序數(shù)據(jù)集中有效識別這些有序特征,并充分利用其特性進行優(yōu)化,是當前數(shù)據(jù)挖掘與機器學(xué)習(xí)領(lǐng)域亟待解決的一個重要問題。為了有效地解決這一問題,研究者們已經(jīng)提出了不同的解決思路。比如,某些研究嘗試通過改進特征選擇方法來識別有序特征,另一些研究則通過設(shè)計新的學(xué)習(xí)算法,特別是深度學(xué)習(xí)算法,來自動發(fā)現(xiàn)特征間的順序關(guān)系。然而,針對有序特征的專門研究仍然相對較少,且多數(shù)研究聚焦在數(shù)據(jù)預(yù)處理、特征選擇或深度學(xué)習(xí)模型的設(shè)計上,缺乏對有序特征本身進行深度挖掘和應(yīng)用的研究。

4、有序特征的識別與利用在實際應(yīng)用中具有廣泛的意義。在醫(yī)療領(lǐng)域,患者的血糖水平、體溫、血壓等生理特征,往往能夠反映出疾病的嚴重程度和發(fā)展趨勢。如果能夠準確地識別和利用這些有序特征,就能夠幫助醫(yī)生作出更加精準的診斷,并為患者提供個性化的治療方案。因此,如何有效地從部分有序數(shù)據(jù)集中識別和利用有序特征,是提升分類模型性能和解釋性的重要方向。目前,盡管已有部分研究探索了有序特征的處理方法,但仍然存在一定的挑戰(zhàn)。首先,如何從復(fù)雜的數(shù)據(jù)集中準確地識別出有序特征,并有效區(qū)分它們與無序特征之間的關(guān)系,是一個關(guān)鍵問題。其次,如何在分類模型中充分利用這些有序特征,提升分類精度并保證模型的魯棒性,也是當前技術(shù)面臨的難題。


技術(shù)實現(xiàn)思路

1、針對如何從復(fù)雜的數(shù)據(jù)集中準確地識別出有序特征,并解決有序數(shù)據(jù)的分類問題,本發(fā)明提供了一種基于序相關(guān)度的部分有序數(shù)據(jù)分類方法及系統(tǒng),通過識別有序特征及其順序方向,并在保持有序特征的內(nèi)在順序關(guān)系的同時,考慮無序特征的影響,最后利用單調(diào)神經(jīng)網(wǎng)絡(luò)將有序特征和無序特征相結(jié)合,實現(xiàn)對部分有序數(shù)據(jù)的分類。

2、為了達到上述目的,本發(fā)明采用了下列技術(shù)方案:

3、一種基于序相關(guān)度的部分有序數(shù)據(jù)分類方法,包括以下步驟:

4、s1、選定數(shù)據(jù)集,針對數(shù)據(jù)集中的特征,通過計算序相關(guān)度(oc)以區(qū)分有序和無序特征,并判斷序方向;

5、進一步地,所述步驟s1的具體操作為:

6、s1.1、確定數(shù)據(jù)集u={xi,yi},設(shè)置判斷有序特征的閾值θ=0.2;

7、s1.2、讀取數(shù)據(jù)集{xi,yi};

8、s1.3、分別設(shè)置3個空列表am+,am-,an,分別存放正序特征,逆序特征以及無序特征;

9、s1.4、用ai表示待識別特征,表示除了ai外的其余特征;

10、s1.5、判斷特征ai與特征中的特征是否存在共線性,存在時去除共線性,隨后計算特征ai與變量y的殘差集,并計算特征的序相關(guān)度oc值;

11、s1.5.1、利用皮爾遜相關(guān)系數(shù)判斷特征ai與特征中的特征是否存在共線性,皮爾遜相關(guān)系數(shù)計算公式如下:

12、

13、式中,xi和yi分別表示兩個變量的第i個觀測值;分別表示變量x和y的均值;n是樣本數(shù)量;

14、s1.5.2、利用以下方法去除共線性:

15、以特征ai為自變量,a為因變量,構(gòu)建線性回歸模型:

16、a=β1·ai+e1#?(2)

17、式中,β1是回歸系數(shù),用于描述特征ai對因變量a的線性貢獻;e1是殘差項,表示因變量a中無法由特征ai解釋的部分;

18、通過回歸方程計算殘差e1:

19、e1=a-β1·ai#?(3)

20、殘差e1表示因變量a中去除了特征ai的線性影響后剩余的獨立部分;

21、將因變量a替換為殘差e1,消除特征ai與因變量a的共線性:

22、a=e1#?(4)

23、s1.5.3、計算特征ai與變量y的殘差集;利用特征分別對特征ai和變量y做回歸:

24、

25、式中,βi表示對特征ai做回歸時特征的權(quán)重系數(shù);βj表示對變量y做回歸時特征的權(quán)重系數(shù);表示特征ai的預(yù)測值;表示變量y的預(yù)測值;αi表示對特征ai做回歸時的偏置項,αj表示對變量y做回歸時的偏置項;

26、

27、

28、式中,ei和ej分別是變量y和特征ai中未被解釋的殘差;

29、s1.5.4、計算特征的序相關(guān)度oc值,公式如下:

30、

31、式中,分別為ei和ej的秩;

32、s1.6、當則:

33、an←ai#?(10)

34、當則:

35、am+←ai#?(11)

36、當則:

37、am-←ai#?(12)

38、s1.7、返回集合am+,am-,an,分別為正序特征,逆序特征和無序特征;

39、s1.8、根據(jù)識別結(jié)果將數(shù)據(jù)集分為無序數(shù)據(jù)集和有序數(shù)據(jù)集對數(shù)據(jù)集進行標準化和歸一化,對于每個特征xi,通過以下公式進行標準化:

40、

41、式中,μ是該特征的均值,σ是標準差;

42、歸一化使用最小最大縮放法,公式如下:

43、

44、s2、由步驟s1獲取數(shù)據(jù)集的無序特征,對無序特征,通過計算其權(quán)重函數(shù)得到無序特征的權(quán)重系數(shù);

45、進一步地,所述步驟s2的具體操作為:

46、s2.1、通過特征的序相關(guān)度oc值獲取包含無序特征的數(shù)據(jù)集un;

47、s2.2、使用層次聚類對數(shù)據(jù)集進行劃分得到聚類結(jié)果;

48、s2.3、初始化一個空列表s,用于存儲每次聚類結(jié)果的輪廓系數(shù);

49、s2.4、對于每個聚類結(jié)果,通過以下公式計算其輪廓系數(shù)并將輪廓系數(shù)存儲到列表s中:

50、

51、式中,a表示目標樣本與同一簇內(nèi)其他樣本之間的平均距離,b表示目標樣本與最近的不同簇中所有點之間的平均距離;當某一個簇中只有一個樣本,即出現(xiàn)離群點時s=0;

52、s2.5、選擇空列表s中具有高輪廓系數(shù)的劃分作為聚類結(jié)果;

53、s2.6、對于每個聚類結(jié)果,執(zhí)行以下步驟:

54、s2.6.1、計算聚類均值;

55、s2.6.2、對于該聚類結(jié)果中的每個樣本,使用下列公式計算歐幾里得距離:

56、

57、式中,表示樣本的歐氏距離,表示無序特征的第i個樣本,是包含的簇均值;

58、s2.6.3、使用下列公式計算的權(quán)重:

59、

60、s2.7、對于無序數(shù)據(jù)集最終得到的權(quán)重系數(shù)集合為s3、由步驟s1獲取數(shù)據(jù)集的有序特征,對有序特征,使用單調(diào)神經(jīng)網(wǎng)絡(luò)(mnn)進行建模;

61、進一步地,所述步驟s3的具體操作為:

62、s3.1、構(gòu)建單調(diào)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)是一個全連接的四層神經(jīng)網(wǎng)絡(luò),有i個輸入,第一隱藏層有h個節(jié)點,第二隱藏層有l(wèi)個節(jié)點,輸出層為單個輸出,輸出層定義如式(18)所示:

63、

64、式中,表示網(wǎng)絡(luò)的最終輸出值;ωb,ωl分別表示第二隱藏層的權(quán)重和偏置項;ωb,l表示第一隱藏層的偏置項;ωlh表示第一隱藏層的權(quán)重;ωb,h表示輸入層的偏置項;ωhi表示輸入層的權(quán)重;θ1,θ2分別表示第一、第二隱藏層的激活函數(shù);

65、s3.2、構(gòu)建輸入層;輸入層有i個節(jié)點,每個節(jié)點代表一個輸入特征;輸入特征為um中的有序特征,通過加權(quán)傳遞到隱藏層;

66、s3.3、構(gòu)建第一隱藏層;該層包括多個節(jié)點用于處理輸入數(shù)據(jù),節(jié)點的輸出值通過激活函數(shù)tanh進行計算,tanh函數(shù)表達式如式(19)所示:

67、

68、隱藏層的輸出表達式如(20)所示:

69、

70、式中,w1是權(quán)重,b1是偏置項,是輸入層的第i個輸入;

71、s3.4、構(gòu)建第二隱藏層,該層包括多個節(jié)點節(jié)點的輸出值使用tanh激活函數(shù)進行輸出計算,表達式如(21)所示:

72、

73、其中,w2是第二層的權(quán)重,b2是第二層的偏置項,是從第一隱藏層輸出的結(jié)果;

74、s3.5、構(gòu)建輸出層;輸出層有一個節(jié)點是整個網(wǎng)絡(luò)的預(yù)測輸出;softmax用于將輸出轉(zhuǎn)換為概率值,表達式如(22)所示:

75、

76、式中,是第二隱藏層的輸出;

77、s3.6、進行前向傳播,前向傳播是計算神經(jīng)網(wǎng)絡(luò)輸出的過程;對于每一層,計算輸入與權(quán)重的加權(quán)和,并通過激活函數(shù)處理;具體步驟如下:

78、s3.6.1、輸入層到第一隱藏層;對輸入通過權(quán)重w1和偏置b1,計算每個隱藏節(jié)點的輸出

79、s3.6.2、第一隱藏層到第二隱藏層;使用上一層的輸出作為輸入,通過權(quán)重w2和偏置b2,計算第二隱藏層節(jié)點的輸出

80、s3.6.3、第二隱藏層到輸出層;將第二隱藏層的輸出傳遞給輸出層,通過softmax激活函數(shù)得到最終輸出;

81、s3.7、進行誤差反向傳播;通過計算網(wǎng)絡(luò)的損失來評估預(yù)測輸出與實際標簽的差異,反向傳播算法用于調(diào)整網(wǎng)絡(luò)中的權(quán)重,以最小化誤差,步驟如下:

82、s3.7.1、計算輸出誤差;計算輸出層的誤差公式為式(23):

83、

84、式中,是網(wǎng)絡(luò)預(yù)測輸出,y是真實標簽;

85、s3.7.2、計算隱藏層誤差;使用鏈式法則計算隱藏層的誤差,并將誤差傳遞到上一層,直到輸入層;

86、s3.7.3、更新權(quán)重和偏置;使用梯度下降法更新權(quán)重w和偏置,公式如(24),(25)所示:

87、

88、式中,η是學(xué)習(xí)率,是權(quán)重的梯度,為偏置梯度。

89、s4、在s3得到的單調(diào)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,添加自定義損失函數(shù),用于實現(xiàn)單調(diào)性約束,以優(yōu)化分類性能;

90、進一步地,所述步驟s4的具體操作為:

91、s4.1、獲取模型輸出相對于每個特征的梯度;

92、s4.2、單調(diào)遞增特征和單調(diào)遞減特征的梯度分別用向量gi和gd表示;

93、s4.3、對于gi,懲罰函數(shù)pi的公式如式(26)所示:

94、

95、式中,sigmoid函數(shù)表達式式(27)所示:

96、

97、s4.4、對于gd,懲罰函數(shù)pd的公式如式(28)所示:

98、

99、s4.5、結(jié)合原網(wǎng)絡(luò)損失函數(shù),最終得到的損失函數(shù)為式(29)所示:

100、loss=lo+λ(pi+pd)#?(29)

101、式中,lo表示原網(wǎng)絡(luò)損失函數(shù),λ表示懲罰項權(quán)重。

102、s5.1、獲取單調(diào)神經(jīng)網(wǎng)絡(luò)模型輸出,結(jié)果如式(30)所示:

103、

104、s5.2、將模型輸出結(jié)果與無序特征權(quán)重相結(jié)合計算概率向量,表示各類別對應(yīng)的概率,如式(31)所示:

105、

106、式中,表示每個樣本對應(yīng)無序特征的權(quán)重。

107、s5.3、中最大概率值所對應(yīng)的類別作為最終的分類結(jié)果。

108、一種基于序相關(guān)度的部分有序數(shù)據(jù)分類系統(tǒng),所述系統(tǒng)包括計算機處理器和內(nèi)存、部分有序數(shù)據(jù)預(yù)處理單元、選擇模型單元、部分有序數(shù)據(jù)模型訓(xùn)練單元、部分有序數(shù)據(jù)模型測試單元;所述部分有序數(shù)據(jù)預(yù)處理單元對輸入網(wǎng)絡(luò)的數(shù)據(jù)集進行預(yù)處理,并加載到計算機內(nèi)存中;選擇模型單元選擇現(xiàn)有的分類模型作為數(shù)據(jù)集的分類器,設(shè)置好對應(yīng)參數(shù)并加載到計算機內(nèi)存中;部分有序數(shù)據(jù)模型訓(xùn)練預(yù)測單元將選擇的模型在導(dǎo)入的數(shù)據(jù)集上進行訓(xùn)練并展示損失曲線圖,最后將訓(xùn)練好的模型保存到計算機內(nèi)存;部分有序數(shù)據(jù)模型測試單元利用訓(xùn)練好的分類模型對測試數(shù)據(jù)集進行測試,并展示測試結(jié)果以及分類準確率和均方誤差;所有單元中具體的數(shù)據(jù)處理和計算工作由所述計算機處理器完成,且所有單元都與所述計算機內(nèi)存的數(shù)據(jù)交互;

109、所述部分有序數(shù)據(jù)預(yù)處理單元執(zhí)行步驟s1~s2;

110、所述選擇模型單元執(zhí)行步驟s3.1~s3.5;

111、所述部分有序數(shù)據(jù)模型訓(xùn)練單元執(zhí)行步驟s3.6~步驟s5。

112、與現(xiàn)有技術(shù)相比本發(fā)明具有以下優(yōu)點:

113、(1)發(fā)明了一種基于特征與類別間序關(guān)系挖掘的方法序相關(guān)度(oc),以便準確識別數(shù)據(jù)集中的有序特征。通過劃分特征集為目標特征和其余特征,利用線性回歸去除影響偏相關(guān)計算的特征共線性,然后用其余特征分別對目標特征和標簽做回歸,消除特征間相互影響后得到兩組殘差,計算兩組殘差的斯皮爾曼相關(guān)系數(shù),最終結(jié)果表示目標特征與標簽的真實序關(guān)系及序方向,最后設(shè)置閾值區(qū)分有序特征與無序特征。相比于其他識別方法,該方法能夠準確區(qū)分部分有序數(shù)據(jù)集中真實的有序和無序特征。

114、(2)在傳統(tǒng)單調(diào)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,利用無序特征權(quán)重化這一方案,設(shè)計出了部分有序神經(jīng)網(wǎng)絡(luò)(ponn),先通過oc區(qū)分有序無序特征,對于無序特征,利用最優(yōu)聚類劃分后計算樣本與聚類中心距離并將其轉(zhuǎn)化為對應(yīng)的一組權(quán)重系數(shù);有序特征則通過初始化輸入網(wǎng)絡(luò)的權(quán)重符號對其施加單調(diào)約束。同時在原始損失函數(shù)中添加懲罰項,對訓(xùn)練過程中違背單調(diào)約束的特征進行修正,保證有序特征在訓(xùn)練過程中服從單調(diào)約束。最后將網(wǎng)絡(luò)輸出同無序特征權(quán)重系數(shù)進行卷積得到最終的輸出結(jié)果。本發(fā)明能夠解決部分有序數(shù)據(jù)的分類問題,克服了在部分有序數(shù)據(jù)集上對有序特征施加單調(diào)約束的同時充分考慮無序特征的影響這一難題,該方法在性能上優(yōu)于其他現(xiàn)有算法。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1