本申請涉及地名地址翻譯,且更為具體地,涉及一種集成人工智能專名通名拆分的地名地址翻譯工具及方法。
背景技術:
1、隨著全球化的深入發(fā)展和國際交流的日益頻繁,跨語言的地名地址信息傳遞與理解變得至關重要。無論是國際貿(mào)易、物流運輸、跨國旅游、應急響應還是文化交流,準確、高效的地名地址翻譯都是保障順暢溝通和有效協(xié)作的基礎。然而,地名地址作為一種特殊的語言現(xiàn)象,其翻譯不僅涉及語言轉(zhuǎn)換,更與地理、文化、行政管理等多種因素緊密相關,具有高度的復雜性和特殊性。傳統(tǒng)的機器翻譯系統(tǒng)或人工翻譯方法在處理地名地址時,往往面臨諸多挑戰(zhàn),例如對地名中的專名(如“朝陽”)和通名(如“區(qū)”、“街道”)識別不清,導致翻譯錯誤或不符合目標語言的表達習慣;對多級行政區(qū)劃嵌套、別名、俗稱等現(xiàn)象處理不當,造成信息丟失或歧義;以及無法保證特定地理實體標準譯名的統(tǒng)一性和權威性,嚴重影響了地名地址翻譯的質(zhì)量和實用性。
2、現(xiàn)有的地名地址翻譯技術多采用基于規(guī)則或統(tǒng)計模型的翻譯方法,雖然能夠處理部分簡單和規(guī)范的地名地址,但對于復雜結(jié)構、口語化表達或新興地名的處理能力有限,規(guī)則庫的維護成本高昂,且難以適應地名信息的動態(tài)變化。近年來,盡管神經(jīng)機器翻譯(nmt)在通用文本翻譯領域取得了顯著進展,但直接應用于地名地址翻譯時,由于缺乏對地名地址特有結(jié)構和語義的深入理解,常常出現(xiàn)將專名錯誤翻譯、通名處理不當、或無法識別地名層級關系等問題,導致翻譯結(jié)果生硬、不自然,甚至完全錯誤。例如,模型可能無法準確區(qū)分“北京路”中的“北京”是專名還是指代“北京市”,也難以恰當處理“太陽宮中路”這類嵌套式地名,從而影響翻譯的準確性和可用性。
3、因此,需要一種優(yōu)化的集成人工智能專名通名拆分的地名地址翻譯工具及方法來解決上述技術問題。
技術實現(xiàn)思路
1、為了解決上述技術問題,提出了本申請。
2、根據(jù)本申請的一個方面,提供了一種集成人工智能專名通名拆分的地名地址翻譯方法,其包括:
3、s1,獲取用戶輸入的待翻譯地名地址以及指定的目標翻譯語言;
4、s2,使用llm模型對所述待翻譯地名地址進行專名通名拆分和類型標注以得到帶標注的待翻譯地名地址片段的序列;
5、s3,基于預設地理術語知識庫,查詢所述帶標注的待翻譯地名地址片段的序列中的各個待翻譯地名地址片段是否為最小翻譯單元,若否,則對所述待翻譯地名地址片段迭代執(zhí)行步驟s2和步驟s3,以得到帶標注的待翻譯地名地址最小翻譯單元的序列;
6、s4,對所述帶標注的待翻譯地名地址最小翻譯單元的序列中的各個待翻譯地名地址最小翻譯單元進行翻譯處理以得到目標語言地名地址翻譯結(jié)果;
7、s5,對所述目標語言地名地址翻譯結(jié)果進行規(guī)范化處理以得到地名地址翻譯輸出。
8、根據(jù)本申請的另一個方面,提供了一種集成人工智能專名通名拆分的地名地址翻譯工具,其包括:
9、用戶輸入模塊,用于獲取用戶輸入的待翻譯地名地址以及指定的目標翻譯語言;
10、地名預處理模塊,用于使用llm模型對所述待翻譯地名地址進行專名通名拆分和類型標注以得到帶標注的待翻譯地名地址片段的序列;
11、最小翻譯單元識別模塊,用于基于預設地理術語知識庫,查詢所述帶標注的待翻譯地名地址片段的序列中的各個待翻譯地名地址片段是否為最小翻譯單元,若否,則對所述待翻譯地名地址片段循環(huán)調(diào)用地名預處理模塊和最小翻譯單元識別模塊進行處理,以得到帶標注的待翻譯地名地址最小翻譯單元的序列;
12、翻譯處理模塊,用于對所述帶標注的待翻譯地名地址最小翻譯單元的序列中的各個待翻譯地名地址最小翻譯單元進行翻譯處理以得到目標語言地名地址翻譯結(jié)果;
13、翻譯結(jié)果規(guī)范化模塊,用于對所述目標語言地名地址翻譯結(jié)果進行規(guī)范化處理以得到地名地址翻譯輸出。
14、有益效果:與現(xiàn)有技術相比,本申請?zhí)峁┑募扇斯ぶ悄軐C鸱值牡孛刂贩g工具及方法,其采用基于深度學習的人工智能技術對待翻譯地名地址進行語義解析和上下文語義關聯(lián)強化,并利于基于prompt驅(qū)動的llm模型實現(xiàn)對待翻譯地名地址的專名通名拆分及類型標注,生成帶標注的地名地址片段序列。隨后,基于預設地理術語知識庫,對各個地名地址片段進行迭代式最小翻譯單元判定,通過逐層查詢比對,對非最小單元片段實施遞歸分解,直至所有片段均滿足最小翻譯粒度要求,進而基于類型標注結(jié)果對各個翻譯單元實施音譯或標準譯名轉(zhuǎn)換,并通過規(guī)范化處理輸出符合標準的地名地址譯文。該方法能夠有效解決傳統(tǒng)翻譯中語義拆分不準確、譯名標準化不足的問題,從而提升跨境地圖服務、國際物流等場景的地名地址翻譯質(zhì)量。
1.集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,包括:
2.根據(jù)權利要求1所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,所述步驟s2,包括:
3.根據(jù)權利要求2所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,提取所述標準化待翻譯地名地址的上下文語義特征以得到待翻譯地名地址上下文語義編碼向量,包括:
4.根據(jù)權利要求3所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,對所述待翻譯地名地址上下文語義編碼向量進行上下文語義關聯(lián)強化以得到待翻譯地名地址上下文語義關聯(lián)增強編碼向量,包括:
5.根據(jù)權利要求4所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,對所述待翻譯地名地址上下文語義編碼向量進行基于局部尺度的語義特征蒸餾細化以得到待翻譯地名地址局部語義特征蒸餾編碼向量的序列,包括:
6.根據(jù)權利要求5所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,基于所述待翻譯地名地址局部語義特征編碼向量的序列的上下文語義關聯(lián)拓撲結(jié)構,對所述待翻譯地名地址局部語義特征編碼向量的序列中的各個待翻譯地名地址局部語義特征編碼向量進行特征蒸餾編碼以得到所述待翻譯地名地址局部語義特征蒸餾編碼向量的序列,包括:
7.根據(jù)權利要求6所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,基于所述待翻譯地名地址局部語義特征細粒度關聯(lián)掩碼拓撲矩陣,對所述待翻譯地名地址局部語義特征編碼向量的序列中的各個待翻譯地名地址局部語義特征編碼向量進行特征結(jié)構反饋調(diào)制以得到所述待翻譯地名地址局部語義特征蒸餾編碼向量的序列,包括:
8.根據(jù)權利要求7所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,對所述待翻譯地名地址局部語義特征蒸餾編碼向量的序列進行上下文關聯(lián)重構以得到所述待翻譯地名地址上下文語義關聯(lián)增強編碼向量,包括:
9.根據(jù)權利要求1所述的集成人工智能專名通名拆分的地名地址翻譯方法,其特征在于,所述步驟s4,包括:
10.集成人工智能專名通名拆分的地名地址翻譯工具,其特征在于,包括: