本發(fā)明涉及人工智能,特別是涉及一種基于大語言模型和智能語音的口語問答評測方法及系統(tǒng)。
背景技術(shù):
1、口語是人類最直接也是最常用的交流方式。口語表達(dá)能力,無論在工作中還是在日常生活中,都很重要。良好的口語表達(dá)能力,能夠有效地、準(zhǔn)確地傳達(dá)信息,從提高溝通效率。此外,隨著全球化一體化的到來,掌握一種或幾種外語,對專業(yè)人員而言,也是非常必要的。
2、掌握一種語言不是一件容易的事。一種語言的讀和寫的技能,經(jīng)過較長時間的學(xué)習(xí),一般能達(dá)到較好的效果。然而,對于口語表達(dá)能力,提高的過程卻尤為費時費力。究其原因,一種語言的讀和寫的學(xué)習(xí),是可以一個人獨立完成的;而口語能力的提高,則需要一種交互式的學(xué)習(xí)環(huán)境,比如一對一的口語指導(dǎo)訓(xùn)練。
3、在當(dāng)前的學(xué)習(xí)環(huán)境和條件下,一種語言的學(xué)習(xí),尤其是外語的學(xué)習(xí),交互式的學(xué)習(xí)環(huán)境主要在課堂上實現(xiàn);而在課后,一般無法提供交互式的學(xué)習(xí)環(huán)境。交互式的學(xué)習(xí)環(huán)境的缺乏,導(dǎo)致了這樣一種結(jié)果:即使經(jīng)過長時間的學(xué)習(xí),口語表達(dá)能力仍難有實質(zhì)性的提高,甚至無法進(jìn)行一些基本的日常交流。
4、跟語言學(xué)習(xí)相關(guān)的現(xiàn)有技術(shù)和方法,多是關(guān)于發(fā)音評測、糾正、評分等,并沒有一種用于綜合評測口語表達(dá)能力的方法和技術(shù),也沒有根據(jù)口語表達(dá)能力的綜合評測結(jié)果進(jìn)行針對性地訓(xùn)練和提高的方法和技術(shù)。
5、經(jīng)過近百年的發(fā)展,語音分析和識別技術(shù)日臻成熟;隨著計算機(jī)信息技術(shù)和人工智能的迅速發(fā)展,文本文件分析技術(shù)和語音合成技術(shù)也取得了長足的發(fā)展。這些新技術(shù)的突破,使得用于評測和強(qiáng)化口語表達(dá)能力的交互式的方法和技術(shù)成為可能。
6、現(xiàn)有的口語學(xué)習(xí)系統(tǒng),有的是基于標(biāo)準(zhǔn)作答庫的對話式口語學(xué)習(xí),根據(jù)學(xué)習(xí)者問話內(nèi)容去標(biāo)準(zhǔn)作答庫中直接匹配作答內(nèi)容,將匹配出的作答內(nèi)容語音輸出,這種對話方式智能性差,若是在標(biāo)準(zhǔn)作答庫中未匹配到,則無法繼續(xù)進(jìn)行對話。有的是自由式口語學(xué)習(xí),這種實現(xiàn)方式無法對對話進(jìn)行監(jiān)控,在用戶說不出來時無法對用戶進(jìn)行提醒?,F(xiàn)有的口語學(xué)習(xí)系統(tǒng)設(shè)計粗略,并未考慮到多種情況使得情況不同進(jìn)行不同的作答模式。
7、現(xiàn)有公開了申請?zhí)枮?023105853137、名稱為基于大語言模型的口語學(xué)習(xí)方法、裝置的發(fā)明專利,全稱采用的都是基于大語言模型的自由對話方式,并未考慮到其他對話方式的融合,也無法實現(xiàn)對整個對話過程進(jìn)行監(jiān)控,引導(dǎo)用戶說出對應(yīng)的對話。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)存在的問題和不足,提供一種基于大語言模型和智能語音的口語問答評測方法及系統(tǒng)。
2、本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
3、本發(fā)明提供一種基于大語言模型和智能語音的口語問答評測方法,其特點在于,其包括以下步驟:
4、s1、口語評測者輸入目標(biāo)口語對話場景及所扮場景角色,調(diào)用目標(biāo)口語對話場景對應(yīng)的場景大語言模型作為目標(biāo)場景大語言模型,每個口語對話場景均對應(yīng)一個場景大語言模型,場景大語言模型為利用相應(yīng)口語對話場景的口語對話進(jìn)行深度學(xué)習(xí)而構(gòu)建的大語言模型;
5、s2、對口語評測者當(dāng)前輸入的模擬口語語音信號轉(zhuǎn)換為數(shù)字格式的口語語音信號,并生成原始口語語音文件,利用語音識別技術(shù)生成原始文本文件;
6、s3、判斷當(dāng)前原始文本文件是否是固定式問答句,若是則進(jìn)入s4,否則進(jìn)入s5;
7、s4、確定虛擬機(jī)器人作答模式為標(biāo)準(zhǔn)作答模式,從標(biāo)準(zhǔn)作答庫中匹配出與當(dāng)前原始文本文件對應(yīng)的標(biāo)準(zhǔn)作答文本,并利用語音合成技術(shù)生成標(biāo)準(zhǔn)作答語音文件由虛擬機(jī)器人語音輸出,進(jìn)入s8;
8、s5、判斷當(dāng)前原始文本文件是否是初次非固定式問答句,若是則進(jìn)入s6,否則進(jìn)入s7;
9、s6、基于當(dāng)前原始文本文件分析出口語評測者的口語水平等級,進(jìn)入s7;
10、s7、基于原始文本文件確定作答模式,在確定的作答模式為標(biāo)準(zhǔn)作答模式時,從標(biāo)準(zhǔn)作答庫中匹配出與當(dāng)前原始文本文件對應(yīng)的口語水平等級的標(biāo)準(zhǔn)作答文本,并利用語音合成技術(shù)生成標(biāo)準(zhǔn)作答語音文件由虛擬機(jī)器人語音輸出,進(jìn)入s8,在確定的作答模式為調(diào)取作答模式時,調(diào)用目標(biāo)場景大語言模型調(diào)取系統(tǒng)可獲得實時作答內(nèi)容并生成對應(yīng)口語水平等級的含有實時作答內(nèi)容的調(diào)取作答文本,并利用語音合成技術(shù)生成調(diào)取作答語音文件由虛擬機(jī)器人語音輸出,進(jìn)入s8,在確定的作答模式為自由作答模式時,調(diào)用目標(biāo)場景大語言模型針對當(dāng)前原始文本文件生成對應(yīng)口語水平等級的自由作答文本,并利用語音合成技術(shù)生成自由作答語音文件由虛擬機(jī)器人語音輸出,進(jìn)入s8;
11、s8、調(diào)用目標(biāo)場景大語言模型,對虛擬機(jī)器人和口語評測者的所有口語問答進(jìn)行監(jiān)控,分析口語問答是否結(jié)束,若否則進(jìn)入s9,若是則進(jìn)入s10;
12、s9、監(jiān)控到口語評測者下一個作答則進(jìn)入s2;
13、s10、針對此次口語問答進(jìn)行評測,輸出口語評測者的口語評測分。
14、本發(fā)明還提供一種基于大語言模型和智能語音的口語問答評測系統(tǒng),其特點在于,其包括口語輸入模塊、文件生成模塊、第一判斷模塊、第一確定模塊、第二判斷模塊、口語水平分析模塊、第二確定模塊、口語結(jié)束分析模塊、口語監(jiān)控模塊和口語評測模塊;
15、所述口語輸入模塊用于供口語評測者輸入目標(biāo)口語對話場景及所扮場景角色,調(diào)用目標(biāo)口語對話場景對應(yīng)的場景大語言模型作為目標(biāo)場景大語言模型,每個口語對話場景均對應(yīng)一個場景大語言模型,場景大語言模型為利用相應(yīng)口語對話場景的口語對話進(jìn)行深度學(xué)習(xí)而構(gòu)建的大語言模型;
16、所述文件生成模塊用于對口語評測者當(dāng)前輸入的模擬口語語音信號轉(zhuǎn)換為數(shù)字格式的口語語音信號,并生成原始口語語音文件,利用語音識別技術(shù)生成原始文本文件;
17、所述第一判斷模塊用于判斷當(dāng)前原始文本文件是否是固定式問答句,在為是時調(diào)用第一確定模塊,否則調(diào)用第二判斷模塊;
18、所述第一確定模塊用于確定虛擬機(jī)器人作答模式為標(biāo)準(zhǔn)作答模式,從標(biāo)準(zhǔn)作答庫中匹配出與當(dāng)前原始文本文件對應(yīng)的標(biāo)準(zhǔn)作答文本,并利用語音合成技術(shù)生成標(biāo)準(zhǔn)作答語音文件由虛擬機(jī)器人語音輸出,調(diào)用口語結(jié)束分析模塊;
19、所述第二判斷模塊用于判斷當(dāng)前原始文本文件是否是初次非固定式問答句,若是則調(diào)用口語水平分析模塊,否則調(diào)用第二確定模塊;
20、所述口語水平分析模塊用于基于當(dāng)前原始文本文件分析出口語評測者的口語水平等級,調(diào)用第二確定模塊;
21、所述第二確定模塊用于基于原始文本文件確定作答模式,在確定的作答模式為標(biāo)準(zhǔn)作答模式時,從標(biāo)準(zhǔn)作答庫中匹配出與當(dāng)前原始文本文件對應(yīng)的口語水平等級的標(biāo)準(zhǔn)作答文本,并利用語音合成技術(shù)生成標(biāo)準(zhǔn)作答語音文件由虛擬機(jī)器人語音輸出,調(diào)用口語結(jié)束分析模塊,在確定的作答模式為調(diào)取作答模式時,調(diào)用目標(biāo)場景大語言模型調(diào)取系統(tǒng)可獲得實時作答內(nèi)容并生成對應(yīng)口語水平等級的含有實時作答內(nèi)容的調(diào)取作答文本,并利用語音合成技術(shù)生成調(diào)取作答語音文件由虛擬機(jī)器人語音輸出,調(diào)用口語結(jié)束分析模塊,在確定的作答模式為自由作答模式時,調(diào)用目標(biāo)場景大語言模型針對當(dāng)前原始文本文件生成對應(yīng)口語水平等級的自由作答文本,并利用語音合成技術(shù)生成自由作答語音文件由虛擬機(jī)器人語音輸出,調(diào)用口語結(jié)束分析模塊;
22、所述口語結(jié)束分析模塊用于調(diào)用目標(biāo)場景大語言模型,對虛擬機(jī)器人和口語評測者的所有口語問答進(jìn)行監(jiān)控,分析口語問答是否結(jié)束,若否則調(diào)用口語監(jiān)控模塊,若是則調(diào)用口語評測模塊;
23、所述口語監(jiān)控模塊用于監(jiān)控到口語評測者下一個作答則調(diào)用文件生成模塊;
24、所述口語評測模塊用于針對此次口語問答進(jìn)行評測,輸出口語評測者的口語評測分。
25、本發(fā)明的積極進(jìn)步效果在于:
26、本發(fā)明設(shè)計的基于大語言模型和智能語音的口語問答評測方法及系統(tǒng),融合了多種口語作答模式,將口語作答模式劃分為三種模式分別為:標(biāo)準(zhǔn)作答模式、調(diào)取作答模式和自由作答模式,根據(jù)口語評測者輸入的口語內(nèi)容確定進(jìn)入對應(yīng)的模式,能夠靈活調(diào)用不同的作答模式,更快地輸出對應(yīng)的作答語音內(nèi)容。
27、本發(fā)明能夠?qū)φ麄€對話過程進(jìn)行監(jiān)控,引導(dǎo)口語評測者說出對應(yīng)的口語對話內(nèi)容,從而提高口語評測者的口語水平。
28、本發(fā)明能夠準(zhǔn)確地分析出口語評測者的口語水平等級,使得整個對話符合口語評測者的口語水平等級,有利于提高口語評測者的口語水平。