#本文僅代表作者觀點(diǎn),不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#
“本示例說明了對權(quán)利要求進(jìn)行適格分析的應(yīng)用,這些權(quán)利要求涉及基于人工智能的方法,用于分析語音信號并將所需語音與無關(guān)語音或背景語音分離。”
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
翻譯:杜衡
示例48.語音分離
本示例說明了對權(quán)利要求進(jìn)行適格分析的應(yīng)用,這些權(quán)利要求涉及基于人工智能的方法,用于分析語音信號并將所需語音與無關(guān)語音或背景語音分離。這些包含深度神經(jīng)網(wǎng)絡(luò)的權(quán)利要求,是粗略地基于當(dāng)前語音分離文獻(xiàn)而虛構(gòu)的。權(quán)利要求1不適格。它“針對”了一種司法排除對象,因?yàn)樗涊d了司法排除對象(抽象想法),而權(quán)利要求整體上并沒有將司法排除對象融入實(shí)際應(yīng)用中(因此它針對的是一種抽象想法),而且權(quán)利要求并沒有明顯超過司法排除對象(沒有提供發(fā)明構(gòu)思)。權(quán)利要求2重復(fù)了與權(quán)利要求1相同的司法排除對象,但適格,因?yàn)樵摍?quán)利要求作為一個(gè)整體改進(jìn)了語音分離技術(shù),從而將排除對象融入到了分離語音的實(shí)際應(yīng)用中,因此不是“針對”司法排除對象。權(quán)利要求3適格,它記載了一種司法排除對象(抽象想法),但該權(quán)利要求作為一個(gè)整體,通過改進(jìn)語音到文本的轉(zhuǎn)錄,將該排除對象融入實(shí)際應(yīng)用中,因此不是“針對”司法排除對象。
背景技術(shù)
在過去的幾年里,視聽多媒體內(nèi)容的創(chuàng)作和消費(fèi)出現(xiàn)了大幅增長。智能手機(jī)、游戲機(jī)和頭戴式設(shè)備都配備了用于錄音的麥克風(fēng)和攝像頭。這些設(shè)備還采用了允許用戶通過語音命令控制設(shè)備的技術(shù)。當(dāng)使用相同的設(shè)備錄制事件時(shí),這些設(shè)備可能會(huì)捕捉語音命令作為錄音的一部分,或者未能從錄音中過濾掉附近揚(yáng)聲器的聲音。這些錄音可用于社交媒體上的簡單重放、個(gè)人使用或自動(dòng)字幕或轉(zhuǎn)錄等應(yīng)用。
典型的人類聽眾可以很容易地感知聲音混合物中的獨(dú)立聲源。例如,在擁擠的餐廳里,即使聽者周圍有其他可聽到的對話,普通人也能注意到單個(gè)對話。計(jì)算機(jī)在解釋有聲語言時(shí),會(huì)接收到來自麥克風(fēng)的音頻信號,其中包含麥克風(fēng)拾取到的所有音頻。要讓計(jì)算機(jī) “關(guān)注”單個(gè)對話或說話者,必須將相關(guān)語音從音頻信號的其他部分中分離出來。傳統(tǒng)的基于計(jì)算機(jī)的語音分離技術(shù)在區(qū)分和分離不同類別的音頻(如人類語音和背景噪音)方面表現(xiàn)出色,但在分離屬于同一類別的音頻(如來自不同說話者的語音)方面表現(xiàn)不佳。一些現(xiàn)有的解決方案依賴于根據(jù)音量來分離語音,但在說話者說話的聲音大小或與麥克風(fēng)的距離不同的環(huán)境中,基于音量的方法并不可靠。其他解決方案需要對輸入設(shè)備進(jìn)行識別特定語音的訓(xùn)練,但要求用戶明確地與設(shè)備互動(dòng)以提供訓(xùn)練數(shù)據(jù)。此外,與單個(gè)用戶發(fā)出的指令相比,語音分離系統(tǒng)不適合區(qū)分相關(guān)個(gè)人之間的對話。因此,使用傳統(tǒng)的語音分離技術(shù)可能會(huì)導(dǎo)致在錄音過程中捕捉到的重要信息被刪除,或者根本無法刪除不需要的數(shù)據(jù)。
當(dāng)這些技術(shù)用于語音到文本或自動(dòng)語音識別系統(tǒng)的預(yù)處理階段時(shí),轉(zhuǎn)錄質(zhì)量就會(huì)受到影響。為了保護(hù)用戶隱私和提供高質(zhì)量的錄音或轉(zhuǎn)錄,有必要從音頻中去除這些不需要的語音。
人工神經(jīng)網(wǎng)絡(luò)(ANN)為分離不同來源的語音信號提供了一種很有前景的解決方案。申請人已提交了一份專利申請,其中公開了一種系統(tǒng),該系統(tǒng)從記錄事件的音頻記錄設(shè)備(如麥克風(fēng))接收混合語音信號x作為輸入。該系統(tǒng)使用深度神經(jīng)網(wǎng)絡(luò) (DNN)(ANN的一種),在聚類過程中促進(jìn)特征分離。具體來說,DNN通過將特征表達(dá)映射到嵌入空間來學(xué)習(xí)信號x的高水平特征表達(dá)。隨后,對這些特征表達(dá)進(jìn)行聚類,每個(gè)聚類代表一個(gè)不同的語音源,從而分離出不同語音源的語音信號Sn,其中n∈{1, ……N} ,在混合語音信號中識別出來。這樣分離出來的信號可應(yīng)用于下游環(huán)節(jié),如轉(zhuǎn)錄、從錄音中刪除語音命令以及上傳到社交網(wǎng)站。
DNN可以是自動(dòng)編碼器、遞歸神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)。在一個(gè)實(shí)施例中,DNN在由多個(gè)說話者的語音片段組成的音頻數(shù)據(jù)集上進(jìn)行語音分離預(yù)訓(xùn)練。訓(xùn)練數(shù)據(jù)可包括人工標(biāo)注的音頻,其中指定了單獨(dú)的說話者和單獨(dú)的對話,這樣DNN就能學(xué)會(huì)區(qū)分單個(gè)聲音和語音上下文。如下文所述,使用這些深度學(xué)習(xí)技術(shù)的優(yōu)勢在于可以通過簡單的聚類來實(shí)現(xiàn)不同來源語音信號的分離。
傳統(tǒng)的傅里葉變換描述的是整個(gè)信號的各種頻率成分,而語音的頻率成分會(huì)隨時(shí)間變化。短時(shí)傅里葉變換(STFT)是一種數(shù)學(xué)工具,通過對信號的較小“窗口”或“幀”進(jìn)行一系列傅里葉變換,在頻率成分隨時(shí)間變化時(shí)獲得信號的表達(dá)。在一個(gè)實(shí)施方案中,混合語音信號x(t) 被劃分為T個(gè)等長的交疊幀。該混合語音信號在STFT域中的處理過程如下。對于每個(gè)幀,通常會(huì)提取已知的時(shí)間特征,如音高、方差和過零率,并用特征矩陣FMtj表示,其中t是幀索引,j是特征索引。除了時(shí)間特征提取外,還利用STFT將混合音頻信號轉(zhuǎn)換為時(shí)頻(TF)域Stf,其中f為頻率倉的索引,從而生成每幀的頻譜圖。在這一步結(jié)束時(shí),每幀用Xt表示,它對應(yīng)于頻譜圖St和特征矩陣FMt的相應(yīng)行。
DNN會(huì)學(xué)習(xí)輸入混合語音信號x的高級特征表達(dá)。具體來說,DNN會(huì)將從頻譜圖St和相應(yīng)特征矩陣FMt中獲得的這些特征表達(dá)Xt轉(zhuǎn)換為多維嵌入向量V,并將這些嵌入向量V作為輸入信號的全局函數(shù)分配給TF倉(V =fθ(X),其中 fθ表示DNN函數(shù))。DNN為每個(gè)TF區(qū)域分配嵌入向量V,使同一信號源主導(dǎo)TF倉的嵌入向量之間的歐氏距離最小,不同信號源主導(dǎo)的TF倉的嵌入向量之間的歐氏距離最大。這樣,代表不同來源的所有TF倉的嵌入向量V就計(jì)算出來了。
接下來,使用k均值(k-means)聚類算法進(jìn)行聚類,以分離混合信號中的不同語音源Sn。嵌入向量V被聚類為k個(gè)不同的組,每個(gè)組代表Sn的一個(gè)不同語音源。聚類算法任意選擇k個(gè)初始中心C。然后,直到算法收斂,嵌入向量V被分配到與其最接近的聚類中心,每個(gè)中心被移動(dòng)到其當(dāng)前分配的聚類子集的平均值。這一過程結(jié)束后,嵌入向量V被劃分為與不同組成源相對應(yīng)的聚類Sn。
二進(jìn)制時(shí)頻掩碼是通過使用二進(jìn)制矩陣來表示應(yīng)打開或關(guān)閉表示的哪些部分,從而分離信號。在音頻處理中,二進(jìn)制掩碼是一個(gè)由二進(jìn)制值組成的矩陣,這些二進(jìn)制值與音源相對應(yīng),將其與頻譜圖相乘,即可包含或排除音頻的某些部分。每個(gè)揚(yáng)聲器的二進(jìn)制時(shí)頻掩碼是通過聚類分配獲得的,方法是將對應(yīng)于各自揚(yáng)聲器的所有TF倉賦值為1,其余TF倉賦值為0。反STFT將獲得的分離信號轉(zhuǎn)換到時(shí)域。分離出的語音信號可用于多種不同的下游應(yīng)用,下文將對此進(jìn)行討論。
由于DNN將嵌入向量V作為函數(shù)的整個(gè)輸入信號進(jìn)行分配,因此嵌入向量V考慮到了輸入信號的全局屬性,從而使k個(gè)不同組與混合語音信號中識別出的N個(gè)源相對應(yīng),從而提供了出色的語音分離效果。本發(fā)明的這一特點(diǎn)是對之前語音分離方法的改進(jìn),因?yàn)樗试S盲語音分離(即系統(tǒng)不需要事先知道說話者的數(shù)量,也不需要對混合音頻信號中不同組成源的語音進(jìn)行訓(xùn)練)。因此,DNN可以使用由較少發(fā)言人組成的混合語音信號進(jìn)行訓(xùn)練,并可用于分離來自較多來源的語音信號。此外,由于這種語音分離過程同時(shí)使用了語音信號的時(shí)間和空間特征,并根據(jù)輸入信號的全局屬性推導(dǎo)出嵌入向量V,因此在自動(dòng)語音識別(ASR)等下游應(yīng)用中,它能很好地處理同一音頻類別中不同說話人之間的差異。測試結(jié)果一致表明,在預(yù)處理階段使用所公開方法的通用ASR系統(tǒng),與傳統(tǒng)的語音到文本系統(tǒng)相比,在重音揚(yáng)聲器的轉(zhuǎn)錄性能方面差距明顯縮小。
該方法的一種應(yīng)用是去除棒球比賽等活動(dòng)錄音中的語音命令或背景對話。通過傳統(tǒng)方法,例如通過獲取與不想要的信號源相對應(yīng)的音頻片段,來識別來自不想要的信號源(例如Ss)的語音信號。在一個(gè)實(shí)施方案中,用戶可以通過提供要從混合音頻信號x中編輯的非預(yù)期音頻信號樣本來請求分離語音信號。系統(tǒng)將樣本的時(shí)間特征與源信號Sn進(jìn)行比較,以找到最匹配的非預(yù)期源信號Ss。在反STFT步驟之后,將來自所有幀T的各種語音信號拼接在一起,排除來自Ss的語音信號。在一個(gè)優(yōu)選的實(shí)施方案中,使用交疊添加法重建整個(gè)干凈的語音信號。因此,輸出是干凈的音頻信號x',這樣x'包括了來自所有源信號Sn的語音信號,其中n∈{1, ……N},不包括來自Ss的語音信號。干凈的音頻信號x'被傳輸?shù)竭h(yuǎn)程位置存儲(chǔ),以應(yīng)用于下游,如上傳到社交網(wǎng)站。
另一種應(yīng)用是實(shí)時(shí)語音轉(zhuǎn)錄或錄音轉(zhuǎn)錄。在一個(gè)示例性實(shí)施例中,用戶可以在回放錄制的音頻時(shí),使用圖形用戶界面 (GUI) 要求轉(zhuǎn)錄混合語音信號x中所需的源信號Sd。在反STFT步驟之后,僅來自所需信號源Sd的語音信號會(huì)被傳輸?shù)秸Z音到文本系統(tǒng)。ASR或語音到文本系統(tǒng)使用通用方法從所需信號源Sd中提取頻譜特征并生成詞語序列,然后將其轉(zhuǎn)換為文本。系統(tǒng)將翻譯結(jié)果顯示為GUI上的文本。
申請人介紹說,本專利申請中討論的系統(tǒng)可由一個(gè)或多個(gè)處理器與一個(gè)或多個(gè)非臨時(shí)性計(jì)算機(jī)可讀介質(zhì)耦合實(shí)現(xiàn)。此處所述方法可通過處理器執(zhí)行存儲(chǔ)在非臨時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(如隨機(jī)讀取存儲(chǔ)器、閃存、磁/光存儲(chǔ)器等)上的計(jì)算機(jī)可讀指令來執(zhí)行。GUI是硬件或硬件與軟件的組合。GUI與上述系統(tǒng)相連,被配置為接收用戶指令并輸出用戶選擇的音頻轉(zhuǎn)錄。
權(quán)利要求
[權(quán)利要求1] 一種語音分離方法,包括:
(a) 接收混合語音信號x,該信號由來自多個(gè)不同來源的語音Sn組成,其中n∈{1, ……N};
(b) 使用短時(shí)傅里葉變換將混合語音信號x轉(zhuǎn)換為時(shí)頻域的頻譜圖,并獲得特征表達(dá)X,其中X對應(yīng)于混合語音信號x的頻譜圖和從混合語音信號x提取的時(shí)間特征;
(c) 使用深度神經(jīng)網(wǎng)絡(luò)(DNN),利用公式 V =fθ(X)確定嵌入向量V,其中 fθ(X) 是混合語音信號x的全局函數(shù)。
[權(quán)利要求2] 權(quán)利要求1所述的語音分離方法還包括:
(d) 將嵌入向量V劃分為與不同源Sn相對應(yīng)的簇;
(e) 對簇應(yīng)用二進(jìn)制掩碼以創(chuàng)建掩碼簇;
(f) 由掩碼簇合成語音波形,其中每個(gè)語音波形對應(yīng)一個(gè)不同的源Sn;
(g) 合并語音波形,以生成混合語音信號x',通過拼接對應(yīng)于不同信源Sn的語音波形,并排除來自目標(biāo)信源Ss的語音波形,從而使混合語音信號x' 包括來自不同信源Sn的語音波形,并排除來自目標(biāo)信源Ss的語音波形;
(h) 將混合語音信號x'發(fā)送到遠(yuǎn)程位置存儲(chǔ)。
[權(quán)利要求3] 一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,當(dāng)這些指令被一個(gè)或多個(gè)處理器執(zhí)行時(shí),導(dǎo)致一個(gè)或多個(gè)處理器執(zhí)行包括以下處理的操作:
(a) 接收混合語音信號x,該信號包括來自多個(gè)不同來源的語音Sn,其中n∈{1, ……N},在深度神經(jīng)網(wǎng)絡(luò) (DNN)中進(jìn)行來源分離訓(xùn)練;
(b) 使用DNN將混合語音信號x 的時(shí)頻表達(dá)轉(zhuǎn)換為特征空間中的嵌入,作為混合語音信號x的函數(shù);
(c) 使用K均值聚類算法對嵌入進(jìn)行聚類;
(d) 對聚類應(yīng)用二進(jìn)制掩碼,以獲得掩碼聚類;
(e) 將掩碼簇轉(zhuǎn)換到時(shí)域,以獲得N個(gè)與不同聲源Sn相對應(yīng)的分離語音信號;
(f) 從N個(gè)分離的語音信號中的目標(biāo)源Sd提取頻譜特征,并從頻譜特征生成詞語序列,以生成與目標(biāo)源Sd相對應(yīng)的語音信號轉(zhuǎn)錄本。
分析
權(quán)利要求1不適格。
權(quán)利要求的解釋:根據(jù)最寬泛合理解釋,權(quán)利要求的術(shù)語被推定為具有與本領(lǐng)域普通技術(shù)人員對說明書的解釋一致的常規(guī)含義。參見《專利審查操作指南》(MPEP)2111。
關(guān)于步驟(a),權(quán)利要求沒有對如何接收混合語音信號做出任何限定。對混合語音信號的最寬泛合理解釋是包括來自不同來源的可聽語音?;旌险Z音信號可以通過用戶設(shè)備中的麥克風(fēng)或其他將聲音轉(zhuǎn)換為電信號的傳感器而被接收。
關(guān)于步驟(b),權(quán)利要求規(guī)定,使用STFT將混合語音信號轉(zhuǎn)換為時(shí)頻域的頻譜。獲得與從混合語音信號x中提取的頻譜和時(shí)間特征相對應(yīng)的特征表達(dá)X。權(quán)利要求沒有說明如何獲得混合語音信號的時(shí)間特征和頻譜。
關(guān)于步驟(c),權(quán)利要求規(guī)定,根據(jù)步驟(b)的結(jié)果,使用一個(gè)公式來確定嵌入向量。權(quán)利要求還規(guī)定,在確定嵌入向量時(shí)使用DNN。但權(quán)利要求中沒有包含任何有關(guān)DNN或其操作方式的細(xì)節(jié)。
對權(quán)利要求1最寬泛合理解釋是:一種方法,接收來自不同來源的口語音頻、得出音頻的時(shí)間特征表達(dá)和頻譜,以及使DNN基于時(shí)間特征表達(dá)和頻譜使用數(shù)學(xué)公式計(jì)算嵌入向量。
步驟1:這部分的適格分析評估權(quán)利要求是否屬于任何法定類別。參見MPEP 2106.03。該權(quán)利要求記載了接收混合語音信號、轉(zhuǎn)換混合語音信號和使用DNN確定嵌入向量的步驟或行為,因此是一個(gè)方法(一系列步驟或行為)。方法是發(fā)明的法定類別。(步驟1:是)。
步驟2A分支一:這部分的適格分析評估權(quán)利要求是否記載了司法排除對象。正如MPEP 2106.04第II小節(jié)所解釋的,當(dāng)司法排除對象在權(quán)利要求中被“闡釋”或“描述”時(shí),權(quán)利要求就“記載”了司法排除對象。該權(quán)利要求記載了步驟(b):“使用STFT將混合語音信號x轉(zhuǎn)換為時(shí)頻域的頻譜,并獲得特征表達(dá)X,其中X對應(yīng)于混合語音信號x的頻譜和從混合語音信號x中提取的時(shí)間特征”。在本權(quán)利要求中,將混合語音信號 x“轉(zhuǎn)換”為時(shí)頻域的頻譜涉及使用STFT的數(shù)學(xué)運(yùn)算。因此,該權(quán)利要求記載了使用特定變換函數(shù)將信號從一個(gè)域轉(zhuǎn)換到另一個(gè)域的數(shù)學(xué)運(yùn)算。權(quán)利要求還記載了步驟(c),即“使用公式V =fθ(X)確定嵌入向量V,其中fθ(X)是輸入信號的全局函數(shù)”。所記載的公式顯然是一個(gè)數(shù)學(xué)公式或等式,而“確定”則是一種數(shù)學(xué)計(jì)算。因此,該權(quán)利要求記載了一個(gè)數(shù)學(xué)公式或等式以及一種數(shù)學(xué)計(jì)算,兩者都屬于抽象想法中的數(shù)學(xué)概念類別。正如MPEP所解釋的那樣,當(dāng)一項(xiàng)權(quán)利要求記載了屬于相同或不同類別的多個(gè)抽象想法時(shí),審查員應(yīng)將這些限定視為一種單一的抽象想法,而不是作為多個(gè)單獨(dú)的抽象想法進(jìn)行單獨(dú)分析。由于步驟(b)和(c)屬于同一類抽象想法(即數(shù)學(xué)概念),這些限定被視為單一抽象想法進(jìn)行進(jìn)一步分析。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權(quán)利要求作為一個(gè)整體是否將所記載的司法排除對象融入排除對象的實(shí)際應(yīng)用中。這一評估是通過以下方式進(jìn)行的:(1)確定權(quán)利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進(jìn)行單獨(dú)和組合評估,以確定權(quán)利要求作為一個(gè)整體是否將排除對象融入實(shí)際應(yīng)用中。參見 MPEP 2106.04(d)。
權(quán)利要求在步驟(a)中記載了第一個(gè)附加元素,即“接收混合語音信號 x,該信號包括來自多個(gè)不同來源的語音Sn,其中n∈{1, ……N}”。如上所述,步驟(a)的權(quán)利要求具有高度通用性,可以描述以用戶設(shè)備中的麥克風(fēng)或其他聲音傳感器接收混合語音信號。該元素只不過是收集數(shù)據(jù)。為了使用所記載的司法排除對象進(jìn)行計(jì)算(即將混合語音信號轉(zhuǎn)換為時(shí)頻域表示),必然需要獲取數(shù)據(jù)。元素“接收”并沒有對權(quán)利要求施加任何其他有意義的限定。因此,附加限定是解決方案之外的次要行為。參見MPEP 2106.05(g)。
該方法在步驟(c)中還記載了第二個(gè)附加元素“使用深度神經(jīng)網(wǎng)絡(luò) (DNN) 確定嵌入向量V……”在確定一項(xiàng)權(quán)利要求是否僅僅記載了帶有“應(yīng)用它”(或等同詞)的司法排除對象時(shí),例如僅僅記載了指示在計(jì)算機(jī)上執(zhí)行抽象想法,審查員可以考慮以下幾點(diǎn) (1) 權(quán)利要求是否只記載了解決方案的想法或結(jié)果,即權(quán)利要求沒有記載如何完成問題解決方案的細(xì)節(jié);(2) 權(quán)利要求是否僅僅將計(jì)算機(jī)或其他機(jī)器作為執(zhí)行現(xiàn)有程序的工具;(3) 應(yīng)用司法排除對象的特殊性或普遍性。參見 MPEP 2106.05(f)。在本案中,除了DNN被用于確定嵌入向量之外,沒有關(guān)于特定DNN或DNN如何操作以得出嵌入向量的細(xì)節(jié)。DNN被用于一般性地應(yīng)用抽象想法(即使用所記載的數(shù)學(xué)公式進(jìn)行數(shù)學(xué)計(jì)算),而沒有對DNN如何將作為輸入信號的函數(shù)來推導(dǎo)嵌入向量的操作方法做出任何限定。此外,該限定只記載了使用DNN確定嵌入向量的想法,而沒有詳細(xì)說明如何實(shí)現(xiàn)。該權(quán)利要求省略了DNN如何解決技術(shù)問題的任何細(xì)節(jié),而只記載了關(guān)于解決方案或結(jié)果的想法。此外,該權(quán)利要求僅僅記載了通用DNN作為進(jìn)行所述數(shù)學(xué)計(jì)算的工具,而非旨在改進(jìn)技術(shù)或計(jì)算機(jī)。參見MPEP 2106.05(f)。因此,該限定僅僅代表了指示在計(jì)算機(jī)上應(yīng)用司法排除對象。它也可以被視為只是試圖將司法排除對象的應(yīng)用與計(jì)算機(jī)的技術(shù)環(huán)境泛泛地聯(lián)系起來。
公開內(nèi)容指出了在語音分離領(lǐng)域遇到的技術(shù)問題,并提供了本發(fā)明作為解決所指出的語音分離問題的方法。公開內(nèi)容清楚地描述了本發(fā)明如何通過提供一種特殊的語音分離技術(shù),解決從同一類別的不同語音源中分離出語音的問題,同時(shí)不需要事先了解說話者數(shù)量或說話者特征的訓(xùn)練,從而對現(xiàn)有的語音分離方法進(jìn)行改進(jìn)。具體地說,這種改進(jìn)是通過確定作為輸入信號函數(shù)的嵌入向量、將這些向量劃分為簇,以及根據(jù)這些簇合成重建的混合語音信號來實(shí)現(xiàn)的。然而,該權(quán)利要求只要求確定嵌入向量,因此沒有反映出公開內(nèi)容中討論的改進(jìn)。所記載的通用DNN只是增加了一個(gè)通用的計(jì)算機(jī)組件來執(zhí)行該方法,因此未能提供對技術(shù)或技術(shù)領(lǐng)域的改進(jìn)。參見 MPEP 2106.05(a)。即使綜合來看,這些附加元素也沒有將所記載的司法排除對象融入到實(shí)際應(yīng)用中(步驟 2A分支二:否),因此該權(quán)利要求是針對司法排除對象的。(步驟2A:是)。
步驟2B:這部分的適格分析評估的是權(quán)利要求作為一個(gè)整體是否明顯超過了所記載的排除對象,即是否有任何附加元素或附加元素的組合為權(quán)利要求添加了發(fā)明構(gòu)思。參見MPEP 2106.05。
在步驟2A分支二中,步驟 (c) 中的第二個(gè)附加元素“使用深度神經(jīng)網(wǎng)絡(luò)”被認(rèn)為僅僅是指示在使用通用計(jì)算組件的計(jì)算機(jī)上應(yīng)用司法排除對象。步驟2A分支二的分析貫穿于步驟2B。此外,步驟(a)中的第一個(gè)附加元素被認(rèn)定為解決方案之外的次要行為。然而,在步驟2A中得出的某一附加元素屬于解決方案之外的次要行為的結(jié)論,應(yīng)在步驟2B中重新評估。參見MPEP 2106.05(g)。在步驟2B中,對解決方案之外的次要行為的重新評估要考慮到該解決方案之外的行為是否為該領(lǐng)域熟知、常規(guī)而普遍的行為。在本案中,接收混合語音信號的步驟僅僅是收集數(shù)據(jù),該步驟被高度概括地記載,并且正如公開的內(nèi)容所討論的那樣,是熟知的(例如,背景技術(shù)的第一段解釋說,智能手機(jī)和其他設(shè)備早已配備了通過集成在設(shè)備中的麥克風(fēng)接收混合語音信號的功能)。因此,即使重新評估,這一限定仍然是解決方案之外的次要行為,并沒有達(dá)到明顯超過的程度。
即使綜合考慮,這些附加元素也僅僅指示是應(yīng)用排除對象和解決方案之外的次要行為,因此沒有提供發(fā)明構(gòu)思(步驟2B:否)。權(quán)利要求不適格。
權(quán)利要求2適格。
權(quán)利要求的解釋: 根據(jù)最寬泛合理解釋,權(quán)利要求的術(shù)語被推定為具有與本領(lǐng)域普通技術(shù)人員對說明書的解釋一致的常規(guī)含義。參見《專利審查操作指南》(MPEP)2111。權(quán)利要求2是從屬權(quán)利要求,依賴并要求權(quán)利要求1的所有限定。
關(guān)于步驟(d),權(quán)利要求沒有對如何將嵌入向量劃分為與不同來源相對應(yīng)的簇做出任何限定。聚類可以使用公開的K均值算法或本領(lǐng)域普通技術(shù)人員已知的任何其他算法。
步驟(e)要求對聚類應(yīng)用二進(jìn)制掩碼。對于本領(lǐng)域的普通技術(shù)人員來說,“應(yīng)用二進(jìn)制掩碼”的通常含義就是使用二進(jìn)制矩陣來指示哪些表述的部分應(yīng)該打開或關(guān)閉的數(shù)學(xué)運(yùn)算。這種掩碼可以用本領(lǐng)域已知的任何方式進(jìn)行,例如,對兩個(gè)數(shù)字進(jìn)行位操作或?qū)⒍M(jìn)制矩陣與另一個(gè)數(shù)字表述相乘等等。
步驟(f)合成來自掩碼簇的語音波形,其中每個(gè)波形對應(yīng)于混合語音信號的不同來源。背景部分說明該合成是通過使用反STFT將掩碼簇轉(zhuǎn)換為時(shí)域中的單獨(dú)語音信號,與混合語音信號中的不同語音源相對應(yīng)。
步驟(g)將步驟(f)中分離的語音波形拼接在一起,拼接的方式是將對應(yīng)于不同聲源Sn的語音波形拼接在一起,但剔除來自目標(biāo)聲源Ss的語音波形,這樣得到的混合語音信號剔除了來自目標(biāo)聲源的至少一個(gè)語音信號,而包括來自其他聲源的語音信號。背景技術(shù)部分指出,使用交疊添加法進(jìn)行拼接,以重建整個(gè)干凈的語音信號,但步驟(g)的范圍很廣,足以涵蓋本領(lǐng)域已知的任何拼接方法。
步驟(h)規(guī)定將重建的混合語音信號傳輸?shù)竭h(yuǎn)程位置進(jìn)行存儲(chǔ)。請注意,這一步并不要求實(shí)際存儲(chǔ)重構(gòu)的混合語音信號,而是要求傳輸信號的預(yù)期結(jié)果是將其存儲(chǔ)到遠(yuǎn)程位置。
如上關(guān)于權(quán)利要求1的描述,權(quán)利要求2的最寬泛合理解釋是一種方法,即接收來自不同來源的口語音頻、得出音頻的時(shí)間特征表達(dá)和頻譜,以及使DNN基于時(shí)間特征表達(dá)和頻譜使用數(shù)學(xué)公式計(jì)算嵌入向量。然后將嵌入向量劃分為若干個(gè)簇,使用二進(jìn)制掩碼對這些簇進(jìn)行修改,并將修改后的簇合成為單獨(dú)的語音信號。通過剔除來自一個(gè)信號源的至少一個(gè)語音信號,并包含來自其他信號源的語音信號,可生成一個(gè)新的混合語音信號。然后,傳輸合并后的混合語音信號。
步驟1:如上關(guān)于權(quán)利要求1的討論,該權(quán)利要求記載了接收混合語音信號、轉(zhuǎn)換混合語音信號和使用DNN確定嵌入向量的步驟或行為。從屬權(quán)利要求2 進(jìn)一步增加了以下步驟:將嵌入向量劃分成簇,對簇應(yīng)用二進(jìn)制掩碼并合成結(jié)果,將結(jié)果信號組合成混合語音信號,以及傳輸混合語音信號。因此,權(quán)利要求2是一種方法(一系列步驟或行為)。方法是發(fā)明的法定類別。(步驟1:是)。
步驟2A分支一:這部分的適格分析評估權(quán)利要求是否記載了司法排除對象。正如MPEP 2106.04第II小節(jié)所解釋的,當(dāng)司法排除對象在權(quán)利要求中被“闡釋”或“描述”時(shí),權(quán)利要求就“記載”了司法排除對象。如上關(guān)于權(quán)利要求1的討論,步驟(b)和(c)記載了數(shù)學(xué)概念。步驟(d)記載了“將嵌入向量V劃分為與不同來源Sn相對應(yīng)的簇”。權(quán)利要求對如何進(jìn)行這種劃分沒有任何限定。也就是說,權(quán)利要求中的任何內(nèi)容都不妨礙在頭腦中實(shí)際執(zhí)行這一步驟。例如,“將……劃分為簇”包括人類任意選擇向量組并在頭腦中將它們分配到簇中。本權(quán)利要求中對DNN的記載并不能否定這些限定的思維屬性,因?yàn)楸緳?quán)利要求只是將DNN用作執(zhí)行思維過程的工具。參見MPEP 2106.04(a)(2)第III.C小節(jié)。權(quán)利要求因此記載了思維過程。
該權(quán)利要求還記載了步驟(e)——“對聚類應(yīng)用二進(jìn)制掩碼以創(chuàng)建掩碼簇”。該步驟記載了基于二進(jìn)制計(jì)算生成數(shù)字的數(shù)學(xué)運(yùn)算。因此,該權(quán)利要求包含了進(jìn)一步的數(shù)學(xué)計(jì)算,屬于抽象想法中的數(shù)學(xué)概念類別。
“除非清楚地表明權(quán)利要求中包含了不同的排除對象,如自然規(guī)律和抽象想法,否則應(yīng)注意不要將權(quán)利要求解析為多個(gè)排除對象,特別是在涉及抽象想法的權(quán)利要求中?!盡PEP 2106.04,第II.B小節(jié)(在Bilski訴Kappos案中論述,561 U.S. 593 (2010))。因此,在可能的情況下,審查員應(yīng)將這些限定視為一種單一的抽象想法,而不是多個(gè)單獨(dú)的抽象想法進(jìn)行單獨(dú)分析。如上所述,權(quán)利要求2的步驟 (b)、(c) 和 (e)記載了數(shù)學(xué)概念,步驟 (d) 記載了思維過程。審查員應(yīng)在步驟 2A分支一中確定權(quán)利要求同時(shí)記載了思維過程和數(shù)學(xué)概念,并將限定(b)-(e)共同視為一個(gè)單獨(dú)的抽象想法進(jìn)行進(jìn)一步分析。參見MPEP 2106.04第II.B小節(jié)。
步驟(f)合成來自掩碼簇的語音波形,其中每個(gè)波形對應(yīng)混合語音信號的不同來源。這一步需要將步驟(e)的結(jié)果在時(shí)域上轉(zhuǎn)換成單獨(dú)的語音信號。從數(shù)字簇合成語音波形的過程無法實(shí)際上在人腦中完成。進(jìn)一步來說,雖然合成涉及數(shù)學(xué)計(jì)算,但權(quán)利要求并沒有具體說明任何數(shù)學(xué)公式、計(jì)算或關(guān)系。此外,步驟(f)不屬于組織人類活動(dòng)的方法,因?yàn)樗粚儆谒信e的基本經(jīng)濟(jì)原則或?qū)嵺`、商業(yè)或法律互動(dòng)、管理個(gè)人行為和人際關(guān)系或互動(dòng)等子類別。
同樣,步驟(g)將語音波形組合在一起,生成混合語音信號,具體方法是將不同信號源對應(yīng)的語音波形拼接在一起,但不包括來自目標(biāo)信號源的語音信號。盡管公開內(nèi)容解釋說,拼接可以通過交疊添加法(這是一種數(shù)學(xué)運(yùn)算)來執(zhí)行,但權(quán)利要求中并未詳細(xì)說明如何執(zhí)行拼接。此外,雖然權(quán)利要求中提到了變量,但變量本身并不是數(shù)學(xué)關(guān)系、公式或計(jì)算。因此,組合步驟只是基于或涉及數(shù)學(xué)概念,但并沒有記載數(shù)學(xué)概念。生成混合語音信號,使其包括來自不同來源的語音信號,并剔除來自目標(biāo)源的語音信號,這不是一種可以在人腦中實(shí)際執(zhí)行的過程。因此,步驟(g)既不是數(shù)學(xué)概念,也不是思維過程。此外,步驟(g)也不是組織人類活動(dòng)的方法,因?yàn)樗粚儆谒信e的子類別。
如上所述,(b)-(e)項(xiàng)限定被視為一種單一的抽象想法,權(quán)利要求被視為包含了屬于抽象想法的數(shù)學(xué)概念類別的限定。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權(quán)利要求作為一個(gè)整體是否將所記載的司法排除對象融入排除對象的實(shí)際應(yīng)用中。這一評估是通過以下方式進(jìn)行的:(1)確定權(quán)利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進(jìn)行單獨(dú)和組合評估,以確定權(quán)利要求作為一個(gè)整體是否將排除對象融入實(shí)際應(yīng)用中。參見 MPEP 2106.04(d)。
如上所述對權(quán)利要求 1的討論,步驟(a)記載了接收混合語音信號的數(shù)據(jù)收集步驟,步驟(c)記載了使用DNN確定嵌入向量,相當(dāng)于“應(yīng)用它”。
步驟(h)記載了“將混合語音信號x' 發(fā)送到遠(yuǎn)程位置存儲(chǔ)”。如上所述,傳輸混合語音信號 x' 的預(yù)期結(jié)果是將其存儲(chǔ)到遠(yuǎn)程位置以供將來使用,例如用于音頻播放或上傳到社交媒體網(wǎng)站。這一限定僅僅是傳輸數(shù)據(jù)輸出的后解決步驟——是對權(quán)利要求的一種微不足道的補(bǔ)充,并沒有對權(quán)利要求進(jìn)行有意義的限定。因此,步驟(h)是解決方案之外的次要行為。參見MPEP 2106.05(g)。在限定(b)、(c)、(d)和(e)中記載的抽象想法之外,其余的附加限定是限定(f)中記載的從掩碼簇合成語音波形,以及限定(g)中記載的生成混合語音信號,其剔除來自目標(biāo)源的語音信號。
步驟(f)記載了“合成來自掩碼簇的語音波形,其中每個(gè)語音波形對應(yīng)于不同的來源Sn”,步驟(g)記載了“通過拼接對應(yīng)于不同來源Sn的語音波形,生成混合語音信號x’,剔除來自目標(biāo)源Ss的語音波形,從而使混合語音信號x’包括來自不同來源Sn的語音信號,其中n∈{1, ……N},并剔除來自目標(biāo)源Ss的語音信號”。步驟(f)和(g)將抽象想法融入到實(shí)際應(yīng)用中。公開內(nèi)容中解釋說,捕捉音頻的設(shè)備無法正確區(qū)分屬于同一類別的不同語音源,而目前可用的解決方案并不能充分解決這一問題,因?yàn)樗鼈冃枰繕?biāo)用戶(其語音需要被識別)明確地與設(shè)備進(jìn)行交互,以提供訓(xùn)練數(shù)據(jù)。公開內(nèi)容指出,本發(fā)明提供了一種特殊的語音分離技術(shù),解決了將屬于同一類別的不同語音源的語音分離出來的問題,同時(shí)不需要事先了解說話者的數(shù)量或針對說話者的訓(xùn)練,從而改進(jìn)了現(xiàn)有的語音分離方法。該權(quán)利要求反映了公開內(nèi)容中討論的改進(jìn),詳細(xì)記載了 DNN 如何幫助簇分配,以對應(yīng)混合語音信號中識別出的語音源,然后在時(shí)域中合成為單獨(dú)的語音波形,并轉(zhuǎn)換為混合語音信號,剔除不需要的語音源的音頻。參見 MPEP 2106.05(a)。雖然步驟(b)-(e)本身包含了司法排除對象,但步驟(f)和(g)的目的是創(chuàng)建一個(gè)新的語音信號,該信號不再包含來自不需要信號源的無關(guān)語音信號。所要求保護(hù)的發(fā)明通過包含這些特征反映了這一技術(shù)改進(jìn)。此外,將語音簇轉(zhuǎn)換為單獨(dú)的語音波形,以及從單獨(dú)的語音波形生成混合語音信號并不是解決方案之外的次要行為,也不僅僅是指示應(yīng)用排除對象,或僅僅是使用領(lǐng)域的限定。相反,這些步驟反映了公開內(nèi)容中描述的改進(jìn)。因此,該權(quán)利要求針對的是對現(xiàn)有計(jì)算機(jī)技術(shù)或語音分離技術(shù)的改進(jìn),該權(quán)利要求將抽象想法融入了實(shí)際應(yīng)用中。(步驟2A分支二:是)。權(quán)利要求適格。(步驟2A:否)。
權(quán)利要求3適格。
權(quán)利要求的解釋:根據(jù)最寬泛合理解釋,權(quán)利要求的術(shù)語被推定為具有與本領(lǐng)域普通技術(shù)人員對說明書的解釋一致的常規(guī)含義。參見《專利審查操作指南》(MPEP)2111。前序部分明確指出,該權(quán)利要求涉及一種非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)包含指令,當(dāng)指令被與其關(guān)聯(lián)的一個(gè)或多個(gè)處理器執(zhí)行時(shí),可使處理器執(zhí)行權(quán)利要求中所述的接收、生成和產(chǎn)生步驟。本公開內(nèi)容給出了隨機(jī)存取存儲(chǔ)器、閃存、磁/光存儲(chǔ)器等作為非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的示例,但權(quán)利要求并沒有說明非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的類型。
關(guān)于步驟(a),權(quán)利要求沒有對如何接收混合語音信號做出任何限定。對混合語音信號最寬泛合理解釋是包括來自不同來源的可聽語音?;旌险Z音信號可以通過用戶設(shè)備中的麥克風(fēng)或其他將聲音轉(zhuǎn)換為電信號的傳感器接收。權(quán)利要求要求對接收這種混合語音信號的DNN進(jìn)行來源分離訓(xùn)練。
關(guān)于步驟(b),權(quán)利要求規(guī)定DNN用于將混合語音信號的時(shí)頻表達(dá)轉(zhuǎn)換為特征空間中的嵌入,但并未提供有關(guān)DNN本身的任何結(jié)構(gòu)細(xì)節(jié)。說明書討論了在STFT域處理混合語音信號以獲得時(shí)間特征和頻譜圖,然后DNN使用這些特征和頻譜圖確定特征空間中作為輸入信號函數(shù)的嵌入向量V。由于權(quán)利要求中沒有說明如何獲得混合語音信號的時(shí)頻表達(dá)或如何將其轉(zhuǎn)換為作為信號x的函數(shù)的嵌入,因此該子步驟可以按照說明書或本領(lǐng)域普通技術(shù)人員已知的任何其他方法執(zhí)行。
步驟(c)要求使用k均值聚類算法對嵌入進(jìn)行聚類,但對算法的實(shí)現(xiàn)方式不做任何限定。聚類可以使用本公開中描述的k均值算法,也可以使用本領(lǐng)域普通技術(shù)人員已知的其他方法。
步驟(d)通過對聚類應(yīng)用二進(jìn)制掩碼獲得掩碼簇。對于本領(lǐng)域的普通技術(shù)人員來說,“應(yīng)用二進(jìn)制掩碼”的常規(guī)含義是使用二進(jìn)制矩陣來指示哪些表達(dá)部分應(yīng)該打開或關(guān)閉的數(shù)學(xué)運(yùn)算。這種掩碼可以用本領(lǐng)域已知的任何方式進(jìn)行,例如,對兩個(gè)數(shù)字進(jìn)行位操作或?qū)⒍M(jìn)制矩陣與另一種數(shù)字表達(dá)相乘等等。
步驟(e)要求在時(shí)域中將掩碼簇轉(zhuǎn)換為單獨(dú)的語音信號,與混合語音信號中的不同音源相對應(yīng)。權(quán)利要求沒有具體說明如何進(jìn)行轉(zhuǎn)換。
最后一步(f)要求從步驟(e)的輸出中僅從N個(gè)分離的語音信號中的目標(biāo)源Sd提取頻譜特征,并從頻譜特征中生成詞語序列,以生成與目標(biāo)源Sd相對應(yīng)的語音信號轉(zhuǎn)錄本。公開內(nèi)容指出,從反STFT步驟輸出的所需語音信號被傳輸?shù)紸SR,ASR使用傳統(tǒng)方法從所需來源Sd中提取頻譜特征并生成詞語序列,然后將其轉(zhuǎn)換為文本。權(quán)利要求中沒有具體說明提取和生成的特定方式;因此,提取頻譜特征和生成詞語序列的步驟可以由本領(lǐng)域已知的ASR系統(tǒng)實(shí)現(xiàn),以生成文本。
因此,對權(quán)利要求3最寬泛合理解釋是,非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)指令,當(dāng)指令被處理器執(zhí)行時(shí),使處理器執(zhí)行以下步驟:通過DNN接收由來自不同來源的音頻構(gòu)成的混合語音信號,DNN從信號的時(shí)頻表達(dá)計(jì)算嵌入向量。然后,將嵌入向量劃分為簇,并將簇轉(zhuǎn)換為時(shí)域中的單獨(dú)語音信號。在這些分離的語音信號中,只有一個(gè)特定的分離語音信號會(huì)被轉(zhuǎn)換成文本,從而生成一份轉(zhuǎn)錄本。
步驟1:這部分的適格分析評估權(quán)利要求是否屬于任何法定類別。參見MPEP 2106.03。前序部分明確指出,該權(quán)利要求涉及一種非暫時(shí)計(jì)算機(jī)可讀介質(zhì),該介質(zhì)可使與其關(guān)聯(lián)的一個(gè)或多個(gè)處理器執(zhí)行一系列步驟。本公開內(nèi)容給出了隨機(jī)存取存儲(chǔ)器、閃存和磁/光存儲(chǔ)器作為非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的非限定性示例。依據(jù)公開內(nèi)容,對該權(quán)利要求的最寬泛合理解釋只包括有關(guān)計(jì)算機(jī)可讀介質(zhì)的法定實(shí)施例,而不包括暫態(tài)信號。非暫時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)屬于“制造物”類別的發(fā)明。(步驟1:是)。
該權(quán)利要求記載了一系列步驟,因此是一種方法。參見MPEP 2106.03(步驟1:是)。
步驟2A分支一:這部分適格分析評估了權(quán)利要求是否記載了司法排除對象。正如 MPEP 2106.04 第II小節(jié)所解釋的,當(dāng)司法排除對象在權(quán)利要求中被“闡釋”或“描述”時(shí),權(quán)利要求即“記載”了司法排除對象。步驟(b)要求將混合語音信號的時(shí)頻表達(dá)轉(zhuǎn)換為特征空間中作為混合語音信號函數(shù)的嵌入,這是以文本格式書寫的數(shù)學(xué)公式。步驟(c)需要通過k均值聚類算法對嵌入進(jìn)行聚類,這是一種數(shù)學(xué)計(jì)算。步驟(d)通過對聚類應(yīng)用二進(jìn)制掩碼來獲得掩碼簇,這也是一種數(shù)學(xué)計(jì)算。因此,權(quán)利要求中的數(shù)學(xué)計(jì)算屬于抽象想法中的數(shù)學(xué)概念類別。
步驟(e)要求將特征空間中的點(diǎn)簇轉(zhuǎn)換為時(shí)域中的語音信號,這不是人類頭腦中可以實(shí)際完成的過程。此外,雖然轉(zhuǎn)換可能基于數(shù)學(xué)概念,但權(quán)利要求中并沒有說明任何數(shù)學(xué)公式、計(jì)算或關(guān)系。
最后,步驟(f)要求從步驟(e)輸出的N個(gè)分離信號中僅提取一個(gè)目標(biāo)源Sd的頻譜特征,并從頻譜特征生成詞語序列,以生成與目標(biāo)源Sd相對應(yīng)的語音信號轉(zhuǎn)錄本。從信號中提取頻譜特征并從這些提取的特征中生成單詞序列以生成文本的過程并不能在人腦中實(shí)際完成。雖然這種提取和生成涉及數(shù)學(xué)運(yùn)算,但權(quán)利要求并沒有具體說明任何數(shù)學(xué)公式、計(jì)算或關(guān)系。步驟(e)和(f)也不屬于所列舉的人類活動(dòng)組織方法的子類別。因此,步驟(e)和(f)不屬于司法排除對象。
正如MPEP中所解釋的,當(dāng)一項(xiàng)權(quán)利要求記載了屬于相同或不同類別的多個(gè)抽象想法時(shí),審查員應(yīng)將這些限定視為一個(gè)單一的抽象想法,而不是作為多個(gè)單獨(dú)的抽象想法進(jìn)行單獨(dú)分析。如上所述,(b)-(d)的限定中記載了數(shù)學(xué)概念。由于(b)-(d)所有步驟都屬于同一類抽象想法(即數(shù)學(xué)概念),這些限定被視為單一抽象想法進(jìn)行進(jìn)一步分析。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權(quán)利要求作為一個(gè)整體是否將所記載的司法排除對象融入排除對象的實(shí)際應(yīng)用中。這一評估是通過以下方式進(jìn)行的:(1)確定權(quán)利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進(jìn)行單獨(dú)和組合評估,以確定權(quán)利要求作為一個(gè)整體是否將排除對象融入實(shí)際應(yīng)用中。參見MPEP 2106.04(d)。
權(quán)利要求3的步驟(a) 作為附加限定記載了“接收混合語音信號x,該信號包括來自多個(gè)不同來源的語音Sn,其中n∈{1, ……N}” 正如上文權(quán)利要求解釋部分所討論的,該限定的要求具有高度通用性,可以描述通過用戶設(shè)備中的麥克風(fēng)或其他聲音傳感器接收混合語音信號。該限定只不過是收集數(shù)據(jù)。為了使用所記載的司法排除對象來執(zhí)行步驟(b)、(c)和(d)的計(jì)算,必然需要獲取數(shù)據(jù)。該限定并未對權(quán)利要求施加任何其他有意義的限定。因此,這一附加限定是解決方案之外的次要行為。參見MPEP 2106.05(g)。
在步驟(b)中記載的抽象想法之外的另一個(gè)附加限定是使用經(jīng)過源分離訓(xùn)練的 DNN。在確定一項(xiàng)權(quán)利要求是否僅僅是以“應(yīng)用它”(或等同物)的措辭記載了一個(gè)司法排除對象,例如僅僅指示是在計(jì)算機(jī)上實(shí)現(xiàn)一種抽象想法時(shí),審查員可以考慮以下幾點(diǎn):(1) 權(quán)利要求是否只記載了解決方案或結(jié)果的想法,即權(quán)利要求沒有記載如何完成問題解決方案的細(xì)節(jié);(2) 權(quán)利要求是否只是將計(jì)算機(jī)或其他機(jī)器作為執(zhí)行現(xiàn)有程序的工具;以及 (3) 應(yīng)用司法排除對象的特殊性或一般性。參見 MPEP 2106.05(f)。在本案中,權(quán)利要求沒有記載有關(guān)特定DNN的細(xì)節(jié)。DNN 被用來泛泛地應(yīng)用抽象想法(即執(zhí)行步驟(b)中記載的數(shù)學(xué)計(jì)算),而沒有對DNN如何操作以推導(dǎo)出嵌入向量做出任何限定。此外,該限定還涵蓋了使用DNN實(shí)現(xiàn)所述抽象想法的每一種模式。該權(quán)利要求省略了DNN如何解決技術(shù)問題的全部細(xì)節(jié),而只記載了解決方案或結(jié)果的想法。參見MPEP 2106.05(f)。因此,該限定僅僅代表了指示實(shí)現(xiàn)步驟(b)中所記載的抽象想法,相當(dāng)于在所記載的司法排除對象中添加了“應(yīng)用它”的字樣。此外,權(quán)利要求將步驟(b)中記載的司法排除對象的使用限定在DNN的技術(shù)環(huán)境中,將司法排除對象的使用與記載的DNN泛泛地聯(lián)系起來。因此,這種一般性的DNN記載并沒有將司法排除對象融入實(shí)際應(yīng)用中。參見MPEP 2106.05(h)。因此,也可以將其視為只是試圖將司法排除對象的使用與特定的使用領(lǐng)域或技術(shù)環(huán)境泛泛地聯(lián)系起來。
剩余的附加限定是步驟(e)和步驟(f),步驟(e)在時(shí)域中將掩碼簇轉(zhuǎn)換為N個(gè)獨(dú)立的語音信號,步驟(f) 僅從步驟(e)輸出的N個(gè)獨(dú)立信號中的一個(gè)目標(biāo)源Sd 提取頻譜特征,并根據(jù)頻譜特征生成詞語序列,從而生成一份轉(zhuǎn)錄本。這些額外限定將步驟(b)、(c)和(d)中記載的抽象想法融入語音至文本轉(zhuǎn)換的實(shí)際應(yīng)用中。
該公開內(nèi)容解釋說,由于無法區(qū)分屬于同一類別的不同語音源,捕獲音頻的設(shè)備在區(qū)分感興趣的人之間的對話和不需要的話語方面表現(xiàn)不佳,從而導(dǎo)致錄制的語音轉(zhuǎn)錄質(zhì)量低下。公開內(nèi)容指出,本發(fā)明提供了一種特殊的語音分離技術(shù),解決了從同一類別的不同語音源中分離語音的問題,同時(shí)還能很好地處理同一語音類別中不同說話者之間的差異,從而改進(jìn)了現(xiàn)有的語音分離方法。該公開內(nèi)容指出,本發(fā)明通過DNN根據(jù)輸入信號的全局屬性推導(dǎo)嵌入向量,這是對現(xiàn)有技術(shù)語音分離方法的改進(jìn)。此外,本發(fā)明還使用了語音信號的時(shí)間和空間特征;本發(fā)明的這一特點(diǎn)有助于下游傳統(tǒng)語音轉(zhuǎn)文本系統(tǒng)縮小重音揚(yáng)聲器在轉(zhuǎn)錄性能上與傳統(tǒng)語音轉(zhuǎn)文本方法的差距。
在這里,權(quán)利要求反映了公開內(nèi)容中討論的這些技術(shù)改進(jìn),它詳細(xì)記載了在音源分離方面經(jīng)過訓(xùn)練的DNN如何幫助進(jìn)行簇分配,以對應(yīng)混合語音信號中識別出的音源,然后在時(shí)域中將這些音源轉(zhuǎn)換為單獨(dú)的語音信號,以便從頻譜特征中生成單詞序列,從而使每個(gè)分離的語音信號的單獨(dú)轉(zhuǎn)錄成為可能。參見 MPEP 2106.05(a)。
雖然(b)、(c)和(d)步驟本身記載了一種抽象想法,但接收混合語音信號、處理語音信號以產(chǎn)生掩碼簇、在時(shí)域中將掩碼簇轉(zhuǎn)換為單獨(dú)信號、從這樣的一個(gè)轉(zhuǎn)換信號中提取頻譜特征,以及從提取的頻譜特征中生成詞語序列以產(chǎn)生轉(zhuǎn)錄本等步驟的有序組合,反映了公開內(nèi)容中討論的技術(shù)改進(jìn)。因此,該權(quán)利要求針對的是對現(xiàn)有語音到文本技術(shù)的改進(jìn),該權(quán)利要求將步驟(b)、(c)和(d)中記載的抽象思想融入語音到文本轉(zhuǎn)換的實(shí)際應(yīng)用中,該語音信號對應(yīng)于混合語音信號的一個(gè)源。因此,權(quán)利要求作為一個(gè)整體將司法排除對象融入了實(shí)際應(yīng)用中(步驟 2A分支二:是),因此權(quán)利要求并非針對司法排除對象。(步驟 2A:否)。該權(quán)利要求適格。
注釋:
* 本文翻譯自《July 2024 Subject Matter Eligibility Examples》,來源美國專利商標(biāo)局官網(wǎng),https://www.uspto.gov/patents/laws/examination-policy/subject-matter-eligibility。
相關(guān)閱讀:
1、美國專利商標(biāo)局2024年7月專利適格指南更新及最新案例導(dǎo)讀
(原標(biāo)題:USPTO《2024年7月主題適格示例集》全譯【二】)
點(diǎn)擊“閱讀原文”查看USPTO《2024年7月主題適格示例集》原件。
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
翻譯:杜衡
編輯:IPRdaily趙甄 校對:IPRdaily縱橫君
注:原文鏈接:USPTO《2024年7月主題適格示例集》全譯(二)(點(diǎn)擊標(biāo)題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負(fù)責(zé)人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://m.jupyterflow.com”
文章不錯(cuò),犒勞下辛苦的作者吧