#本文僅代表作者觀點,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉載#
“本示例說明了對權利要求進行適格分析的應用,這些權利要求涉及基于人工智能的方法,用于分析語音信號并將所需語音與無關語音或背景語音分離?!?br/>
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
翻譯:杜衡
示例48.語音分離
本示例說明了對權利要求進行適格分析的應用,這些權利要求涉及基于人工智能的方法,用于分析語音信號并將所需語音與無關語音或背景語音分離。這些包含深度神經(jīng)網(wǎng)絡的權利要求,是粗略地基于當前語音分離文獻而虛構的。權利要求1不適格。它“針對”了一種司法排除對象,因為它記載了司法排除對象(抽象想法),而權利要求整體上并沒有將司法排除對象融入實際應用中(因此它針對的是一種抽象想法),而且權利要求并沒有明顯超過司法排除對象(沒有提供發(fā)明構思)。權利要求2重復了與權利要求1相同的司法排除對象,但適格,因為該權利要求作為一個整體改進了語音分離技術,從而將排除對象融入到了分離語音的實際應用中,因此不是“針對”司法排除對象。權利要求3適格,它記載了一種司法排除對象(抽象想法),但該權利要求作為一個整體,通過改進語音到文本的轉錄,將該排除對象融入實際應用中,因此不是“針對”司法排除對象。
背景技術
在過去的幾年里,視聽多媒體內(nèi)容的創(chuàng)作和消費出現(xiàn)了大幅增長。智能手機、游戲機和頭戴式設備都配備了用于錄音的麥克風和攝像頭。這些設備還采用了允許用戶通過語音命令控制設備的技術。當使用相同的設備錄制事件時,這些設備可能會捕捉語音命令作為錄音的一部分,或者未能從錄音中過濾掉附近揚聲器的聲音。這些錄音可用于社交媒體上的簡單重放、個人使用或自動字幕或轉錄等應用。
典型的人類聽眾可以很容易地感知聲音混合物中的獨立聲源。例如,在擁擠的餐廳里,即使聽者周圍有其他可聽到的對話,普通人也能注意到單個對話。計算機在解釋有聲語言時,會接收到來自麥克風的音頻信號,其中包含麥克風拾取到的所有音頻。要讓計算機 “關注”單個對話或說話者,必須將相關語音從音頻信號的其他部分中分離出來。傳統(tǒng)的基于計算機的語音分離技術在區(qū)分和分離不同類別的音頻(如人類語音和背景噪音)方面表現(xiàn)出色,但在分離屬于同一類別的音頻(如來自不同說話者的語音)方面表現(xiàn)不佳。一些現(xiàn)有的解決方案依賴于根據(jù)音量來分離語音,但在說話者說話的聲音大小或與麥克風的距離不同的環(huán)境中,基于音量的方法并不可靠。其他解決方案需要對輸入設備進行識別特定語音的訓練,但要求用戶明確地與設備互動以提供訓練數(shù)據(jù)。此外,與單個用戶發(fā)出的指令相比,語音分離系統(tǒng)不適合區(qū)分相關個人之間的對話。因此,使用傳統(tǒng)的語音分離技術可能會導致在錄音過程中捕捉到的重要信息被刪除,或者根本無法刪除不需要的數(shù)據(jù)。
當這些技術用于語音到文本或自動語音識別系統(tǒng)的預處理階段時,轉錄質(zhì)量就會受到影響。為了保護用戶隱私和提供高質(zhì)量的錄音或轉錄,有必要從音頻中去除這些不需要的語音。
人工神經(jīng)網(wǎng)絡(ANN)為分離不同來源的語音信號提供了一種很有前景的解決方案。申請人已提交了一份專利申請,其中公開了一種系統(tǒng),該系統(tǒng)從記錄事件的音頻記錄設備(如麥克風)接收混合語音信號x作為輸入。該系統(tǒng)使用深度神經(jīng)網(wǎng)絡 (DNN)(ANN的一種),在聚類過程中促進特征分離。具體來說,DNN通過將特征表達映射到嵌入空間來學習信號x的高水平特征表達。隨后,對這些特征表達進行聚類,每個聚類代表一個不同的語音源,從而分離出不同語音源的語音信號Sn,其中n∈{1, ……N} ,在混合語音信號中識別出來。這樣分離出來的信號可應用于下游環(huán)節(jié),如轉錄、從錄音中刪除語音命令以及上傳到社交網(wǎng)站。
DNN可以是自動編碼器、遞歸神經(jīng)網(wǎng)絡或卷積神經(jīng)網(wǎng)絡。在一個實施例中,DNN在由多個說話者的語音片段組成的音頻數(shù)據(jù)集上進行語音分離預訓練。訓練數(shù)據(jù)可包括人工標注的音頻,其中指定了單獨的說話者和單獨的對話,這樣DNN就能學會區(qū)分單個聲音和語音上下文。如下文所述,使用這些深度學習技術的優(yōu)勢在于可以通過簡單的聚類來實現(xiàn)不同來源語音信號的分離。
傳統(tǒng)的傅里葉變換描述的是整個信號的各種頻率成分,而語音的頻率成分會隨時間變化。短時傅里葉變換(STFT)是一種數(shù)學工具,通過對信號的較小“窗口”或“幀”進行一系列傅里葉變換,在頻率成分隨時間變化時獲得信號的表達。在一個實施方案中,混合語音信號x(t) 被劃分為T個等長的交疊幀。該混合語音信號在STFT域中的處理過程如下。對于每個幀,通常會提取已知的時間特征,如音高、方差和過零率,并用特征矩陣FMtj表示,其中t是幀索引,j是特征索引。除了時間特征提取外,還利用STFT將混合音頻信號轉換為時頻(TF)域Stf,其中f為頻率倉的索引,從而生成每幀的頻譜圖。在這一步結束時,每幀用Xt表示,它對應于頻譜圖St和特征矩陣FMt的相應行。
DNN會學習輸入混合語音信號x的高級特征表達。具體來說,DNN會將從頻譜圖St和相應特征矩陣FMt中獲得的這些特征表達Xt轉換為多維嵌入向量V,并將這些嵌入向量V作為輸入信號的全局函數(shù)分配給TF倉(V =fθ(X),其中 fθ表示DNN函數(shù))。DNN為每個TF區(qū)域分配嵌入向量V,使同一信號源主導TF倉的嵌入向量之間的歐氏距離最小,不同信號源主導的TF倉的嵌入向量之間的歐氏距離最大。這樣,代表不同來源的所有TF倉的嵌入向量V就計算出來了。
接下來,使用k均值(k-means)聚類算法進行聚類,以分離混合信號中的不同語音源Sn。嵌入向量V被聚類為k個不同的組,每個組代表Sn的一個不同語音源。聚類算法任意選擇k個初始中心C。然后,直到算法收斂,嵌入向量V被分配到與其最接近的聚類中心,每個中心被移動到其當前分配的聚類子集的平均值。這一過程結束后,嵌入向量V被劃分為與不同組成源相對應的聚類Sn。
二進制時頻掩碼是通過使用二進制矩陣來表示應打開或關閉表示的哪些部分,從而分離信號。在音頻處理中,二進制掩碼是一個由二進制值組成的矩陣,這些二進制值與音源相對應,將其與頻譜圖相乘,即可包含或排除音頻的某些部分。每個揚聲器的二進制時頻掩碼是通過聚類分配獲得的,方法是將對應于各自揚聲器的所有TF倉賦值為1,其余TF倉賦值為0。反STFT將獲得的分離信號轉換到時域。分離出的語音信號可用于多種不同的下游應用,下文將對此進行討論。
由于DNN將嵌入向量V作為函數(shù)的整個輸入信號進行分配,因此嵌入向量V考慮到了輸入信號的全局屬性,從而使k個不同組與混合語音信號中識別出的N個源相對應,從而提供了出色的語音分離效果。本發(fā)明的這一特點是對之前語音分離方法的改進,因為它允許盲語音分離(即系統(tǒng)不需要事先知道說話者的數(shù)量,也不需要對混合音頻信號中不同組成源的語音進行訓練)。因此,DNN可以使用由較少發(fā)言人組成的混合語音信號進行訓練,并可用于分離來自較多來源的語音信號。此外,由于這種語音分離過程同時使用了語音信號的時間和空間特征,并根據(jù)輸入信號的全局屬性推導出嵌入向量V,因此在自動語音識別(ASR)等下游應用中,它能很好地處理同一音頻類別中不同說話人之間的差異。測試結果一致表明,在預處理階段使用所公開方法的通用ASR系統(tǒng),與傳統(tǒng)的語音到文本系統(tǒng)相比,在重音揚聲器的轉錄性能方面差距明顯縮小。
該方法的一種應用是去除棒球比賽等活動錄音中的語音命令或背景對話。通過傳統(tǒng)方法,例如通過獲取與不想要的信號源相對應的音頻片段,來識別來自不想要的信號源(例如Ss)的語音信號。在一個實施方案中,用戶可以通過提供要從混合音頻信號x中編輯的非預期音頻信號樣本來請求分離語音信號。系統(tǒng)將樣本的時間特征與源信號Sn進行比較,以找到最匹配的非預期源信號Ss。在反STFT步驟之后,將來自所有幀T的各種語音信號拼接在一起,排除來自Ss的語音信號。在一個優(yōu)選的實施方案中,使用交疊添加法重建整個干凈的語音信號。因此,輸出是干凈的音頻信號x',這樣x'包括了來自所有源信號Sn的語音信號,其中n∈{1, ……N},不包括來自Ss的語音信號。干凈的音頻信號x'被傳輸?shù)竭h程位置存儲,以應用于下游,如上傳到社交網(wǎng)站。
另一種應用是實時語音轉錄或錄音轉錄。在一個示例性實施例中,用戶可以在回放錄制的音頻時,使用圖形用戶界面 (GUI) 要求轉錄混合語音信號x中所需的源信號Sd。在反STFT步驟之后,僅來自所需信號源Sd的語音信號會被傳輸?shù)秸Z音到文本系統(tǒng)。ASR或語音到文本系統(tǒng)使用通用方法從所需信號源Sd中提取頻譜特征并生成詞語序列,然后將其轉換為文本。系統(tǒng)將翻譯結果顯示為GUI上的文本。
申請人介紹說,本專利申請中討論的系統(tǒng)可由一個或多個處理器與一個或多個非臨時性計算機可讀介質(zhì)耦合實現(xiàn)。此處所述方法可通過處理器執(zhí)行存儲在非臨時計算機可讀存儲介質(zhì)(如隨機讀取存儲器、閃存、磁/光存儲器等)上的計算機可讀指令來執(zhí)行。GUI是硬件或硬件與軟件的組合。GUI與上述系統(tǒng)相連,被配置為接收用戶指令并輸出用戶選擇的音頻轉錄。
權利要求
[權利要求1] 一種語音分離方法,包括:
(a) 接收混合語音信號x,該信號由來自多個不同來源的語音Sn組成,其中n∈{1, ……N};
(b) 使用短時傅里葉變換將混合語音信號x轉換為時頻域的頻譜圖,并獲得特征表達X,其中X對應于混合語音信號x的頻譜圖和從混合語音信號x提取的時間特征;
(c) 使用深度神經(jīng)網(wǎng)絡(DNN),利用公式 V =fθ(X)確定嵌入向量V,其中 fθ(X) 是混合語音信號x的全局函數(shù)。
[權利要求2] 權利要求1所述的語音分離方法還包括:
(d) 將嵌入向量V劃分為與不同源Sn相對應的簇;
(e) 對簇應用二進制掩碼以創(chuàng)建掩碼簇;
(f) 由掩碼簇合成語音波形,其中每個語音波形對應一個不同的源Sn;
(g) 合并語音波形,以生成混合語音信號x',通過拼接對應于不同信源Sn的語音波形,并排除來自目標信源Ss的語音波形,從而使混合語音信號x' 包括來自不同信源Sn的語音波形,并排除來自目標信源Ss的語音波形;
(h) 將混合語音信號x'發(fā)送到遠程位置存儲。
[權利要求3] 一種非暫時性計算機可讀存儲介質(zhì),其上存儲有計算機可執(zhí)行指令,當這些指令被一個或多個處理器執(zhí)行時,導致一個或多個處理器執(zhí)行包括以下處理的操作:
(a) 接收混合語音信號x,該信號包括來自多個不同來源的語音Sn,其中n∈{1, ……N},在深度神經(jīng)網(wǎng)絡 (DNN)中進行來源分離訓練;
(b) 使用DNN將混合語音信號x 的時頻表達轉換為特征空間中的嵌入,作為混合語音信號x的函數(shù);
(c) 使用K均值聚類算法對嵌入進行聚類;
(d) 對聚類應用二進制掩碼,以獲得掩碼聚類;
(e) 將掩碼簇轉換到時域,以獲得N個與不同聲源Sn相對應的分離語音信號;
(f) 從N個分離的語音信號中的目標源Sd提取頻譜特征,并從頻譜特征生成詞語序列,以生成與目標源Sd相對應的語音信號轉錄本。
分析
權利要求1不適格。
權利要求的解釋:根據(jù)最寬泛合理解釋,權利要求的術語被推定為具有與本領域普通技術人員對說明書的解釋一致的常規(guī)含義。參見《專利審查操作指南》(MPEP)2111。
關于步驟(a),權利要求沒有對如何接收混合語音信號做出任何限定。對混合語音信號的最寬泛合理解釋是包括來自不同來源的可聽語音?;旌险Z音信號可以通過用戶設備中的麥克風或其他將聲音轉換為電信號的傳感器而被接收。
關于步驟(b),權利要求規(guī)定,使用STFT將混合語音信號轉換為時頻域的頻譜。獲得與從混合語音信號x中提取的頻譜和時間特征相對應的特征表達X。權利要求沒有說明如何獲得混合語音信號的時間特征和頻譜。
關于步驟(c),權利要求規(guī)定,根據(jù)步驟(b)的結果,使用一個公式來確定嵌入向量。權利要求還規(guī)定,在確定嵌入向量時使用DNN。但權利要求中沒有包含任何有關DNN或其操作方式的細節(jié)。
對權利要求1最寬泛合理解釋是:一種方法,接收來自不同來源的口語音頻、得出音頻的時間特征表達和頻譜,以及使DNN基于時間特征表達和頻譜使用數(shù)學公式計算嵌入向量。
步驟1:這部分的適格分析評估權利要求是否屬于任何法定類別。參見MPEP 2106.03。該權利要求記載了接收混合語音信號、轉換混合語音信號和使用DNN確定嵌入向量的步驟或行為,因此是一個方法(一系列步驟或行為)。方法是發(fā)明的法定類別。(步驟1:是)。
步驟2A分支一:這部分的適格分析評估權利要求是否記載了司法排除對象。正如MPEP 2106.04第II小節(jié)所解釋的,當司法排除對象在權利要求中被“闡釋”或“描述”時,權利要求就“記載”了司法排除對象。該權利要求記載了步驟(b):“使用STFT將混合語音信號x轉換為時頻域的頻譜,并獲得特征表達X,其中X對應于混合語音信號x的頻譜和從混合語音信號x中提取的時間特征”。在本權利要求中,將混合語音信號 x“轉換”為時頻域的頻譜涉及使用STFT的數(shù)學運算。因此,該權利要求記載了使用特定變換函數(shù)將信號從一個域轉換到另一個域的數(shù)學運算。權利要求還記載了步驟(c),即“使用公式V =fθ(X)確定嵌入向量V,其中fθ(X)是輸入信號的全局函數(shù)”。所記載的公式顯然是一個數(shù)學公式或等式,而“確定”則是一種數(shù)學計算。因此,該權利要求記載了一個數(shù)學公式或等式以及一種數(shù)學計算,兩者都屬于抽象想法中的數(shù)學概念類別。正如MPEP所解釋的那樣,當一項權利要求記載了屬于相同或不同類別的多個抽象想法時,審查員應將這些限定視為一種單一的抽象想法,而不是作為多個單獨的抽象想法進行單獨分析。由于步驟(b)和(c)屬于同一類抽象想法(即數(shù)學概念),這些限定被視為單一抽象想法進行進一步分析。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權利要求作為一個整體是否將所記載的司法排除對象融入排除對象的實際應用中。這一評估是通過以下方式進行的:(1)確定權利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進行單獨和組合評估,以確定權利要求作為一個整體是否將排除對象融入實際應用中。參見 MPEP 2106.04(d)。
權利要求在步驟(a)中記載了第一個附加元素,即“接收混合語音信號 x,該信號包括來自多個不同來源的語音Sn,其中n∈{1, ……N}”。如上所述,步驟(a)的權利要求具有高度通用性,可以描述以用戶設備中的麥克風或其他聲音傳感器接收混合語音信號。該元素只不過是收集數(shù)據(jù)。為了使用所記載的司法排除對象進行計算(即將混合語音信號轉換為時頻域表示),必然需要獲取數(shù)據(jù)。元素“接收”并沒有對權利要求施加任何其他有意義的限定。因此,附加限定是解決方案之外的次要行為。參見MPEP 2106.05(g)。
該方法在步驟(c)中還記載了第二個附加元素“使用深度神經(jīng)網(wǎng)絡 (DNN) 確定嵌入向量V……”在確定一項權利要求是否僅僅記載了帶有“應用它”(或等同詞)的司法排除對象時,例如僅僅記載了指示在計算機上執(zhí)行抽象想法,審查員可以考慮以下幾點 (1) 權利要求是否只記載了解決方案的想法或結果,即權利要求沒有記載如何完成問題解決方案的細節(jié);(2) 權利要求是否僅僅將計算機或其他機器作為執(zhí)行現(xiàn)有程序的工具;(3) 應用司法排除對象的特殊性或普遍性。參見 MPEP 2106.05(f)。在本案中,除了DNN被用于確定嵌入向量之外,沒有關于特定DNN或DNN如何操作以得出嵌入向量的細節(jié)。DNN被用于一般性地應用抽象想法(即使用所記載的數(shù)學公式進行數(shù)學計算),而沒有對DNN如何將作為輸入信號的函數(shù)來推導嵌入向量的操作方法做出任何限定。此外,該限定只記載了使用DNN確定嵌入向量的想法,而沒有詳細說明如何實現(xiàn)。該權利要求省略了DNN如何解決技術問題的任何細節(jié),而只記載了關于解決方案或結果的想法。此外,該權利要求僅僅記載了通用DNN作為進行所述數(shù)學計算的工具,而非旨在改進技術或計算機。參見MPEP 2106.05(f)。因此,該限定僅僅代表了指示在計算機上應用司法排除對象。它也可以被視為只是試圖將司法排除對象的應用與計算機的技術環(huán)境泛泛地聯(lián)系起來。
公開內(nèi)容指出了在語音分離領域遇到的技術問題,并提供了本發(fā)明作為解決所指出的語音分離問題的方法。公開內(nèi)容清楚地描述了本發(fā)明如何通過提供一種特殊的語音分離技術,解決從同一類別的不同語音源中分離出語音的問題,同時不需要事先了解說話者數(shù)量或說話者特征的訓練,從而對現(xiàn)有的語音分離方法進行改進。具體地說,這種改進是通過確定作為輸入信號函數(shù)的嵌入向量、將這些向量劃分為簇,以及根據(jù)這些簇合成重建的混合語音信號來實現(xiàn)的。然而,該權利要求只要求確定嵌入向量,因此沒有反映出公開內(nèi)容中討論的改進。所記載的通用DNN只是增加了一個通用的計算機組件來執(zhí)行該方法,因此未能提供對技術或技術領域的改進。參見 MPEP 2106.05(a)。即使綜合來看,這些附加元素也沒有將所記載的司法排除對象融入到實際應用中(步驟 2A分支二:否),因此該權利要求是針對司法排除對象的。(步驟2A:是)。
步驟2B:這部分的適格分析評估的是權利要求作為一個整體是否明顯超過了所記載的排除對象,即是否有任何附加元素或附加元素的組合為權利要求添加了發(fā)明構思。參見MPEP 2106.05。
在步驟2A分支二中,步驟 (c) 中的第二個附加元素“使用深度神經(jīng)網(wǎng)絡”被認為僅僅是指示在使用通用計算組件的計算機上應用司法排除對象。步驟2A分支二的分析貫穿于步驟2B。此外,步驟(a)中的第一個附加元素被認定為解決方案之外的次要行為。然而,在步驟2A中得出的某一附加元素屬于解決方案之外的次要行為的結論,應在步驟2B中重新評估。參見MPEP 2106.05(g)。在步驟2B中,對解決方案之外的次要行為的重新評估要考慮到該解決方案之外的行為是否為該領域熟知、常規(guī)而普遍的行為。在本案中,接收混合語音信號的步驟僅僅是收集數(shù)據(jù),該步驟被高度概括地記載,并且正如公開的內(nèi)容所討論的那樣,是熟知的(例如,背景技術的第一段解釋說,智能手機和其他設備早已配備了通過集成在設備中的麥克風接收混合語音信號的功能)。因此,即使重新評估,這一限定仍然是解決方案之外的次要行為,并沒有達到明顯超過的程度。
即使綜合考慮,這些附加元素也僅僅指示是應用排除對象和解決方案之外的次要行為,因此沒有提供發(fā)明構思(步驟2B:否)。權利要求不適格。
權利要求2適格。
權利要求的解釋: 根據(jù)最寬泛合理解釋,權利要求的術語被推定為具有與本領域普通技術人員對說明書的解釋一致的常規(guī)含義。參見《專利審查操作指南》(MPEP)2111。權利要求2是從屬權利要求,依賴并要求權利要求1的所有限定。
關于步驟(d),權利要求沒有對如何將嵌入向量劃分為與不同來源相對應的簇做出任何限定。聚類可以使用公開的K均值算法或本領域普通技術人員已知的任何其他算法。
步驟(e)要求對聚類應用二進制掩碼。對于本領域的普通技術人員來說,“應用二進制掩碼”的通常含義就是使用二進制矩陣來指示哪些表述的部分應該打開或關閉的數(shù)學運算。這種掩碼可以用本領域已知的任何方式進行,例如,對兩個數(shù)字進行位操作或將二進制矩陣與另一個數(shù)字表述相乘等等。
步驟(f)合成來自掩碼簇的語音波形,其中每個波形對應于混合語音信號的不同來源。背景部分說明該合成是通過使用反STFT將掩碼簇轉換為時域中的單獨語音信號,與混合語音信號中的不同語音源相對應。
步驟(g)將步驟(f)中分離的語音波形拼接在一起,拼接的方式是將對應于不同聲源Sn的語音波形拼接在一起,但剔除來自目標聲源Ss的語音波形,這樣得到的混合語音信號剔除了來自目標聲源的至少一個語音信號,而包括來自其他聲源的語音信號。背景技術部分指出,使用交疊添加法進行拼接,以重建整個干凈的語音信號,但步驟(g)的范圍很廣,足以涵蓋本領域已知的任何拼接方法。
步驟(h)規(guī)定將重建的混合語音信號傳輸?shù)竭h程位置進行存儲。請注意,這一步并不要求實際存儲重構的混合語音信號,而是要求傳輸信號的預期結果是將其存儲到遠程位置。
如上關于權利要求1的描述,權利要求2的最寬泛合理解釋是一種方法,即接收來自不同來源的口語音頻、得出音頻的時間特征表達和頻譜,以及使DNN基于時間特征表達和頻譜使用數(shù)學公式計算嵌入向量。然后將嵌入向量劃分為若干個簇,使用二進制掩碼對這些簇進行修改,并將修改后的簇合成為單獨的語音信號。通過剔除來自一個信號源的至少一個語音信號,并包含來自其他信號源的語音信號,可生成一個新的混合語音信號。然后,傳輸合并后的混合語音信號。
步驟1:如上關于權利要求1的討論,該權利要求記載了接收混合語音信號、轉換混合語音信號和使用DNN確定嵌入向量的步驟或行為。從屬權利要求2 進一步增加了以下步驟:將嵌入向量劃分成簇,對簇應用二進制掩碼并合成結果,將結果信號組合成混合語音信號,以及傳輸混合語音信號。因此,權利要求2是一種方法(一系列步驟或行為)。方法是發(fā)明的法定類別。(步驟1:是)。
步驟2A分支一:這部分的適格分析評估權利要求是否記載了司法排除對象。正如MPEP 2106.04第II小節(jié)所解釋的,當司法排除對象在權利要求中被“闡釋”或“描述”時,權利要求就“記載”了司法排除對象。如上關于權利要求1的討論,步驟(b)和(c)記載了數(shù)學概念。步驟(d)記載了“將嵌入向量V劃分為與不同來源Sn相對應的簇”。權利要求對如何進行這種劃分沒有任何限定。也就是說,權利要求中的任何內(nèi)容都不妨礙在頭腦中實際執(zhí)行這一步驟。例如,“將……劃分為簇”包括人類任意選擇向量組并在頭腦中將它們分配到簇中。本權利要求中對DNN的記載并不能否定這些限定的思維屬性,因為本權利要求只是將DNN用作執(zhí)行思維過程的工具。參見MPEP 2106.04(a)(2)第III.C小節(jié)。權利要求因此記載了思維過程。
該權利要求還記載了步驟(e)——“對聚類應用二進制掩碼以創(chuàng)建掩碼簇”。該步驟記載了基于二進制計算生成數(shù)字的數(shù)學運算。因此,該權利要求包含了進一步的數(shù)學計算,屬于抽象想法中的數(shù)學概念類別。
“除非清楚地表明權利要求中包含了不同的排除對象,如自然規(guī)律和抽象想法,否則應注意不要將權利要求解析為多個排除對象,特別是在涉及抽象想法的權利要求中?!盡PEP 2106.04,第II.B小節(jié)(在Bilski訴Kappos案中論述,561 U.S. 593 (2010))。因此,在可能的情況下,審查員應將這些限定視為一種單一的抽象想法,而不是多個單獨的抽象想法進行單獨分析。如上所述,權利要求2的步驟 (b)、(c) 和 (e)記載了數(shù)學概念,步驟 (d) 記載了思維過程。審查員應在步驟 2A分支一中確定權利要求同時記載了思維過程和數(shù)學概念,并將限定(b)-(e)共同視為一個單獨的抽象想法進行進一步分析。參見MPEP 2106.04第II.B小節(jié)。
步驟(f)合成來自掩碼簇的語音波形,其中每個波形對應混合語音信號的不同來源。這一步需要將步驟(e)的結果在時域上轉換成單獨的語音信號。從數(shù)字簇合成語音波形的過程無法實際上在人腦中完成。進一步來說,雖然合成涉及數(shù)學計算,但權利要求并沒有具體說明任何數(shù)學公式、計算或關系。此外,步驟(f)不屬于組織人類活動的方法,因為它不屬于所列舉的基本經(jīng)濟原則或實踐、商業(yè)或法律互動、管理個人行為和人際關系或互動等子類別。
同樣,步驟(g)將語音波形組合在一起,生成混合語音信號,具體方法是將不同信號源對應的語音波形拼接在一起,但不包括來自目標信號源的語音信號。盡管公開內(nèi)容解釋說,拼接可以通過交疊添加法(這是一種數(shù)學運算)來執(zhí)行,但權利要求中并未詳細說明如何執(zhí)行拼接。此外,雖然權利要求中提到了變量,但變量本身并不是數(shù)學關系、公式或計算。因此,組合步驟只是基于或涉及數(shù)學概念,但并沒有記載數(shù)學概念。生成混合語音信號,使其包括來自不同來源的語音信號,并剔除來自目標源的語音信號,這不是一種可以在人腦中實際執(zhí)行的過程。因此,步驟(g)既不是數(shù)學概念,也不是思維過程。此外,步驟(g)也不是組織人類活動的方法,因為它不屬于所列舉的子類別。
如上所述,(b)-(e)項限定被視為一種單一的抽象想法,權利要求被視為包含了屬于抽象想法的數(shù)學概念類別的限定。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權利要求作為一個整體是否將所記載的司法排除對象融入排除對象的實際應用中。這一評估是通過以下方式進行的:(1)確定權利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進行單獨和組合評估,以確定權利要求作為一個整體是否將排除對象融入實際應用中。參見 MPEP 2106.04(d)。
如上所述對權利要求 1的討論,步驟(a)記載了接收混合語音信號的數(shù)據(jù)收集步驟,步驟(c)記載了使用DNN確定嵌入向量,相當于“應用它”。
步驟(h)記載了“將混合語音信號x' 發(fā)送到遠程位置存儲”。如上所述,傳輸混合語音信號 x' 的預期結果是將其存儲到遠程位置以供將來使用,例如用于音頻播放或上傳到社交媒體網(wǎng)站。這一限定僅僅是傳輸數(shù)據(jù)輸出的后解決步驟——是對權利要求的一種微不足道的補充,并沒有對權利要求進行有意義的限定。因此,步驟(h)是解決方案之外的次要行為。參見MPEP 2106.05(g)。在限定(b)、(c)、(d)和(e)中記載的抽象想法之外,其余的附加限定是限定(f)中記載的從掩碼簇合成語音波形,以及限定(g)中記載的生成混合語音信號,其剔除來自目標源的語音信號。
步驟(f)記載了“合成來自掩碼簇的語音波形,其中每個語音波形對應于不同的來源Sn”,步驟(g)記載了“通過拼接對應于不同來源Sn的語音波形,生成混合語音信號x’,剔除來自目標源Ss的語音波形,從而使混合語音信號x’包括來自不同來源Sn的語音信號,其中n∈{1, ……N},并剔除來自目標源Ss的語音信號”。步驟(f)和(g)將抽象想法融入到實際應用中。公開內(nèi)容中解釋說,捕捉音頻的設備無法正確區(qū)分屬于同一類別的不同語音源,而目前可用的解決方案并不能充分解決這一問題,因為它們需要目標用戶(其語音需要被識別)明確地與設備進行交互,以提供訓練數(shù)據(jù)。公開內(nèi)容指出,本發(fā)明提供了一種特殊的語音分離技術,解決了將屬于同一類別的不同語音源的語音分離出來的問題,同時不需要事先了解說話者的數(shù)量或針對說話者的訓練,從而改進了現(xiàn)有的語音分離方法。該權利要求反映了公開內(nèi)容中討論的改進,詳細記載了 DNN 如何幫助簇分配,以對應混合語音信號中識別出的語音源,然后在時域中合成為單獨的語音波形,并轉換為混合語音信號,剔除不需要的語音源的音頻。參見 MPEP 2106.05(a)。雖然步驟(b)-(e)本身包含了司法排除對象,但步驟(f)和(g)的目的是創(chuàng)建一個新的語音信號,該信號不再包含來自不需要信號源的無關語音信號。所要求保護的發(fā)明通過包含這些特征反映了這一技術改進。此外,將語音簇轉換為單獨的語音波形,以及從單獨的語音波形生成混合語音信號并不是解決方案之外的次要行為,也不僅僅是指示應用排除對象,或僅僅是使用領域的限定。相反,這些步驟反映了公開內(nèi)容中描述的改進。因此,該權利要求針對的是對現(xiàn)有計算機技術或語音分離技術的改進,該權利要求將抽象想法融入了實際應用中。(步驟2A分支二:是)。權利要求適格。(步驟2A:否)。
權利要求3適格。
權利要求的解釋:根據(jù)最寬泛合理解釋,權利要求的術語被推定為具有與本領域普通技術人員對說明書的解釋一致的常規(guī)含義。參見《專利審查操作指南》(MPEP)2111。前序部分明確指出,該權利要求涉及一種非暫時計算機可讀存儲介質(zhì),該存儲介質(zhì)包含指令,當指令被與其關聯(lián)的一個或多個處理器執(zhí)行時,可使處理器執(zhí)行權利要求中所述的接收、生成和產(chǎn)生步驟。本公開內(nèi)容給出了隨機存取存儲器、閃存、磁/光存儲器等作為非暫時計算機可讀存儲介質(zhì)的示例,但權利要求并沒有說明非暫時計算機可讀存儲介質(zhì)的類型。
關于步驟(a),權利要求沒有對如何接收混合語音信號做出任何限定。對混合語音信號最寬泛合理解釋是包括來自不同來源的可聽語音?;旌险Z音信號可以通過用戶設備中的麥克風或其他將聲音轉換為電信號的傳感器接收。權利要求要求對接收這種混合語音信號的DNN進行來源分離訓練。
關于步驟(b),權利要求規(guī)定DNN用于將混合語音信號的時頻表達轉換為特征空間中的嵌入,但并未提供有關DNN本身的任何結構細節(jié)。說明書討論了在STFT域處理混合語音信號以獲得時間特征和頻譜圖,然后DNN使用這些特征和頻譜圖確定特征空間中作為輸入信號函數(shù)的嵌入向量V。由于權利要求中沒有說明如何獲得混合語音信號的時頻表達或如何將其轉換為作為信號x的函數(shù)的嵌入,因此該子步驟可以按照說明書或本領域普通技術人員已知的任何其他方法執(zhí)行。
步驟(c)要求使用k均值聚類算法對嵌入進行聚類,但對算法的實現(xiàn)方式不做任何限定。聚類可以使用本公開中描述的k均值算法,也可以使用本領域普通技術人員已知的其他方法。
步驟(d)通過對聚類應用二進制掩碼獲得掩碼簇。對于本領域的普通技術人員來說,“應用二進制掩碼”的常規(guī)含義是使用二進制矩陣來指示哪些表達部分應該打開或關閉的數(shù)學運算。這種掩碼可以用本領域已知的任何方式進行,例如,對兩個數(shù)字進行位操作或將二進制矩陣與另一種數(shù)字表達相乘等等。
步驟(e)要求在時域中將掩碼簇轉換為單獨的語音信號,與混合語音信號中的不同音源相對應。權利要求沒有具體說明如何進行轉換。
最后一步(f)要求從步驟(e)的輸出中僅從N個分離的語音信號中的目標源Sd提取頻譜特征,并從頻譜特征中生成詞語序列,以生成與目標源Sd相對應的語音信號轉錄本。公開內(nèi)容指出,從反STFT步驟輸出的所需語音信號被傳輸?shù)紸SR,ASR使用傳統(tǒng)方法從所需來源Sd中提取頻譜特征并生成詞語序列,然后將其轉換為文本。權利要求中沒有具體說明提取和生成的特定方式;因此,提取頻譜特征和生成詞語序列的步驟可以由本領域已知的ASR系統(tǒng)實現(xiàn),以生成文本。
因此,對權利要求3最寬泛合理解釋是,非暫時計算機可讀存儲介質(zhì)存儲指令,當指令被處理器執(zhí)行時,使處理器執(zhí)行以下步驟:通過DNN接收由來自不同來源的音頻構成的混合語音信號,DNN從信號的時頻表達計算嵌入向量。然后,將嵌入向量劃分為簇,并將簇轉換為時域中的單獨語音信號。在這些分離的語音信號中,只有一個特定的分離語音信號會被轉換成文本,從而生成一份轉錄本。
步驟1:這部分的適格分析評估權利要求是否屬于任何法定類別。參見MPEP 2106.03。前序部分明確指出,該權利要求涉及一種非暫時計算機可讀介質(zhì),該介質(zhì)可使與其關聯(lián)的一個或多個處理器執(zhí)行一系列步驟。本公開內(nèi)容給出了隨機存取存儲器、閃存和磁/光存儲器作為非暫時計算機可讀存儲介質(zhì)的非限定性示例。依據(jù)公開內(nèi)容,對該權利要求的最寬泛合理解釋只包括有關計算機可讀介質(zhì)的法定實施例,而不包括暫態(tài)信號。非暫時計算機可讀存儲介質(zhì)屬于“制造物”類別的發(fā)明。(步驟1:是)。
該權利要求記載了一系列步驟,因此是一種方法。參見MPEP 2106.03(步驟1:是)。
步驟2A分支一:這部分適格分析評估了權利要求是否記載了司法排除對象。正如 MPEP 2106.04 第II小節(jié)所解釋的,當司法排除對象在權利要求中被“闡釋”或“描述”時,權利要求即“記載”了司法排除對象。步驟(b)要求將混合語音信號的時頻表達轉換為特征空間中作為混合語音信號函數(shù)的嵌入,這是以文本格式書寫的數(shù)學公式。步驟(c)需要通過k均值聚類算法對嵌入進行聚類,這是一種數(shù)學計算。步驟(d)通過對聚類應用二進制掩碼來獲得掩碼簇,這也是一種數(shù)學計算。因此,權利要求中的數(shù)學計算屬于抽象想法中的數(shù)學概念類別。
步驟(e)要求將特征空間中的點簇轉換為時域中的語音信號,這不是人類頭腦中可以實際完成的過程。此外,雖然轉換可能基于數(shù)學概念,但權利要求中并沒有說明任何數(shù)學公式、計算或關系。
最后,步驟(f)要求從步驟(e)輸出的N個分離信號中僅提取一個目標源Sd的頻譜特征,并從頻譜特征生成詞語序列,以生成與目標源Sd相對應的語音信號轉錄本。從信號中提取頻譜特征并從這些提取的特征中生成單詞序列以生成文本的過程并不能在人腦中實際完成。雖然這種提取和生成涉及數(shù)學運算,但權利要求并沒有具體說明任何數(shù)學公式、計算或關系。步驟(e)和(f)也不屬于所列舉的人類活動組織方法的子類別。因此,步驟(e)和(f)不屬于司法排除對象。
正如MPEP中所解釋的,當一項權利要求記載了屬于相同或不同類別的多個抽象想法時,審查員應將這些限定視為一個單一的抽象想法,而不是作為多個單獨的抽象想法進行單獨分析。如上所述,(b)-(d)的限定中記載了數(shù)學概念。由于(b)-(d)所有步驟都屬于同一類抽象想法(即數(shù)學概念),這些限定被視為單一抽象想法進行進一步分析。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權利要求作為一個整體是否將所記載的司法排除對象融入排除對象的實際應用中。這一評估是通過以下方式進行的:(1)確定權利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進行單獨和組合評估,以確定權利要求作為一個整體是否將排除對象融入實際應用中。參見MPEP 2106.04(d)。
權利要求3的步驟(a) 作為附加限定記載了“接收混合語音信號x,該信號包括來自多個不同來源的語音Sn,其中n∈{1, ……N}” 正如上文權利要求解釋部分所討論的,該限定的要求具有高度通用性,可以描述通過用戶設備中的麥克風或其他聲音傳感器接收混合語音信號。該限定只不過是收集數(shù)據(jù)。為了使用所記載的司法排除對象來執(zhí)行步驟(b)、(c)和(d)的計算,必然需要獲取數(shù)據(jù)。該限定并未對權利要求施加任何其他有意義的限定。因此,這一附加限定是解決方案之外的次要行為。參見MPEP 2106.05(g)。
在步驟(b)中記載的抽象想法之外的另一個附加限定是使用經(jīng)過源分離訓練的 DNN。在確定一項權利要求是否僅僅是以“應用它”(或等同物)的措辭記載了一個司法排除對象,例如僅僅指示是在計算機上實現(xiàn)一種抽象想法時,審查員可以考慮以下幾點:(1) 權利要求是否只記載了解決方案或結果的想法,即權利要求沒有記載如何完成問題解決方案的細節(jié);(2) 權利要求是否只是將計算機或其他機器作為執(zhí)行現(xiàn)有程序的工具;以及 (3) 應用司法排除對象的特殊性或一般性。參見 MPEP 2106.05(f)。在本案中,權利要求沒有記載有關特定DNN的細節(jié)。DNN 被用來泛泛地應用抽象想法(即執(zhí)行步驟(b)中記載的數(shù)學計算),而沒有對DNN如何操作以推導出嵌入向量做出任何限定。此外,該限定還涵蓋了使用DNN實現(xiàn)所述抽象想法的每一種模式。該權利要求省略了DNN如何解決技術問題的全部細節(jié),而只記載了解決方案或結果的想法。參見MPEP 2106.05(f)。因此,該限定僅僅代表了指示實現(xiàn)步驟(b)中所記載的抽象想法,相當于在所記載的司法排除對象中添加了“應用它”的字樣。此外,權利要求將步驟(b)中記載的司法排除對象的使用限定在DNN的技術環(huán)境中,將司法排除對象的使用與記載的DNN泛泛地聯(lián)系起來。因此,這種一般性的DNN記載并沒有將司法排除對象融入實際應用中。參見MPEP 2106.05(h)。因此,也可以將其視為只是試圖將司法排除對象的使用與特定的使用領域或技術環(huán)境泛泛地聯(lián)系起來。
剩余的附加限定是步驟(e)和步驟(f),步驟(e)在時域中將掩碼簇轉換為N個獨立的語音信號,步驟(f) 僅從步驟(e)輸出的N個獨立信號中的一個目標源Sd 提取頻譜特征,并根據(jù)頻譜特征生成詞語序列,從而生成一份轉錄本。這些額外限定將步驟(b)、(c)和(d)中記載的抽象想法融入語音至文本轉換的實際應用中。
該公開內(nèi)容解釋說,由于無法區(qū)分屬于同一類別的不同語音源,捕獲音頻的設備在區(qū)分感興趣的人之間的對話和不需要的話語方面表現(xiàn)不佳,從而導致錄制的語音轉錄質(zhì)量低下。公開內(nèi)容指出,本發(fā)明提供了一種特殊的語音分離技術,解決了從同一類別的不同語音源中分離語音的問題,同時還能很好地處理同一語音類別中不同說話者之間的差異,從而改進了現(xiàn)有的語音分離方法。該公開內(nèi)容指出,本發(fā)明通過DNN根據(jù)輸入信號的全局屬性推導嵌入向量,這是對現(xiàn)有技術語音分離方法的改進。此外,本發(fā)明還使用了語音信號的時間和空間特征;本發(fā)明的這一特點有助于下游傳統(tǒng)語音轉文本系統(tǒng)縮小重音揚聲器在轉錄性能上與傳統(tǒng)語音轉文本方法的差距。
在這里,權利要求反映了公開內(nèi)容中討論的這些技術改進,它詳細記載了在音源分離方面經(jīng)過訓練的DNN如何幫助進行簇分配,以對應混合語音信號中識別出的音源,然后在時域中將這些音源轉換為單獨的語音信號,以便從頻譜特征中生成單詞序列,從而使每個分離的語音信號的單獨轉錄成為可能。參見 MPEP 2106.05(a)。
雖然(b)、(c)和(d)步驟本身記載了一種抽象想法,但接收混合語音信號、處理語音信號以產(chǎn)生掩碼簇、在時域中將掩碼簇轉換為單獨信號、從這樣的一個轉換信號中提取頻譜特征,以及從提取的頻譜特征中生成詞語序列以產(chǎn)生轉錄本等步驟的有序組合,反映了公開內(nèi)容中討論的技術改進。因此,該權利要求針對的是對現(xiàn)有語音到文本技術的改進,該權利要求將步驟(b)、(c)和(d)中記載的抽象思想融入語音到文本轉換的實際應用中,該語音信號對應于混合語音信號的一個源。因此,權利要求作為一個整體將司法排除對象融入了實際應用中(步驟 2A分支二:是),因此權利要求并非針對司法排除對象。(步驟 2A:否)。該權利要求適格。
注釋:
* 本文翻譯自《July 2024 Subject Matter Eligibility Examples》,來源美國專利商標局官網(wǎng),https://www.uspto.gov/patents/laws/examination-policy/subject-matter-eligibility。
相關閱讀:
1、美國專利商標局2024年7月專利適格指南更新及最新案例導讀
(原標題:USPTO《2024年7月主題適格示例集》全譯【二】)
點擊“閱讀原文”查看USPTO《2024年7月主題適格示例集》原件。
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
翻譯:杜衡
編輯:IPRdaily趙甄 校對:IPRdaily縱橫君
注:原文鏈接:USPTO《2024年7月主題適格示例集》全譯(二)(點擊標題查看原文)
「關于IPRdaily」
IPRdaily是全球領先的知識產(chǎn)權綜合信息服務提供商,致力于連接全球知識產(chǎn)權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://m.jupyterflow.com”
文章不錯,犒勞下辛苦的作者吧