行業(yè)行業(yè)
高通公司多媒體研發(fā)高級(jí)工程總監(jiān)Ananth Kandhadai
沉浸式體驗(yàn)的新時(shí)代已經(jīng)來(lái)臨,這在很大程度上得益于計(jì)算機(jī)視覺技術(shù)的引領(lǐng)。無(wú)論是模糊用戶背景的虛擬呼叫,還是在公路上成功實(shí)現(xiàn)自動(dòng)駕駛的汽車,計(jì)算機(jī)視覺技術(shù)的進(jìn)步正在變革人們的生活方式。
二十多年來(lái),高通公司多媒體研發(fā)高級(jí)工程總監(jiān)Ananth Kandhadai一直是發(fā)明各類計(jì)算機(jī)視覺和人工智能技術(shù)的領(lǐng)軍人物。自1996年加入公司以來(lái),Ananth的研究領(lǐng)域包括語(yǔ)音編碼、圖像處理、深度學(xué)習(xí)、視覺硬件加速、功率約束的系統(tǒng)設(shè)計(jì),以及增強(qiáng)現(xiàn)實(shí)/虛擬現(xiàn)實(shí)(AR/VR)系統(tǒng)解決方案。目前,他領(lǐng)導(dǎo)著一個(gè)工程師團(tuán)隊(duì),專注于研發(fā)面向擴(kuò)展現(xiàn)實(shí)(XR)應(yīng)用的計(jì)算機(jī)視覺和攝像系統(tǒng)。
Ananth來(lái)自印度,在卡利卡特國(guó)立技術(shù)學(xué)院獲得電子工程學(xué)士學(xué)位后,他前往美國(guó),并在弗吉尼亞理工大學(xué)獲得了電子工程碩士學(xué)位。在那之后,他面臨著一個(gè)選擇:繼續(xù)深造并攻讀博士學(xué)位,或者在高通開始他的工程師生涯。他選擇了高通,并開始了對(duì)移動(dòng)語(yǔ)音編碼和標(biāo)準(zhǔn)化的研究。Ananth認(rèn)為他做出了正確的決定,并表示與選擇學(xué)術(shù)界相比,他在高通學(xué)到更多,成長(zhǎng)得更快。
多年來(lái),由Ananth引領(lǐng)的一些創(chuàng)新性發(fā)明包括:使智能手機(jī)攝像頭能夠基于用戶的環(huán)境變化來(lái)啟動(dòng)應(yīng)用程序,以及在語(yǔ)音編碼和圖像與信號(hào)處理領(lǐng)域的大量工作。如果沒有Ananth的技術(shù)突破,我們可能無(wú)法享有目前的一些智能終端和豐富的多媒體體驗(yàn)。
近期我們與Ananth進(jìn)行了深入交流,談到了他在加入高通技術(shù)公司后,在信號(hào)處理和計(jì)算機(jī)視覺交叉領(lǐng)域的杰出職業(yè)生涯。
在加入高通的25年里,您主要研究哪些技術(shù)?
我在高通的一半以上的時(shí)間都在從事語(yǔ)音編碼和標(biāo)準(zhǔn)化領(lǐng)域的工作——總體來(lái)說(shuō),就是面向手機(jī)的語(yǔ)音壓縮技術(shù)。蜂窩和衛(wèi)星通信是我從1996年起就開始從事的工作,后來(lái)我轉(zhuǎn)向了研究圖像處理和計(jì)算機(jī)視覺。
長(zhǎng)期以來(lái)我一直將信號(hào)處理作為核心研究領(lǐng)域,將其應(yīng)用于語(yǔ)音編碼、語(yǔ)音壓縮和語(yǔ)音處理。之后,我轉(zhuǎn)向了影像處理和計(jì)算機(jī)視覺領(lǐng)域。目前,我正在研究面向XR和一些其他顯示和渲染方面的特定計(jì)算機(jī)視覺應(yīng)用。
我的工作變動(dòng)也反映了高通公司的發(fā)展歷程。在我剛加入工作時(shí),無(wú)線手機(jī)用戶數(shù)量要少很多,所以那段時(shí)間我長(zhǎng)期參與系統(tǒng)擴(kuò)容。當(dāng)用戶數(shù)量提升之后,我們逐漸開始新的布局,于是我們說(shuō):“好吧,讓我們來(lái)增加一些拍照手機(jī)?!比绻氵€記得早期那些翻蓋手機(jī),應(yīng)該有印象,它們的攝像頭很小。大家最初看到拍照手機(jī)爆發(fā)式增長(zhǎng)的時(shí)候,我正在從事相關(guān)工作,遇到過(guò)許多不同的技術(shù)挑戰(zhàn)。
幾年后,當(dāng)那些攝像頭需要變得更智能時(shí),我就專注于運(yùn)用計(jì)算機(jī)視覺——一種使計(jì)算機(jī)能夠檢測(cè)現(xiàn)實(shí)世界中的物體,并對(duì)其做出反應(yīng)的功能。隨著我們邁入應(yīng)用計(jì)算機(jī)視覺的新世界,我就轉(zhuǎn)而研究未來(lái)可用于XR(擴(kuò)展現(xiàn)實(shí))應(yīng)用的技術(shù)。我專注研究的技術(shù)領(lǐng)域與高通的技術(shù)重點(diǎn)同步轉(zhuǎn)換,這并非巧合。
對(duì)于那些可能不太了解計(jì)算機(jī)視覺的人,您能通俗地解釋一下它是什么以及為何重要嗎?
試想一下人們佩戴眼鏡——比如矯正鏡片,每個(gè)人都了解矯正鏡片。人們佩戴它,是為了更清晰地觀察世界,對(duì)吧?簡(jiǎn)單來(lái)說(shuō),人們?cè)陬^上佩戴某些東西是為了更好地觀察和感知世界——在某種程度上,這增強(qiáng)或擴(kuò)展了現(xiàn)實(shí)世界。
計(jì)算機(jī)視覺是一種數(shù)字化方式,用于感知、記錄和理解單個(gè)攝像頭或一系列攝像頭所生成的可視數(shù)據(jù)。比如,找到人眼自然識(shí)別的模式,或是太微妙、甚至人眼無(wú)法察覺的數(shù)據(jù)模式。無(wú)論是自動(dòng)駕駛汽車的障礙識(shí)別功能,還是在虛擬通話中區(qū)分前景背景的功能,從根本上來(lái)說(shuō),它都是通過(guò)創(chuàng)建用計(jì)算機(jī)解釋可視數(shù)據(jù)的方法來(lái)實(shí)現(xiàn)的。
隨著終端變得更加智能,它需要自動(dòng)分析出這些模式。終端需要像一個(gè)數(shù)字化的助理一樣,感知用戶及其周圍環(huán)境。此類自動(dòng)感知技術(shù)要求終端具備智能計(jì)算機(jī)視覺功能——幾乎像第三只眼睛一樣,來(lái)提供無(wú)縫用戶體驗(yàn)。這就是計(jì)算機(jī)視覺對(duì)所有不同的應(yīng)用都至關(guān)重要的原因。
在研究應(yīng)用計(jì)算機(jī)視覺的過(guò)程中,您遇到過(guò)哪些技術(shù)挑戰(zhàn)?您是如何努力應(yīng)對(duì)挑戰(zhàn)的?
人們可能會(huì)說(shuō):“哦,這就好像多了一雙眼睛”。但是眼睛本身很容易復(fù)制——它只是光的接收裝置。難點(diǎn)在于復(fù)制眼睛后面處理信息的大腦。大腦是神經(jīng)科學(xué)和意識(shí)的經(jīng)典研究領(lǐng)域,人們?nèi)绾胃兄F(xiàn)實(shí)這個(gè)問(wèn)題甚至尚未被完全了解。但這正是我們?cè)噲D在機(jī)器上復(fù)制的東西。在不經(jīng)歷數(shù)百萬(wàn)年進(jìn)化的情況下,研究與人類頭腦具有相同可靠性水平的終端,這是第一個(gè)挑戰(zhàn)。
高通正在解決的最重要的問(wèn)題是,當(dāng)在用戶在頭上佩戴XR終端這樣的設(shè)備時(shí),需要保證設(shè)備是輕便的,不能過(guò)熱,它的功耗也必須非常低。這意味著不能只用大量算力和內(nèi)存來(lái)解決計(jì)算機(jī)視覺和感知等方面的難題。終端必須足夠輕便和涼爽,才能使用戶舒適地將其佩戴于頭部,這歸根結(jié)底涉及到功耗效率的創(chuàng)新。
功耗和計(jì)算復(fù)雜性總是彼此沖突,但可用性要求二者針對(duì)不同的消費(fèi)終端外形進(jìn)行同步優(yōu)化。
計(jì)算機(jī)視覺在不同應(yīng)用中有何不同,比如汽車駕駛輔助、無(wú)人機(jī)、機(jī)器人和XR?
本質(zhì)上講,這些不同的應(yīng)用在所處理的基本任務(wù)上是相似的。例如,了解XR終端用戶的頭部位置或攝像頭的位置,與汽車在自動(dòng)駕駛時(shí)需要了解周圍環(huán)境,或無(wú)人機(jī)在自動(dòng)駕駛模式下跟蹤物體都非常相似。以上所有產(chǎn)品的攝像頭和視覺系統(tǒng)都需要明確終端周圍的實(shí)際情況。因此,將人工智能(AI)技術(shù)用于物體檢測(cè)、3D重建、地圖構(gòu)建、物體識(shí)別、頭部追蹤和眼動(dòng)跟蹤等不同用例,從概念上看都非常相似。無(wú)人機(jī)用例略有不同,因?yàn)樵谖锢砩喜倏卣咭呀?jīng)脫離機(jī)器本身,機(jī)器中沒有人。
然而,這里還存在著其他方面的因素,導(dǎo)致計(jì)算機(jī)視覺對(duì)各個(gè)用例來(lái)說(shuō)都有本質(zhì)的不同。這就是為什么很難拿出一個(gè)萬(wàn)能的解決方案??梢源騻€(gè)比方,你可以說(shuō)人類、獵豹和花豹都有四肢和嘴,都是肉食性動(dòng)物。它們是有相似性的,但又有著需要針對(duì)各自不同的環(huán)境和情況進(jìn)行的不同優(yōu)化。
汽車上有牢固安裝的攝像頭,其技術(shù)重點(diǎn)是影像的穩(wěn)定性。汽車通常只在路面上行駛,但它們行駛的速度很快。最重要的是,汽車計(jì)算機(jī)視覺中,錯(cuò)誤的代價(jià)在車上更具災(zāi)難性。這讓該項(xiàng)技術(shù)變得很難,但也更具可預(yù)測(cè)性。
相比之下,把一組類似的攝像頭放在用戶頭上就不一樣了:用戶可能身處任何地方,不斷地以不可預(yù)測(cè)的模式移動(dòng)頭部,這讓頭部攝像頭看到的場(chǎng)景比車載攝像頭看到的更加難以預(yù)測(cè)。在這個(gè)意義上,XR頭顯和汽車計(jì)算機(jī)視覺系統(tǒng)提出的假設(shè)有些許不同?;炯夹g(shù)保持不變,但它們的工程設(shè)計(jì)方式使其成為完全不同的問(wèn)題。
而最終,盡管我們解決問(wèn)題的方法可能截然不同,但當(dāng)涉及到我們芯片組的實(shí)際架構(gòu)變化時(shí),這些不同領(lǐng)域之間其實(shí)存在著許多協(xié)同效應(yīng)。我們常常發(fā)現(xiàn),在架構(gòu)層面針對(duì)一個(gè)用例所做的決定,最終會(huì)有助于實(shí)現(xiàn)另一個(gè)用例。
高通如何支持您的工作,公司通過(guò)什么方式幫助您創(chuàng)造這些計(jì)算機(jī)視覺技術(shù)?
我很幸運(yùn)能在高通工作,因?yàn)槲覀冊(cè)谶B接、應(yīng)用處理器和智能手機(jī)平臺(tái)方面有成熟的業(yè)務(wù)。這使我們處于一個(gè)有利位置,讓我的團(tuán)隊(duì)能夠?qū)W⒂谟?jì)算機(jī)視覺的技術(shù)層面,比如感知和渲染,從而建立有效方式,讓客戶和最終用戶獲得這些技術(shù)功能。
高通還與計(jì)算機(jī)視覺相關(guān)領(lǐng)域的主要行業(yè)領(lǐng)導(dǎo)者保持著良好的關(guān)系,這有助于我們?cè)谂鉀Q的根本性問(wèn)題上保持一致。我能夠解決很多問(wèn)題,但其中的大量問(wèn)題可能不是實(shí)際問(wèn)題。圍繞實(shí)際問(wèn)題進(jìn)行協(xié)作、制定規(guī)范是很重要的,而與其他公司保持良好關(guān)系有助于我們做到這些。
總體而言,高通積極地推動(dòng)我們團(tuán)隊(duì)提出的解決方案。公司會(huì)采用相關(guān)解決方案,尋找方法將其轉(zhuǎn)化為商機(jī),這需要解決方案的路線圖,并且有助于使我們的產(chǎn)品與其他公司形成差異化。同樣地,業(yè)務(wù)團(tuán)隊(duì)會(huì)給我們帶來(lái)一些挑戰(zhàn)。他們與客戶交流獲取市場(chǎng)需求,然后給我們時(shí)間去思考和實(shí)現(xiàn)這些需求。尤其對(duì)于XR這樣的應(yīng)用,它的業(yè)務(wù)規(guī)模還無(wú)法與智能手機(jī)相比。但高通有著長(zhǎng)期愿景,并且鼓勵(lì)我們?nèi)?shí)現(xiàn)。這使我們能夠?qū)W⒂诩夹g(shù),而不是僅僅試圖弄清這些技術(shù)如何實(shí)現(xiàn)商業(yè)化。
最后,高通有許多團(tuán)隊(duì)致力于從各個(gè)方面研究和設(shè)計(jì)行業(yè)領(lǐng)先的系統(tǒng)級(jí)芯片(SoC),這讓我們能夠與公司其他部門的不同團(tuán)隊(duì)合作,來(lái)分享和利用在其他情況下很難獲取的知識(shí)。公司的流程允許我們向其他團(tuán)隊(duì)提供建議,并在不同應(yīng)用中根據(jù)不同目的使用他們的工作成果,而協(xié)作是這個(gè)流程中必須的。結(jié)果證明,這樣的協(xié)作大有裨益。
對(duì)于希望在語(yǔ)音識(shí)別或計(jì)算機(jī)視覺技術(shù)領(lǐng)域開展職業(yè)生涯的年輕發(fā)明家(他們或許還在上學(xué)),您會(huì)給他們什么建議?
根據(jù)我自己的經(jīng)驗(yàn),我建議將發(fā)明看作是解決現(xiàn)實(shí)問(wèn)題的附帶結(jié)果。專注于解決難題,并且相信那些難題將把你引向創(chuàng)新性的解決方案。如果你發(fā)現(xiàn)了其他人尚未解決的問(wèn)題,我認(rèn)為這就值得你花時(shí)間去解決。雖然會(huì)有風(fēng)險(xiǎn),人們沒能解決它可能是有原因的,但這些問(wèn)題通常是值得去研究的。很可能會(huì)有貪多嚼不爛的問(wèn)題,但我認(rèn)為這不值得擔(dān)憂。持續(xù)不斷地去調(diào)整和改進(jìn)就好了,永遠(yuǎn)不要低估自己的想象力和創(chuàng)造力。某個(gè)問(wèn)題沒有被解決并不能說(shuō)明什么——或許它恰好就在等待你去研究。研究任何事物都需要新視角,尤其是那些“尚未解決”的問(wèn)題。
歸根結(jié)底,重要的是去正確地解決問(wèn)題——不必專注于尋找華而不實(shí)或另辟蹊徑的解決方案。根據(jù)我的經(jīng)驗(yàn),創(chuàng)新很有可能來(lái)自于解決那些難題。在我們申請(qǐng)專利時(shí),這個(gè)原則也很有用。專利部門會(huì)評(píng)估一項(xiàng)技術(shù)的創(chuàng)新性和影響力,也會(huì)參考其新穎性和實(shí)用性。所有這些評(píng)估專利是否有用的指標(biāo),都以你要解決的問(wèn)題為基礎(chǔ)。
來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)
編輯:IPRdaily王穎 校對(duì):IPRdaily縱橫君
與光同行!2021年中國(guó)“40位40歲以下企業(yè)知識(shí)產(chǎn)權(quán)精英”榜單揭曉
如何抓住涉外商標(biāo)業(yè)務(wù)的機(jī)遇?涉外商標(biāo)代理高研班【廣州站】來(lái)啦!
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識(shí)產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識(shí)產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來(lái)自于中國(guó)、美國(guó)、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國(guó)等15個(gè)國(guó)家和地區(qū)的高科技公司及成長(zhǎng)型科技企業(yè)的管理者及科技研發(fā)或知識(shí)產(chǎn)權(quán)負(fù)責(zé)人,還有來(lái)自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬(wàn)用戶(國(guó)內(nèi)70余萬(wàn)+海外近30萬(wàn)),2019年全年全網(wǎng)頁(yè)面瀏覽量已經(jīng)突破過(guò)億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來(lái)自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:“http://m.jupyterflow.com
文章不錯(cuò),犒勞下辛苦的作者吧