動(dòng)作捕捉方面的優(yōu)勢(shì)
-
2022-11-21
-
x970762
- 瀏覽量:6727
- 分享次數(shù):251
從《星球大戰(zhàn)》到《快樂大腳》,很多熱門電影都包含了動(dòng)作捕捉技術(shù)實(shí)現(xiàn)的場(chǎng)景,通過視頻記錄物體或人的移動(dòng)。此外,這種跟蹤涉及物理、幾何和感知之間的復(fù)雜相互作用。它的應(yīng)用超越了好萊塢,延伸到軍事、體育訓(xùn)練、醫(yī)療、計(jì)算機(jī)視覺和機(jī)器人等領(lǐng)域,使工程師能夠理解和模擬真實(shí)環(huán)境中的動(dòng)作。
由于這可能是一個(gè)復(fù)雜而昂貴的過程,它通常需要在物體或人身上放置標(biāo)記,并記錄動(dòng)作序列——研究人員正在試圖將負(fù)擔(dān)轉(zhuǎn)移到神經(jīng)網(wǎng)絡(luò)上,神經(jīng)網(wǎng)絡(luò)可以從簡(jiǎn)單的視頻中獲取數(shù)據(jù),并在模型中重現(xiàn)。物理模擬和渲染方面的工作有望使其得到更廣泛的應(yīng)用,因?yàn)樗梢詮膱D像中描述真實(shí)、連續(xù)和動(dòng)態(tài)的運(yùn)動(dòng),并在2D渲染和三維場(chǎng)景之間來回轉(zhuǎn)換。然而,要做到這一點(diǎn),目前的技術(shù)需要對(duì)環(huán)境條件、行動(dòng)發(fā)生的地點(diǎn)以及染色裝置的選擇有準(zhǔn)確的了解,這兩者通常都是。不可用。
現(xiàn)在,IBM麻省理工學(xué)院的一組研究人員開發(fā)了一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)管道來避免這一問題,并能夠推斷環(huán)境和狀態(tài)的行為發(fā)生,感興趣的人或物體的物理特征(系統(tǒng))及其控制參數(shù)。經(jīng)過測(cè)試,該技術(shù)在模擬不同環(huán)境條件下的四種不同類型的動(dòng)態(tài)交互剛體和變形體物理系統(tǒng)方面優(yōu)于其他方法。此外,這種方法允許模仿學(xué)習(xí)-從視頻預(yù)測(cè)和再現(xiàn)真實(shí)世界的軌跡,飛行四旋翼飛行器。
“先進(jìn)的研究問題是如何從一個(gè)視頻重建一個(gè)數(shù)字雙電源系統(tǒng),”杜導(dǎo)博士說?!?1歲博士后,電氣工程與計(jì)算機(jī)科學(xué)(電學(xué))、計(jì)算機(jī)科學(xué)與人工智能(power)實(shí)驗(yàn)室成員,研究團(tuán)隊(duì)成員。為了做到這一點(diǎn),杜說:“我們需要忽略視頻剪輯在進(jìn)化和染色方面的差異,并試圖抓住動(dòng)態(tài)系統(tǒng)或動(dòng)態(tài)運(yùn)動(dòng)的核心信息。
通過捕捉人、機(jī)器人或動(dòng)作捕捉軟件的視頻來推斷動(dòng)態(tài)運(yùn)動(dòng)更容易獲得信息,但也帶來了新的挑戰(zhàn)?!皥D像或視頻(以及它們?nèi)绾尾シ藕腿旧?在很大程度上取決于照明條件、背景信息、紋理信息和環(huán)境材料信息,這些信息在現(xiàn)實(shí)世界中不一定是可測(cè)量的,”杜說。沒有這種染色配置信息或使用哪種染色設(shè)備的知識(shí),目前難以收集動(dòng)態(tài)信息和預(yù)測(cè)視頻對(duì)象的行為。即使已知染色機(jī),目前的神經(jīng)網(wǎng)絡(luò)方法仍然需要大量的訓(xùn)練數(shù)據(jù)集。然而,在他們的新方法中,這可能成為一個(gè)有爭(zhēng)議的問題?!叭绻闩臄z豹子在早上和晚上奔跑的視頻,當(dāng)然,你會(huì)得到視覺上不同的視頻片段,因?yàn)楣饩€條件非常不同。但你真正關(guān)心的是動(dòng)態(tài)運(yùn)動(dòng):豹子的關(guān)節(jié)角度——而不是它們看起來是亮還是暗,”杜說。
為了解決呈現(xiàn)域和圖像之間的差異問題,該團(tuán)隊(duì)開發(fā)了一個(gè)包含神經(jīng)網(wǎng)絡(luò)的管道系統(tǒng),稱為“呈現(xiàn)不變狀態(tài)預(yù)測(cè)(RISP)”網(wǎng)絡(luò)。RISP將圖像(像素)的差異轉(zhuǎn)化為系統(tǒng)狀態(tài)——即動(dòng)作環(huán)境——的差異,這使得他們的方法對(duì)于呈現(xiàn)配置具有普適性和不可知性。用隨機(jī)染色參數(shù)和狀態(tài)來訓(xùn)練RISP,這些參數(shù)和狀態(tài)被輸入到可微分染色器中,可微分染色器是測(cè)量像素對(duì)染色配置(例如光或材料顏色)的敏感度的渲染器。這將根據(jù)已知的地面真實(shí)參數(shù)生成一組不同的圖像和視頻,然后將允許RISP逆轉(zhuǎn)這一過程,并根據(jù)輸入的視頻預(yù)測(cè)環(huán)境狀態(tài)。該團(tuán)隊(duì)還最小化了RISP的進(jìn)化梯度,使其預(yù)測(cè)對(duì)進(jìn)化配置的變化不那么敏感,它學(xué)會(huì)了忘記視覺外觀,專注于學(xué)習(xí)動(dòng)態(tài)。這是通過差異染色裝置實(shí)現(xiàn)的。
該團(tuán)隊(duì)測(cè)試了四個(gè)模擬系統(tǒng):四旋翼飛行器(沒有任何物理接觸的剛體飛行)、立方體(與環(huán)境相互作用的剛體,就像死亡)、新手和桿(可變形的物體可以像蛇一樣)。這些任務(wù)包括從圖像中估計(jì)系統(tǒng)的狀態(tài),從視頻中識(shí)別系統(tǒng)參數(shù)和運(yùn)動(dòng)控制信號(hào),并從目標(biāo)圖像中找到引導(dǎo)系統(tǒng)達(dá)到所需狀態(tài)的控制信號(hào)。此外,他們創(chuàng)建了一個(gè)基線和一個(gè)甲骨文,以比較這些系統(tǒng)中的新RISP過程與類似的方法,例如,缺乏渲染梯度損失,訓(xùn)練神經(jīng)網(wǎng)絡(luò)沒有任何損失,或完全缺乏RISP神經(jīng)網(wǎng)絡(luò)。該團(tuán)隊(duì)還研究了梯度損失如何隨著時(shí)間的推移影響狀態(tài)預(yù)測(cè)模型的性能。最后,研究人員部署了他們的RISP系統(tǒng),并從視頻中推斷出真實(shí)世界中具有復(fù)雜動(dòng)力學(xué)的四旋翼飛行器的運(yùn)動(dòng)。他們將其性能與其他技術(shù)進(jìn)行了比較,其他技術(shù)缺少丟失的功能,使用像素差異,或者包括手動(dòng)調(diào)整染料注釋器配置的技術(shù)。
在幾乎所有的實(shí)驗(yàn)中,RISP程序都優(yōu)于現(xiàn)有的類似或先進(jìn)的方法,模仿或再現(xiàn)了所需的參數(shù)或運(yùn)動(dòng),并被證明是當(dāng)前運(yùn)動(dòng)捕捉方法的數(shù)據(jù)高效和可擴(kuò)展的競(jìng)爭(zhēng)對(duì)手。
在這項(xiàng)工作中,研究人員做了兩個(gè)重要的假設(shè):關(guān)于動(dòng)作捕捉設(shè)備的信息是已知的,如它的位置和設(shè)置,以及控制被跟蹤的對(duì)象或人的幾何和物理。未來的工作計(jì)劃將解決這個(gè)問題。
“在我看來,我們?cè)谶@里解決的最大問題是在沒有非常昂貴的設(shè)備的情況下從一個(gè)領(lǐng)域到另一個(gè)領(lǐng)域重建信息,”馬說。甘補(bǔ)充說,這種方法應(yīng)該是“正確的目的。[在虛擬環(huán)境中重建物理世界的應(yīng)用程序,如元宇宙,非常有用]
“這基本上是一個(gè)日??捎玫慕鉀Q方案,簡(jiǎn)潔而簡(jiǎn)單,用于跨域重建或逆動(dòng)力學(xué)問題,”馬說。