siemens x
人工智能

微軟Project Tokyo讓視障群體感知身邊友人,重啟社交

2025China.cn   2020年04月07日

  編者按:當(dāng)你和三兩好友聚會(huì),你們?cè)诮徽勚袝?huì)很自然地面向正在說話的人,頻頻對(duì)視,或身體前傾表示正在聆聽。眼神和肢體語言是交流中非常重要的一部分,但對(duì)盲人和視障群體來說,這幾乎是不可完成的任務(wù)。而微軟研究院 Project Tokyo 項(xiàng)目正在通過 AI 技術(shù)構(gòu)建個(gè)性化智能代理,賦予視障群體更多能力,讓不可能成為可能。

  12歲的失明男孩 Theo 坐在廚房的一張桌子旁。他戴著微軟 HoloLens 左右轉(zhuǎn)動(dòng)頭部,攝像機(jī)、深度傳感器和揚(yáng)聲器環(huán)繞著他的沙棕色頭發(fā)。

  當(dāng)他面朝微軟劍橋研究院高級(jí)研究軟件開發(fā)工程師 Martin Grayson 時(shí),Theo 聽到一聲提示音,“Martin”從他耳朵上方響起來。

  “Martin,”西奧笑了,“它用五秒讓我認(rèn)出了你。” Martin 站在一個(gè)齊膝高的黑箱旁,其中的計(jì)算硬件正支持著 Theo 使用的機(jī)器學(xué)習(xí)模型的運(yùn)行。

  Theo 再次轉(zhuǎn)動(dòng)頭部,又一個(gè)名字響起來,“Tim”。

  “Tim,你在那里!” Theo 高興地“看”向 Tim Regan,他是微軟劍橋研究院的高級(jí)研究軟件開發(fā)工程師,同時(shí)也是 Theo 的編程老師,每?jī)蓚€(gè)月,Theo 都會(huì)去 Regan 家中學(xué)習(xí)編程課程。Regan 此前在研究項(xiàng)目 Code Jumper 中認(rèn)識(shí)了這個(gè)失明的男孩,Code Jumper 是專門為視障兒童開發(fā)的物理編程語言,用一種可觸摸的方式,讓對(duì)計(jì)算機(jī)科學(xué)感興趣、但視力上有困難的孩子們體驗(yàn)編程的樂趣。

  他們正在進(jìn)行的項(xiàng)目 Project Tokyo 希望為人類定制智能個(gè)人代理,用 AI 技術(shù)來延伸人們能力的界限。對(duì)長(zhǎng)期身處黑暗與未知的 Theo 來說,能夠?qū)崟r(shí)地“認(rèn)出”周圍的人們,是一種非常新奇的體驗(yàn)。“不僅僅是說話的人,那些沒有說話的人,我從來不知道他們是誰、在哪兒。AI 技術(shù)讓我能用這種特別的方式感知到他們的存在。”

  Project Tokyo 有著更長(zhǎng)遠(yuǎn)的研究愿景——構(gòu)建能夠擴(kuò)展所有用戶能力的智能個(gè)人代理,不僅僅是能夠完成特定任務(wù)的端到端的系統(tǒng),而是構(gòu)建一個(gè)能自適應(yīng)每一個(gè)人的不同需求的 AI 服務(wù)系統(tǒng)。

  微軟劍橋研究院高級(jí)研究軟件開發(fā)工程師 Martin Grayson(左)和微軟研究院高級(jí)研究員 Cecily Morrison(右)正在進(jìn)行測(cè)試

 

源自巴西殘奧會(huì)的靈感

  Project Tokyo 誕生于2016年,由微軟研究院首席研究員 Ed Cutrell 和微軟劍橋研究院高級(jí)研究員 Cecily Morrison 共同發(fā)起,他們此前都有與盲人和弱視群體一起設(shè)計(jì)技術(shù)的經(jīng)歷,因此決定從視障群體入手,看看智能個(gè)人代理能如何幫助他們?cè)鰪?qiáng)和擴(kuò)展能力?!耙曊先后w往往是新技術(shù)的早期采用者,是非常好的合作對(duì)象,” Cecily Morrison 說,“我們一起想象未來關(guān)于人工智能的新體驗(yàn)。”

  在前期調(diào)研中,他們跟隨一群參加巴西殘奧會(huì)的運(yùn)動(dòng)員和觀眾,從英國出發(fā)前往里約熱內(nèi)盧,觀察他們?cè)跈C(jī)場(chǎng)、運(yùn)動(dòng)場(chǎng)館、觀光游覽等種種活動(dòng)中,如何與他人進(jìn)行互動(dòng)。Cutrell 注意到,“我們?nèi)祟悓?duì)如何與人互動(dòng)有非常細(xì)致和詳盡的社會(huì)理解——了解周圍是誰,他們?cè)谧鍪裁?,與我的關(guān)系是什么,但對(duì)于盲人來說,這些我們認(rèn)為理所當(dāng)然的線索都消失了。”

  研究團(tuán)隊(duì)與盲人和弱視社區(qū)一起舉辦了一系列研討會(huì),來探討有哪些潛在的技術(shù)能夠?yàn)樗麄兏淖冞@一點(diǎn)。參與者中,有一位50多歲的盲人音頻工程師 Peter Bosher 提到一個(gè)常見的場(chǎng)景,“當(dāng)兩三個(gè)以上的人共處一室,人們會(huì)開始用眼神交流和肢體語言來表示‘我在和這個(gè)人或者那個(gè)人說話’,這一點(diǎn)對(duì)盲人來說真的非常困難?!?/FONT>

  因此他提出,有沒有一種技術(shù)能夠?yàn)槊と颂峁┧麄冎車娜说男畔?這一想法立刻引發(fā)了大家的共鳴。

  微軟研究院首席研究員 Ed Cutrell 與項(xiàng)目中經(jīng)過改裝的 HoloLens 設(shè)備

 

HoloLens 的進(jìn)化

  明確了 Project Tokyo 想要?jiǎng)?chuàng)造什么樣的 AI 體驗(yàn),研究團(tuán)隊(duì)以微軟混合現(xiàn)實(shí)眼鏡 HoloLens 為基礎(chǔ)構(gòu)建 AI 技術(shù)。

  HoloLens 能將全息圖投影到用戶可操縱的真實(shí)世界中,為構(gòu)建與環(huán)境實(shí)時(shí)交互的 AI 代理提供了非常好的基礎(chǔ)。HoloLens 的灰度相機(jī)陣列可提供接近180度的環(huán)境視角,它的高分辨率彩色相機(jī)能夠高精度地進(jìn)行面部識(shí)別,而位于用戶耳朵上方的揚(yáng)聲器能夠提供空間感極其真實(shí)的音頻,讓聲音從特定的方位響起。

  研究團(tuán)隊(duì)中的機(jī)器學(xué)習(xí)專家開發(fā)了一系列計(jì)算機(jī)視覺算法來識(shí)別環(huán)境中不同人的位置信息。其中一個(gè)模型用于檢測(cè)環(huán)境中人的姿勢(shì),計(jì)算他們相對(duì)于用戶的位置和距離,另一個(gè)則能夠分析高分辨率相機(jī)拍攝的照片流,來識(shí)別和匹配照片中的人物是誰。隨后這些信息將通過音頻提示告訴用戶。

  比如,如果設(shè)備在用戶左側(cè)一米遠(yuǎn)處檢測(cè)到朋友 A,用戶左耳將聽到咔嗒聲,聽起來像是來自左側(cè)一米遠(yuǎn)處。用戶想知道這個(gè)人是誰,一個(gè)嗡嗡的音效會(huì)將用戶的視線引向 A 所在的方位。當(dāng) HoloLens 的中央攝像頭對(duì)準(zhǔn)了 A 的臉部,用戶會(huì)聽到一個(gè)尖銳的咔噠聲提示用戶已經(jīng)面朝 A 了。如果系統(tǒng)識(shí)別出了 A,就會(huì)為用戶念出 A 的名字。

  作為音頻工程師,Peter Bosher 在項(xiàng)目早期參與了音頻體驗(yàn)的部分,“我特別喜歡這個(gè)工具為失明的我們帶來的這種‘凝視’的感覺,它能讓我們有一些肢體語言上的溝通?!?/FONT>

  盲人音頻工程師 Peter Bosher(中)在微軟劍橋研究院查看系統(tǒng)的最新版本

 

與視障社區(qū)一起制作原型

  隨著研究團(tuán)隊(duì)對(duì)技術(shù)的開發(fā),研究人員開始進(jìn)一步與視障社區(qū)合作,邀請(qǐng)盲人或視力不佳的成年人來親身體驗(yàn)和測(cè)試這項(xiàng)技術(shù),提供真實(shí)的反饋信息。

  有幾位用戶認(rèn)為不停地轉(zhuǎn)動(dòng)頭部讓人感到很尷尬,希望能在頭部固定的情況下輕松地獲取系統(tǒng)收集的信息。這些反饋又使研究團(tuán)隊(duì)開發(fā)了更多功能,比如在用戶頭部固定時(shí),系統(tǒng)能用具有空間感的聲音,對(duì)辨認(rèn)出的所有人作一個(gè)概述。

  如果我們感受到他人的視線,我們會(huì)從眼神交流開始自然地和對(duì)方展開交談。研究團(tuán)隊(duì)據(jù)此研發(fā)了另一個(gè)實(shí)驗(yàn)性的功能,當(dāng)環(huán)境中的某個(gè)人看向用戶時(shí),系統(tǒng)會(huì)在那個(gè)方向發(fā)出提示音,但這個(gè)提示音后不會(huì)出現(xiàn)對(duì)方的名字。

  “不給出名字會(huì)讓你將注意力轉(zhuǎn)向那個(gè)試圖引起你注意的人,將頭轉(zhuǎn)向他們,而當(dāng)你直視對(duì)方時(shí),系統(tǒng)會(huì)告訴你他的名字。” Grayson 向一位體驗(yàn)者解釋這個(gè)細(xì)微的設(shè)計(jì)。

  “我完全同意這一點(diǎn),視力健全的人就是這樣反應(yīng)的。他們從眼角捕捉到某個(gè)人,然后轉(zhuǎn)過頭去叫他們的名字?!边@位體驗(yàn)者說。

  經(jīng)過改進(jìn)的 HoloLens,攝像頭上方還裝有一個(gè) LED 燈帶,白色表示正在追蹤接近用戶的人,綠色代表已為用戶識(shí)別這個(gè)人。這個(gè)功能可讓與用戶交流的朋友知道他們已經(jīng)被“看見”了,使交流更加自然,也能讓他們自由地選擇進(jìn)入和移出設(shè)備的視野。

幫助視障兒童學(xué)習(xí)社會(huì)互動(dòng)

  隨著研究的深入,研究團(tuán)隊(duì)發(fā)現(xiàn),這項(xiàng)技術(shù)還擁有幫助盲人或弱視兒童發(fā)展社會(huì)互動(dòng)能力的潛力。

  此前的研究表明,約有三分之二的失明或弱視兒童表現(xiàn)出了與自閉癥兒童相似的社交行為,比如在談話中似乎沒有在與談話對(duì)象交流,常常將頭靠在桌子上露出一只耳朵。于是,研究團(tuán)隊(duì)開始探索這一技術(shù)是否可以幫助他們學(xué)習(xí)發(fā)起和維持與他人的社會(huì)互動(dòng)。

  Theo 參與到這項(xiàng)體驗(yàn)中,來幫助研究團(tuán)隊(duì)更好地讓系統(tǒng)適配兒童的行為特征。比如孩子們總是喜歡坐在一起,但常常坐不了幾分鐘就起身跑來跑去。Theo 回憶起最初測(cè)試的場(chǎng)景,“系統(tǒng)有時(shí)會(huì)同時(shí)報(bào)出兩個(gè)名字,這讓我很難聽清,所以我說這一點(diǎn)需要改動(dòng)?!?/FONT>

  研究人員還仔細(xì)觀察了 Theo 自由使用系統(tǒng)的方式。比如在一次家庭用餐時(shí),Theo 開始巧妙地反復(fù)左右轉(zhuǎn)動(dòng)頭部,讓系統(tǒng)說出正在與他說話的人的名字。

  “Theo 在用這個(gè)技術(shù)保持對(duì)談話者的空間注意力,” Morrison 當(dāng)時(shí)感到很驚訝,“我們之前并沒有想到,這對(duì)他來說無疑是一種行之有效的保持注意力的方式。如果他能保持注意力,他就可以與談話者將話題進(jìn)行下去?!?/FONT>

  在實(shí)際測(cè)試中,更多的用途證實(shí)了這項(xiàng)技術(shù)對(duì)幫助視障兒童學(xué)習(xí)社會(huì)互動(dòng)的潛能。

  和其他失明兒童一樣,Theo 在社交場(chǎng)合中也會(huì)將頭擱在桌子上露出一只耳朵。研究人員和 Theo 玩了一系列游戲,來發(fā)掘他用身體和頭部交流時(shí)可能產(chǎn)生的力量。

  在游戲中,研究人員和 Theo 要解決一個(gè)小組問題。Theo 知道問題的答案,研究員們只知道問題的主題,而且只有在 Theo 看著他們時(shí),他們才能交談。如果 Theo 移開視線,他們必須立刻停止討論。“那一刻,Theo 突然意識(shí)到自己能夠掌控一段談話。他開始理解‘看到’他人的力量,它不僅賦予了他交流的技能,更使他習(xí)得了一套全新的社會(huì)能力?!?/FONT>

  現(xiàn)在 Theo 很少把頭放在桌子上說話了。無論是否帶著特制的 HoloLens,Theo 都會(huì)將自己的身體和臉面向想要談話的人。這是否會(huì)為 Theo 帶來長(zhǎng)期的變化還是一個(gè)未知數(shù),研究團(tuán)隊(duì)也尚不能確定其他失明或弱視力兒童是否也會(huì)做出類似的反應(yīng)。因此研究團(tuán)隊(duì)正在進(jìn)入下一階段,研究這項(xiàng)技術(shù)對(duì)更多兒童、年齡范圍更廣泛的人群的影響。

  失明少年 Theo 正在廚房里參與用戶測(cè)試

 

Project Tokyo 的未來

  為了構(gòu)建適用于更多人的智能個(gè)人代理系統(tǒng),更廣泛的研究工作正在進(jìn)行中,包括讓用戶更自由地根據(jù)偏好調(diào)整系統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)。例如,微軟劍橋研究院機(jī)器學(xué)習(xí)研究員 Sebastian Tschiatschek 正在研究用戶如何告知系統(tǒng)他們希望聽到的信息的種類和數(shù)量。

  由于用戶的視力水平不同,對(duì)信息的需求也不一樣。個(gè)性化的需求讓 Tschiatschek 必須采取非常規(guī)的機(jī)器學(xué)習(xí)方法,“我們想以某種數(shù)學(xué)形式將問題形式化,但對(duì)這個(gè)問題來說并不容易。許多開發(fā)工作都是通過嘗試,真正與人互動(dòng),了解他們的好惡,從而增強(qiáng)算法來實(shí)現(xiàn)?!贝送猓脩粼谙到y(tǒng)提供已知信息時(shí)會(huì)感到失望,還有很多這樣的問題尚待研究團(tuán)隊(duì)解決。

  最終,Project Tokyo 將構(gòu)建可擴(kuò)展所有用戶能力的智能個(gè)人代理。研究團(tuán)隊(duì)將與視障社區(qū)中的更多兒童繼續(xù)探索,包括 Morrison 先天失明的7歲兒子 Ronan。

  “我們?cè)?Theo 身上看到的情況讓人倍受鼓舞,他正在以前所未有的方式掌控自己的世界,” Morrison 充滿期待,“我認(rèn)為我們將在 Ronan 和更多的人身上看到這一點(diǎn)。”

(轉(zhuǎn)載)

標(biāo)簽:微軟 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國工博會(huì)于9月24日至28日在國家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]