点击关闭

训练系统-即通过使系统与人在模拟环境中进行交互来完成训练

【王菲那英致敬女排】

情緒AI能夠幫助機器更好的與我們建立連結。目前,基於這些技術構建了一種探測情緒的傳感器,該傳感器可用於市場營銷以及改善事物性能,例如汽車。

該研究使用虛擬代理人來輔助機器在虛擬環境中學習。研究中極具意義的一點是,它使用了人與系統交互時產生的微笑來訓練AI。

情緒是強大的老師,而這項新的研究指出了向這位老師學習的方法。

基於情緒的強化學習的應用將為這些平臺開啟新的篇章。強化學習本身就尤其擅長學習如何優化一系列的任務。而業務流程的本質就是一系列的任務,並且業務流程就是公司為客戶創造價值的核心。在業務流程中使用強化學習主導這些任務的挑戰在於保障可靠的反饋信息來源。

基於情緒的強化學習本質上是在人類這一數億年才形成的智慧生物基礎之上進行的,它使我們能夠快速輕鬆地量化各種體驗感受。通過有效的調整,該信號可在訓練機器進行學習的過程中做為一種強大的、可擴展性極強的反饋機制。

本文首發於微信公眾號:大數據文摘。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。

強化學習非常適用於教學系統來訓練機器完成一系列的任務。在這項研究中,應用主要著重於計算機視覺的相關任務。

最終,他們構建了一個能夠記錄人們在模擬迷宮環境中駕駛時產生的微笑表情的系統。經過多次系統測試後,研究人員發現這個基於情緒的強化學習系統使代理人的探索持續時間延長了51%,探索範圍擴大了46%,在迷宮中碰撞的次數減少了29%。

在目前的大背景下,這項研究最有趣的地方在於,地球上古老生物的智慧已成為人工智能發展的溫床。

這不,微軟研究院的計算機學家最近就創造了一種用人類情緒來訓練機器自我學習的方法。

強化學習的關鍵在於它嚴重依賴於代理人通過在虛擬環境中探索得到的數據,該數據就是該研究的核心。

大數據文摘出品來源:the-vital-edge

今後,這些技術將把重點擴展到與終端用戶建立密切關係。可以想象未來我們會通過與模擬角色進行交互來使用產品或享受服務。今天的聊天機器人或代理人像Siri和Alexa只是早期的例子。終有一天,你將和你的運動鞋或你的牙刷建立連結。

通過將微笑定義為正反饋,研究人員發現了一個訓練人工智能系統的普適化反饋機制,並且這種情緒反饋是較容易獲得的。

基於情緒的強化學習使用情緒反饋例如微笑來訓練機器的意義在於,情緒反應了人類的內在反饋,這一反饋能夠在今後拓展應用到更多領域,而不拘泥於該項研究。另一個在使用強化學習時需要註意的地方是,代理人與模擬環境的交互很大程度上受系統設計者選擇的特定獎勵機制影響。如果你想訓練一個系統使其在游戲中獲勝,那麼你就需要在得分時給予獎勵。

微軟這項研究有趣創新的地方在於,它提出了情緒AI新的應用,即通過使用一種類似於大腦的情感信號來訓練情緒AI。在心理學上,效價衡量了我們對某種經歷的情緒反應是吸引還是厭惡。

微軟研究人員希望採用常規方法來構建一個極具探索能力的代理人。為了實現這一點,他們使用了另一項技術——模仿學習,即通過使系統與人在模擬環境中進行交互來完成訓練。

情緒將我們與機器相連結這些系統究竟從人與他們的交互中學習到了什麼呢?如果交互是通過建立關係並使用這些關係,那麼機器就會在與我們交互的過程中學習如何與我們建立聯繫以及如何為我們服務。

編譯:大萌、錢天培我們生活在一個人工智能爆炸發展的年代——每隔一小段時間,研究人員們就會想出新奇的人工智能訓練方式。

這項研究的背後其實是強化學習

AI在許多領域都可以從人身上習得知識,尤其是服務性經濟領域。例如谷歌、奈飛和亞馬遜這些公司都在使用用戶數據來自動服務於用戶。我們在使用這些強大的技術平臺時,產生了的大量的數據,這些數據可用於訓練機器學習系統,從而使這些平臺變得更智能、更強大。

情緒AI在市場中的應用除了研究團隊使用的開源微笑探測工具外,還有許多商業公司也在做這項工作,例如Affectiva公司和Emotient公司(於2016年被蘋果公司收購)。情緒追蹤工具在市場中被稱為“情緒AI”。微軟的這項研究賦予了這些工具新的應用,即可作為基於情緒的強化學習的數據來源。

但問題是,生活中發生的事情並不總是能夠輕易用分數量化。因此,找到明確的獎勵機制是強化學習研究中的挑戰之一。

強化學習的工作原理是通過讓虛擬代理人(agent)在模擬環境中反覆執行任務,再將經驗提取成策略。用這種方法訓練系統來玩游戲在幾年前十分流行,甚至更先進的算法擊敗了圍棋世界冠軍李世石。

類似微笑或其它表情的反饋信息來源眾多,這要歸功於無處不在的攝像頭。正如研究人員所指出的,這項技術也可以擴展使用“其他生理信號”,這意味著像亞馬遜和谷歌等收集的聲音數據也可以用於訓練機器。就像今天,電話可能被錄音用於訓練和通話質量評估。這項技術使得被訓練的不再是員工,而是智能軟件代理人。

當孩子觸碰到火爐時,會產生強烈的負效價,從而在大腦中留下有效的學習信號。同樣,基於情緒的強化學習也可以使用這種有效的機制,用相似的情緒效價來驅動機器學習。

研究者認為,最好的提煉人類探索方式的方法就是通過捕捉真實人類與系統交互的瞬間。基於之前將正面情緒與好奇心進行關聯並應用於機器學習的研究,研究人員構建了一個用於發現這些情緒的系統。