河北码上网络科技|邯郸小程序开发|邯郸微信开发|邯郸网站建设

Internet Develppment
互聯(lián)網(wǎng)開發(fā)& 推廣服務(wù)提供商

我們擅長(zhǎng)商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。

歡迎瀏覽我們的案例。

首頁 > 新聞中心 > 新聞動(dòng)態(tài) > 正文

和DeepMind一起考慮如何在AI中重現(xiàn)人類的價(jià)值觀

發(fā)布時(shí)間:2018-11-27 16:04:11來源:雷鋒網(wǎng)

  現(xiàn)在提到 AI 的時(shí)候,大家已經(jīng)很少聯(lián)想到電影《終結(jié)者》中的天網(wǎng)那樣有自己獨(dú)特思維邏輯以至于得出了反人類結(jié)論的「超人類智能」了。這當(dāng)然是件好事,說明我們都知道了現(xiàn)階段的 AI 并不具有那樣的邏輯思維能力,沿著現(xiàn)有方向繼續(xù)發(fā)展下去也不會(huì)有;也說明我們已經(jīng)了解了身邊就有形形色色的運(yùn)用機(jī)器學(xué)習(xí)解決具體問題的技術(shù)成果。

  但我們同時(shí)也面對(duì)著一個(gè)新問題,就是隨著人類用模型做出越來越多的決策,模型所看重的因素真的和設(shè)計(jì)它的人類所希望的一樣嗎?又或者,模型完全捕捉了設(shè)計(jì)者提供的數(shù)據(jù)中的模式,但數(shù)據(jù)本身卻含有設(shè)計(jì)者沒有意識(shí)到的偏見。這時(shí)候我們又要怎么辦?

  DeepMind 安全團(tuán)隊(duì)的這篇文章就對(duì)相關(guān)問題做出了一些討論、提出了一些見解。它概述了 DeepMind 近期一篇論文《Scalable agent alignment via reward modeling: a research direction》中提出的研究方向;這篇論文試圖為「智能體對(duì)齊」問題提供一個(gè)研究方向。由此他們提出了一個(gè)基于獎(jiǎng)勵(lì)建模的遞歸式應(yīng)用的方法,讓機(jī)器在充分理解用戶意圖的前提下,再去解決真實(shí)世界中的復(fù)雜問題。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

  近些年,強(qiáng)化學(xué)習(xí)在許多復(fù)雜的游戲環(huán)境中展現(xiàn)出令人驚嘆的實(shí)力,從 Atari 游戲、圍棋、象棋到 Dota 2 和星際爭(zhēng)霸 II,AI 智能體在許多復(fù)雜領(lǐng)域的表現(xiàn)正在迅速超越人類。對(duì)研究人員來說,游戲是嘗試與檢驗(yàn)機(jī)器學(xué)習(xí)算法的理想平臺(tái),在游戲中,必須動(dòng)用綜合認(rèn)知能力才能完成任務(wù),跟解決現(xiàn)實(shí)世界問題所需的能力并無兩樣。此外,機(jī)器學(xué)習(xí)研究人員還可以在云上并行運(yùn)行上千個(gè)模擬實(shí)驗(yàn),為學(xué)習(xí)系統(tǒng)提供源源不斷的訓(xùn)練數(shù)據(jù)。

  最關(guān)鍵的一點(diǎn)是,游戲往往都有明確的目標(biāo)任務(wù),以及反映目標(biāo)完成進(jìn)度的打分系統(tǒng)。這個(gè)打分系統(tǒng)不但能夠?yàn)閺?qiáng)化學(xué)習(xí)智能體提供有效的獎(jiǎng)勵(lì)信號(hào),還能使我們迅速獲得反饋,從而判斷哪個(gè)算法和框架的表現(xiàn)最好。

  讓智能體與人類一致

  不過,AI 的終極目標(biāo)是幫助人類應(yīng)對(duì)現(xiàn)實(shí)生活中日益復(fù)雜的挑戰(zhàn),然而現(xiàn)實(shí)生活中沒有設(shè)置好的獎(jiǎng)勵(lì)機(jī)制,這對(duì)于人類評(píng)價(jià) AI 的工作表現(xiàn)來說形成了挑戰(zhàn)。因此,需要盡快找到一個(gè)理想的反饋機(jī)制,讓 AI 能夠充分理解人類的意圖并幫助人類達(dá)成目標(biāo)。換句話說,我們希望用人類的反饋對(duì) AI 系統(tǒng)進(jìn)行訓(xùn)練,使其行為能夠與我們的意圖保持一致。為了達(dá)到這個(gè)目的,DeepMind 的研究人員們定義了一個(gè)「智能體對(duì)齊」問題如下:

  如何創(chuàng)建行為與用戶意圖保持一致的智能體?

  這個(gè)對(duì)齊問題可以歸納在強(qiáng)化學(xué)習(xí)的框架中,差異在于智能體是通過交互協(xié)議與用戶進(jìn)行交流、了解他們的意圖,而非使用傳統(tǒng)的數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。至于交互協(xié)議的形式可以有很多種,當(dāng)中包括演示(模仿學(xué)習(xí),如谷歌的模仿學(xué)習(xí)機(jī)器人)、偏好傾向(人類直接評(píng)價(jià)結(jié)果,如 OpenAI 和 DeepMind 的你做我評(píng) )、最優(yōu)動(dòng)作、傳達(dá)獎(jiǎng)勵(lì)函數(shù)等。總的來說,智能體對(duì)齊問題的解決方案之一,就是創(chuàng)建一個(gè)能讓機(jī)器根據(jù)用戶意圖運(yùn)作的策略。

  DeepMind 的論文《Scalable agent alignment via reward modeling: a research direction》中概述了一個(gè)正面解決「智能體對(duì)齊」問題的研究方向。基于過去在 AI 安全問題分類和 AI 安全問題闡述方面所做的工作,DeepMind 將描述這些領(lǐng)域至今所取得的進(jìn)展,從而啟發(fā)大家得到一個(gè)對(duì)于智能體對(duì)齊問題的解決方案,形成一個(gè)善于高效溝通,會(huì)從用戶反饋中學(xué)習(xí),并且能準(zhǔn)確預(yù)測(cè)用戶偏好的系統(tǒng)。無論是應(yīng)對(duì)當(dāng)下相對(duì)簡(jiǎn)單的任務(wù),還是未來日趨復(fù)雜、抽象化的、甚至超越人類理解能力的任務(wù),他們希望系統(tǒng)都能勝任有余。

  通過獎(jiǎng)勵(lì)建模進(jìn)行對(duì)齊

  DeepMind 這項(xiàng)研究方向的核心在于獎(jiǎng)勵(lì)建模。他們首先會(huì)訓(xùn)練一個(gè)包含用戶反饋的獎(jiǎng)勵(lì)模型,通過這種方式捕捉用戶的真實(shí)意圖。與此同時(shí),通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)策略,使獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)效果最大化。換句話說,他們把學(xué)習(xí)做什么(獎(jiǎng)勵(lì)模型)與學(xué)習(xí)怎么做(策略)區(qū)分了開來。

  獎(jiǎng)勵(lì)建模示意圖:獎(jiǎng)勵(lì)模型基于用戶反饋進(jìn)行訓(xùn)練,以便更好地捕捉用戶意圖;同一時(shí)間,獎(jiǎng)勵(lì)模型為經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體提供獎(jiǎng)勵(lì)。

  過去 DeepMind 做過一些類似的工作,比如教智能體根據(jù)用戶喜好做后空翻,根據(jù)目標(biāo)示例將物件排成特定形狀,根據(jù)用戶的喜好和專業(yè)的演示玩 Atari 游戲(你做我評(píng) )。在未來,DeepMind 的研究人員們還希望可以研究出一套算法,讓系統(tǒng)可以根據(jù)用戶的反饋迅速調(diào)整自己去適應(yīng)用戶的行為模式。(比如通過自然語言)

  擴(kuò)大獎(jiǎng)勵(lì)模型規(guī)模

  從長(zhǎng)遠(yuǎn)來看,DeepMind 的研究人員們希望可以將獎(jiǎng)勵(lì)模型的規(guī)模擴(kuò)大至一些目前對(duì)人類評(píng)估能力來說還比較復(fù)雜的領(lǐng)域。要做到這一點(diǎn),他們必須提升用戶評(píng)估結(jié)果的能力。因此,他們也將闡述如何遞歸地應(yīng)用獎(jiǎng)勵(lì)模型:通過獎(jiǎng)勵(lì)模型訓(xùn)練智能體,使其能在用戶的評(píng)估過程中提供幫助。一旦評(píng)估變得比行為簡(jiǎn)單,也就意味著系統(tǒng)可以從簡(jiǎn)單的任務(wù)過渡至更加普遍、復(fù)雜的任務(wù)。這也可以看作迭代擴(kuò)增(iterated amplification)的實(shí)例(詳情見「超級(jí) AI」的種子?復(fù)雜到人類難以評(píng)價(jià)的問題,可以教會(huì)一個(gè) AI )。

  遞歸獎(jiǎng)勵(lì)模型的示意圖:經(jīng)過遞歸獎(jiǎng)勵(lì)模型訓(xùn)練的智能體(右邊的小圈圈)將幫助用戶評(píng)估由正在被訓(xùn)練的智能體(右邊打圈圈)產(chǎn)出的結(jié)果

  舉例說明,比如想要通過訓(xùn)練智能體來設(shè)計(jì)計(jì)算機(jī)芯片,為了評(píng)估所提議的芯片設(shè)計(jì)的可行性,我們會(huì)通過獎(jiǎng)勵(lì)模型訓(xùn)練一組智能體「助手」,幫助我們完成芯片模擬性能基準(zhǔn)測(cè)試、計(jì)算散熱性能、預(yù)估芯片的壽命、發(fā)現(xiàn)安全漏洞等任務(wù)。智能體「助手」輸出的成果幫助用戶評(píng)估了芯片設(shè)計(jì)的可行性,接著用戶可以據(jù)此來訓(xùn)練芯片設(shè)計(jì)智能體。雖然說智能體「助手」需要解決的一系列任務(wù),對(duì)于今天的學(xué)習(xí)系統(tǒng)來說難度還是有點(diǎn)高,然而總比直接讓它設(shè)計(jì)一個(gè)計(jì)算機(jī)芯片要容易:想設(shè)計(jì)出計(jì)算機(jī)芯片,你必須理解設(shè)計(jì)過程中的每一項(xiàng)評(píng)估任務(wù),反之卻不然。從這個(gè)角度來說,遞歸獎(jiǎng)勵(lì)模型可以讓我們對(duì)智能體提供「支持」,使其能在和用戶意圖保持一致的情況下,去解決越來越難的任務(wù)。

  研究面臨的挑戰(zhàn)

  如果想將獎(jiǎng)勵(lì)模型應(yīng)用到復(fù)雜的問題上,有幾項(xiàng)挑戰(zhàn)依然等待著我們?nèi)タ朔O聢D展示了 5 項(xiàng)在研究中可能面臨的挑戰(zhàn),對(duì)此感興趣的同學(xué)可以查閱 DeepMind 論文,文中詳細(xì)描述了這些挑戰(zhàn)及對(duì)應(yīng)的解決方案。

  當(dāng)我們擴(kuò)大獎(jiǎng)勵(lì)建模時(shí)將會(huì)遇到的挑戰(zhàn)(左側(cè))以及最有希望的解決方案(右側(cè))

  這提醒了我們關(guān)于智能體對(duì)齊問題的最后一個(gè)關(guān)鍵要素:一旦要在現(xiàn)實(shí)世界中投入使用智能體,首先我們需要向用戶證明這些智能體已經(jīng)充分對(duì)齊。為此,DeepMind 在文中提出了 5 項(xiàng)有助于提高用戶對(duì)于智能體信任度的研究途徑,它們是:設(shè)計(jì)選擇、測(cè)試、可解釋性、形式驗(yàn)證和理論保證。他們還有一個(gè)充滿野心的想法,那就是為產(chǎn)品制作安全證書,證書主要用于證明開發(fā)技術(shù)的可靠性,以及增強(qiáng)用戶使用訓(xùn)練智能體進(jìn)行工作的信心。

  未來的研究方向

  雖然 DeepMind 的研究人員們深信遞歸獎(jiǎng)勵(lì)模型會(huì)是智能體對(duì)齊訓(xùn)練非常有前景的一個(gè)研究方向,然而他們目前無法預(yù)估這個(gè)方向在未來會(huì)怎么發(fā)展(需要大家進(jìn)行更多的研究!)。不過值得慶祝的是,專注智能體對(duì)齊問題的其它幾種研究方向也同時(shí)有別的研究人員正在做出成果:

  模仿學(xué)習(xí)

  短視強(qiáng)化學(xué)習(xí)(Myopic reinforcement learning)

  逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning)

  合作逆強(qiáng)化學(xué)習(xí)

  迭代擴(kuò)增(復(fù)雜到人類難以評(píng)價(jià)的問題,可以教會(huì)一個(gè) AI )

  通過爭(zhēng)論學(xué)習(xí)(人和人吵架生氣,但 AI 和 AI 吵架反倒可以帶來安全 )

  智能體基礎(chǔ)組件設(shè)計(jì)(Agent foundations)

  DeepMind 也在文中探討了這幾種研究方向的異同之處。

  如同計(jì)算機(jī)視覺系統(tǒng)對(duì)于對(duì)抗性輸入的魯棒性研究對(duì)當(dāng)今的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用至關(guān)重要,智能體對(duì)齊研究同樣有望成為機(jī)器學(xué)習(xí)系統(tǒng)在復(fù)雜現(xiàn)實(shí)世界進(jìn)行部署的關(guān)鍵鑰匙。總之,人類有理由保持樂觀:雖然學(xué)術(shù)研究上很可能會(huì)在試圖擴(kuò)大獎(jiǎng)勵(lì)模型時(shí)面臨挑戰(zhàn),然而這些挑戰(zhàn)都是一些有望解決的具體技術(shù)性問題。從這個(gè)意義上說,這個(gè)研究方向已經(jīng)準(zhǔn)備就緒,可以對(duì)深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行實(shí)證研究。

  協(xié)助課題研究取得進(jìn)展是 DeepMind 日常工作中很重要的一個(gè)主題。如果作為研究者、工程師或者有天賦的通才,有興趣參與 DeepMind 的研究中來,DeepMind 也歡迎他們申請(qǐng)加入自己的研究團(tuán)隊(duì)。
  (邯鄲網(wǎng)站建設(shè)

最新資訊
? 2018 河北碼上網(wǎng)絡(luò)科技有限公司 版權(quán)所有 冀ICP備18021892號(hào)-1   
? 2018 河北碼上科技有限公司 版權(quán)所有.
主站蜘蛛池模板: 滚珠丝杆升降机_螺旋升降机_丝杠升降机-德迈传动 | 深圳激光打标机_激光打标机_激光焊接机_激光切割机_同体激光打标机-深圳市创想激光科技有限公司 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 游戏版号转让_游戏资质出售_游戏公司转让-【八九买卖网】 | PU树脂_水性聚氨酯树脂_聚氨酯固化剂_聚氨酯树脂厂家_宝景化工 | 专注氟塑料泵_衬氟泵_磁力泵_卧龙泵阀_化工泵专业品牌 - 梭川泵阀 | 光谱仪_积分球_分布光度计_灯具检测生产厂家_杭州松朗光电【官网】 | 大连海岛旅游网>>大连旅游,大连海岛游,旅游景点攻略,海岛旅游官网 | 氧化锆陶瓷_氧化锆陶瓷加工_氧化锆陶瓷生产厂家-康柏工业陶瓷有限公司 | 四川实木门_成都实木门 - 蓬溪聚成门业有限公司| 沈阳缠绕包装机厂家直销-沈阳海鹞托盘缠绕包装机价格 | 【法利莱住人集装箱厂家】—活动集装箱房,集装箱租赁_大品牌,更放心 | 玻璃钢格栅盖板|玻璃钢盖板|玻璃钢格栅板|树篦子-长沙川皖玻璃钢制品有限公司 | 北京易通慧公司从事北京网站优化,北京网络推广、网站建设一站式服务商-北京网站优化公司 | 钢板仓,大型钢板仓,钢板库,大型钢板库,粉煤灰钢板仓,螺旋钢板仓,螺旋卷板仓,骨料钢板仓 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 辐射色度计-字符亮度测试-反射式膜厚仪-苏州瑞格谱光电科技有限公司 | 锯边机,自动锯边机,双面涂胶机-建业顺达机械有限公司 | 运动木地板_体育木地板_篮球馆木地板_舞台木地板-实木运动地板厂家 | 防水套管_柔性防水套管_刚性防水套管-巩义市润达管道设备制造有限公司 | 西安中国国际旅行社(西安国旅)| 威廉希尔WilliamHill·足球(中国)体育官方网站 | X光检测仪_食品金属异物检测机_X射线检测设备_微现检测 | 公交驾校-北京公交驾校欢迎您! 工作心得_读书心得_学习心得_找心得体会范文就上学道文库 | 全温度恒温培养摇床-大容量-立式-远红外二氧化碳培养箱|南荣百科 | 常州翔天实验仪器厂-恒温振荡器-台式恒温振荡器-微量血液离心机 恒温恒湿箱(药品/保健品/食品/半导体/细菌)-兰贝石(北京)科技有限公司 | 高低温万能试验机_拉力试验机_拉伸试验机-馥勒仪器科技(上海)有限公司 | 飞飞影视_热门电影在线观看_影视大全| 安徽净化工程设计_无尘净化车间工程_合肥净化实验室_安徽创世环境科技有限公司 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | 钢骨架轻型板_膨石轻型板_钢骨架轻型板价格_恒道新材料 | 国资灵活用工平台_全国灵活用工平台前十名-灵活用工结算小帮手 | 电池挤压试验机-自行车喷淋-车辆碾压试验装置-深圳德迈盛测控设备有限公司 | 钢结构厂房造价_钢结构厂房预算_轻钢结构厂房_山东三维钢结构公司 | 防爆鼓风机-全风-宏丰鼓风机-上海梁瑾机电设备有限公司 | 标准光源箱|对色灯箱|色差仪|光泽度仪|涂层测厚仪_HRC大品牌生产厂家 | 福建自考_福建自学考试网 | 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | 湖南档案密集架,智能,物证,移动,价格-湖南档案密集架厂家 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | TYPE-C厂家|TYPE-C接口|TYPE-C防水母座|TYPE-C贴片-深圳步步精 |