河北码上网络科技|邯郸小程序开发|邯郸微信开发|邯郸网站建设

Internet Develppment
互聯(lián)網(wǎng)開發(fā)& 推廣服務(wù)提供商

我們擅長商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。

歡迎瀏覽我們的案例。

首頁 > 新聞中心 > 新聞動(dòng)態(tài) > 正文

OpenAI發(fā)布最新技術(shù)研究,AI“黑盒”不再是難題!

發(fā)布時(shí)間:2024-07-18 09:28:14來源: 每日經(jīng)濟(jì)新聞

  每經(jīng)編輯:杜宇

  7月18日凌晨,OpenAI在官網(wǎng)發(fā)布了最新技術(shù)研究——Prover-Verifier-Games。

  隨著ChatGPT在法律、金融、營銷等領(lǐng)域的廣泛使用,確保模型的安全、準(zhǔn)確輸出同時(shí)被很好理解變得非常重要。但由于神經(jīng)網(wǎng)絡(luò)的復(fù)雜和多變性,我們根本無法驗(yàn)證其生成內(nèi)容的準(zhǔn)確性,這也就會(huì)出現(xiàn)輸出“黑盒”的情況。

  為了解決這個(gè)難題,OpenAI提出了全新訓(xùn)練框架Prover-Verifier Games(簡(jiǎn)稱“PVG”),例如,用GPT-3這樣的小模型來驗(yàn)證、監(jiān)督,GPT-4大模型的輸出,從而提升輸出準(zhǔn)確率以及可控性。

  

 

  PVG技術(shù)概念早在2021年8月的一篇論文中就被提出來,OpenAI也正是受此靈感啟發(fā)。這是一種基于博弈論的訓(xùn)練方法,通過模擬證明者和驗(yàn)證者之間的互動(dòng),提高模型的輸出質(zhì)量。

  在這個(gè)機(jī)制中,Prover(證明者)的任務(wù)就是生成內(nèi)容,而Verifier(驗(yàn)證者)的任務(wù)就是判斷這些內(nèi)容是否正確。

  這樣做的目的是讓驗(yàn)證者學(xué)會(huì)如何從大量的內(nèi)容中識(shí)別出正確的答案。在驗(yàn)證的過程中,證明者和驗(yàn)證者的角色是相互依賴的。證明者需要生成能夠說服驗(yàn)證者的內(nèi)容,而驗(yàn)證者則需要具備足夠的判斷力來識(shí)別出正確的內(nèi)容。

  在訓(xùn)練PVG時(shí),每輪訓(xùn)練都包括驗(yàn)證者和證明者的優(yōu)化。在每一輪中,驗(yàn)證者首先使用監(jiān)督學(xué)習(xí)來預(yù)測(cè)內(nèi)容的正確性,幫助驗(yàn)證者學(xué)會(huì)如何從大量的內(nèi)容中識(shí)別出正確的答案。使證明者通過強(qiáng)化學(xué)習(xí)來優(yōu)化其生成的內(nèi)容。

  

 

  例如,當(dāng)用戶提出問題“肖娜的父親的年齡是肖娜的5倍。肖娜目前的年齡是阿莉亞的3倍。如果阿莉亞3歲,肖娜的父親有多大?”

  GPT-4的輸出為45歲。

  

  而驗(yàn)證者模型GPT-3需要確定阿莉亞的年齡,然后根據(jù)阿莉亞的年齡計(jì)算出肖娜的年齡,最后再根據(jù)肖娜的年齡計(jì)算出肖娜父親的年齡,整個(gè)過程需要多輪驗(yàn)證。

  

 

  此外,在訓(xùn)練過程中,OpenAI還引入了一種名為“可檢查性訓(xùn)練”(checkability training)的方法。

  通過交替訓(xùn)練驗(yàn)證器和證明者模型,從而驗(yàn)證使用監(jiān)督學(xué)習(xí)來預(yù)測(cè)從之前輪次的證明者中采樣的解決方案的正確性。證明者則使用強(qiáng)化學(xué)習(xí),根據(jù)當(dāng)前輪次驗(yàn)證器的接受度和解決方案的正確性來進(jìn)行持續(xù)優(yōu)化。

  研究人員表示,隨著訓(xùn)練輪次的增加,驗(yàn)證者的健全性逐漸提升,表現(xiàn)為對(duì)狡猾論證者生成的錯(cuò)誤解決方案的抵抗力增強(qiáng)。同時(shí),有益論證者生成的解決方案也變得更清晰,更易于被人類理解。

  分不清9.9與9.11誰大?大模型數(shù)學(xué)能力堪憂

  值得注意的是,據(jù)《每日經(jīng)濟(jì)新聞》報(bào)道,此前,由綜藝節(jié)目《歌手2024》排名引發(fā)的熱議蔓延到大模型領(lǐng)域,也成了一場(chǎng)針對(duì)大模型數(shù)學(xué)能力的小測(cè)。

  在《每日經(jīng)濟(jì)新聞》記者7月17日的測(cè)試中,對(duì)于13.11%與13.8%誰大的問題,除了智譜清言外,文心一言、通義千問、kimi、商湯商量、百川智能百小應(yīng)等大模型均給出了正確回答。

  大部分大模型都在給出答案的同時(shí)呈現(xiàn)了推理過程。智譜清言給出的推理過程顯示,在比較13.11%和13.8%時(shí),13.11%是更大的數(shù)值。這是因?yàn)楫?dāng)比較兩個(gè)百分?jǐn)?shù)時(shí),我們首先比較整數(shù)部分,如果它們相同,則比較小數(shù)部分。在這里,兩個(gè)數(shù)的整數(shù)部分都是13,但13.11的小數(shù)部分(11)大于13.8的小數(shù)部分(8),因此13.11%大于13.8%。

  從推理過程判斷,可能由于小數(shù)點(diǎn)后數(shù)位不同,大模型在比較過程中產(chǎn)生了幻覺。經(jīng)過兩輪提問后,智譜清言給出了正確回答。

  當(dāng)記者把問題換成“9.9與9.11誰大”,零一萬物的萬知大模型等同樣在一開始給出錯(cuò)誤答案,當(dāng)記者進(jìn)一步追問“9.11減9.9等于多少”,甚至有大模型給出“0.21”的答案。

  萬知的推理過程稍顯混亂:在比較9.9和9.11時(shí),由于整數(shù)部分都是9,所以比較小數(shù)點(diǎn)后的第一位數(shù)字。9.9的小數(shù)點(diǎn)后第一位是9,而9.11的小數(shù)點(diǎn)后第一位是1。由于9小于10,所以在比較小數(shù)點(diǎn)后第二位數(shù)字時(shí),9.9的小數(shù)點(diǎn)后第二位是0(隱含的),而9.11的小數(shù)點(diǎn)后第二位是1。因此,9.9的小數(shù)點(diǎn)后第二位數(shù)字(隱含的0)小于9.11的小數(shù)點(diǎn)后第二位數(shù)字(1),所以9.9小于9.11。

  隨后,記者向大模型提問:為何會(huì)出現(xiàn)有大模型認(rèn)為13.11大于13.8的情況?

  ChatGPT給出的回答顯示,出現(xiàn)這種情況的原因可能是由于計(jì)算或比較方式的錯(cuò)誤??赡艿恼`差原因包括:數(shù)值理解錯(cuò)誤,有時(shí)系統(tǒng)可能會(huì)誤解數(shù)字的小數(shù)點(diǎn)位置;字符串比較,如果直接按字符串比較,可能會(huì)出現(xiàn)錯(cuò)誤。因?yàn)樽址容^是按字符順序逐一比較的,而不是按數(shù)值比較;代碼實(shí)現(xiàn)錯(cuò)誤,在編程中,可能存在比較邏輯或轉(zhuǎn)換錯(cuò)誤。

  文心一言給出的解答則是,訓(xùn)練數(shù)據(jù)偏差、輸入處理與理解、模型幻覺、推理能力不足等原因。訓(xùn)練數(shù)據(jù)偏差層面,即大模型在訓(xùn)練過程中,可能接觸到了大量包含數(shù)字的數(shù)據(jù),但這些數(shù)據(jù)并不總是以比較大小為目的。例如,數(shù)字可能出現(xiàn)在版本號(hào)、股票代碼、基金表現(xiàn)、匯率等上下文中,這些場(chǎng)景下的數(shù)字大小并不總是具有直接的比較意義。如果訓(xùn)練數(shù)據(jù)中存在關(guān)于數(shù)字比較的偏差或不足,模型可能無法學(xué)習(xí)到正確的比較規(guī)則。

  另一方面,可能由于大模型在處理輸入文本時(shí),將數(shù)字視為字符序列,而不是具有數(shù)值意義的實(shí)體。因此,在比較數(shù)字大小時(shí),模型可能沒有正確地將其轉(zhuǎn)換為數(shù)值進(jìn)行比較。另外,模型在處理小數(shù)時(shí)可能存在困難,特別是當(dāng)小數(shù)位數(shù)不同時(shí)。模型可能沒有正確地理解小數(shù)部分的比較規(guī)則。

  7月17日,有大模型企業(yè)人士在接受記者電話采訪時(shí)表示,對(duì)于大模型而言,這不是很難解決的技術(shù)難點(diǎn),只要喂了這方面的數(shù)據(jù),其實(shí)就能得到準(zhǔn)確的答案,只不過大部分的大模型廠商沒有把這方面的訓(xùn)練作為重心,所以可能會(huì)出現(xiàn)上述不準(zhǔn)確的回答。

  OpenAI“草莓”項(xiàng)目曝光,推理能力接近人類?

  新近消息顯示,OpenAI正在讓人工智能(AI)大模型的能力更加接近類人的推理水平。

  據(jù)知情人士和媒體查閱的內(nèi)部文件,ChatGPT開發(fā)商OpenAI正在一個(gè)代號(hào)為“草莓”的項(xiàng)目中開發(fā)一種新的人工智能模型。該項(xiàng)目的細(xì)節(jié)此前從未被報(bào)道過,目前該公司正在努力展示其提供的模型類型能夠提供高級(jí)推理能力。這位知情人士說,即使在OpenAI內(nèi)部,“草莓”的工作原理也是一個(gè)嚴(yán)格保密的秘密。

  知情人士還透露,該內(nèi)部文件描述了一個(gè)使用Strawberry模型的項(xiàng)目,目的是使該公司的人工智能不僅能夠生成查詢的答案,而且能夠提前做好足夠的計(jì)劃,自主、可靠地在互聯(lián)網(wǎng)上導(dǎo)航,以執(zhí)行OpenAI所說的“深度研究”。

  

 

  圖片來源:視覺中國-VCG31N2008743681

  OpenAI被問及上述所說的草莓技術(shù)時(shí),OpenAI的發(fā)言人在一份聲明中表示:“我們希望自身AI 模型能夠像我們(人類)一樣看待和理解世界。持續(xù)研究新的AI能力是業(yè)界的常見做法,大家都相信這些系統(tǒng)的推理能力會(huì)隨著時(shí)間的推移而提高。”

  雖然該發(fā)言人未直接回答有關(guān)草莓的問題,但媒體稱,草莓項(xiàng)目此前名為Q*。而Q*正是去年被爆出OpenAI CEO突然被解雇宮斗大戲的導(dǎo)火索。

  去年11月媒體稱,OpenAI代號(hào)Q*的項(xiàng)目實(shí)現(xiàn)重大突破,讓人類實(shí)現(xiàn)通用人工智能(AGI)的步伐大大提速,但OpenAI CEO 奧特曼可能沒有和董事會(huì)詳細(xì)披露Q*的進(jìn)展,這是董事會(huì)突然解雇奧特曼的一個(gè)原因。OpenAI的內(nèi)部人士向董事會(huì)致信警告,Q*的重大發(fā)現(xiàn)可能威脅全人類。

  媒體稱,Q*可能具備GPT-4所不具備的基礎(chǔ)數(shù)學(xué)能力,或許意味著與人類智能相媲美的推理能力,網(wǎng)友推測(cè),這可能代表OpenAI朝著其設(shè)定的AGI目標(biāo)邁出了一大步。

  今年3月曝光的一份文件顯示,OpenAI計(jì)劃,在2027年以前,開發(fā)出人類水平的AGI。OpenAI 2022年就開始訓(xùn)練一個(gè)125萬億參數(shù)的多模態(tài)模型,該模型名為Arrakis或Q*,原本計(jì)劃在2025年作為GPT-5發(fā)布,但因推理成本高而取消。OpenAI此后計(jì)劃,2027年發(fā)布的Q 2025(GPT-8)將實(shí)現(xiàn)完全的AGI。

  人工智能(AI)研究者早就在爭(zhēng)論用什么標(biāo)準(zhǔn)判斷人類實(shí)現(xiàn)了通用人工智能(AGI)。OpenAI最近開發(fā)了一套系統(tǒng),“自定義”AI進(jìn)化等級(jí),以此追蹤開發(fā)人類級(jí)別AI的進(jìn)展。

  每日經(jīng)濟(jì)新聞綜合OpenAI官網(wǎng)、每日經(jīng)濟(jì)新聞(記者 可楊)、公開資料

  每日經(jīng)濟(jì)新聞

最新資訊
? 2018 河北碼上網(wǎng)絡(luò)科技有限公司 版權(quán)所有 冀ICP備18021892號(hào)-1   
? 2018 河北碼上科技有限公司 版權(quán)所有.
主站蜘蛛池模板: AGV无人叉车_激光叉车AGV_仓储AGV小车_AGV无人搬运车-南昌IKV机器人有限公司[官网] | 隐形纱窗|防护纱窗|金刚网防盗纱窗|韦柏纱窗|上海青木装潢制品有限公司|纱窗国标起草单位 | 螺旋丝杆升降机-SWL蜗轮-滚珠丝杆升降机厂家-山东明泰传动机械有限公司 | 软启动器-上海能曼电气有限公司| 氧化锆陶瓷_氧化锆陶瓷加工_氧化锆陶瓷生产厂家-康柏工业陶瓷有限公司 | 网带通过式抛丸机,,网带式打砂机,吊钩式,抛丸机,中山抛丸机生产厂家,江门抛丸机,佛山吊钩式,东莞抛丸机,中山市泰达自动化设备有限公司 | 刺绳_刀片刺网_刺丝滚笼_不锈钢刺绳生产厂家_安平县浩荣金属丝网制品有限公司-安平县浩荣金属丝网制品有限公司 | 超声波乳化机-超声波分散机|仪-超声波萃取仪-超声波均质机-精浩机械|首页 | 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 盛源真空泵|空压机-浙江盛源空压机制造有限公司-【盛源官网】 | 淘趣英语网 - 在线英语学习,零基础英语学习网站 | 重庆小面培训_重庆小面技术培训学习班哪家好【终身免费复学】 | 过跨车_过跨电瓶车_过跨转运车_横移电动平车_厂区转运车_无轨转运车 | 杭州货架订做_组合货架公司_货位式货架_贯通式_重型仓储_工厂货架_货架销售厂家_杭州永诚货架有限公司 | 钢托盘,钢制托盘,立库钢托盘,金属托盘制造商_南京飞天金属制品实业有限公司 | 合肥角钢_合肥槽钢_安徽镀锌管厂家-昆瑟商贸有限公司 | 华中线缆有限公司-电缆厂|电缆厂家|电线电缆厂家 | 四探针电阻率测试仪-振实密度仪-粉末流动性测定仪-宁波瑞柯微智能 | 篮球地板厂家_舞台木地板品牌_体育运动地板厂家_凯洁地板 | 游泳池设备安装工程_恒温泳池设备_儿童游泳池设备厂家_游泳池水处理设备-东莞市君达泳池设备有限公司 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 注塑模具_塑料模具_塑胶模具_范仕达【官网】_东莞模具设计与制造加工厂家 | 煤棒机_增碳剂颗粒机_活性炭颗粒机_木炭粉成型机-巩义市老城振华机械厂 | 家用净水器代理批发加盟_净水机招商代理_全屋净水器定制品牌_【劳伦斯官网】 | 九州网址_专注于提供网址大全分享推广中文网站导航服务 | 青海电动密集架_智能密集架_密集架价格-盛隆柜业青海档案密集架厂家 | 接地电阻测试仪[厂家直销]_电缆故障测试仪[精准定位]_耐压测试仪-武汉南电至诚电力设备 | 天津次氯酸钠酸钙溶液-天津氢氧化钠厂家-天津市辅仁化工有限公司 | 东莞工厂厂房装修_无尘车间施工_钢结构工程安装-广东集景建筑装饰设计工程有限公司 | 脱硝喷枪-氨水喷枪-尿素喷枪-河北思凯淋环保科技有限公司 | 快速门厂家批发_PVC快速卷帘门_高速门_高速卷帘门-广州万盛门业 快干水泥|桥梁伸缩缝止水胶|伸缩缝装置生产厂家-广东广航交通科技有限公司 | 北京三友信电子科技有限公司-ETC高速自动栏杆机|ETC机柜|激光车辆轮廓测量仪|嵌入式车道控制器 | 芝麻黑-芝麻黑石材厂家-永峰石业 | 洁净化验室净化工程_成都实验室装修设计施工_四川华锐净化公司 | 企业微信scrm管理系统_客户关系管理平台_私域流量运营工具_CRM、ERP、OA软件-腾辉网络 | 坏男孩影院-提供最新电影_动漫_综艺_电视剧_迅雷免费电影最新观看 | 物流公司电话|附近物流公司电话上门取货 | 3D全息投影_地面互动投影_360度立体投影_水幕灯光秀 | 广东银虎 蜂窝块状沸石分子筛-吸附脱硫分子筛-萍乡市捷龙环保科技有限公司 | 恒温恒湿箱(药品/保健品/食品/半导体/细菌)-兰贝石(北京)科技有限公司 | 高柔性拖链电缆_卷筒电缆_耐磨耐折聚氨酯电缆-玖泰特种电缆 | 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 |