河北码上网络科技|六月天综合网|邯郸小程序开发|刘亦菲一区二区三区免费看|邯郸微信开发|另类综合网|邯郸网站建设

Internet Develppment
互聯(lián)網(wǎng)開發(fā)& 推廣服務(wù)提供商

我們擅長商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。

歡迎瀏覽我們的案例。

首頁 > 新聞中心 > 新聞動(dòng)態(tài) > 正文

微軟分享史上最大基于Transformer架構(gòu)的語言生成模型

發(fā)布時(shí)間:2020-02-11 09:30:55來源:雷鋒網(wǎng)

  微軟 AI&Research 今天分享了有史以來最大的基于 Transformer 架構(gòu)的語言生成模型 Turing NLG(下文簡稱為T-NLG),并開源了一個(gè)名為 DeepSpeed 的深度學(xué)習(xí)庫,以簡化對(duì)大型模型的分布式培訓(xùn)。

  基于 Transformer 的架構(gòu),意味著該模型可以生成單詞來完成開放式文本任務(wù)。除了完成未完成的句子外,它還可以生成對(duì)輸入文檔的問題和摘要的直接答案。

  去年 8 月,英偉達(dá)曾宣布已訓(xùn)練世界上最大的基于 Transformer 的語言模型,當(dāng)時(shí)該模型使用了 83 億個(gè)參數(shù),比 BERT 大 24 倍,比 OpenAI 的 GPT-2 大 5 倍。

  而此次微軟所分享的模型,T-NLG 的參數(shù)為 170 億個(gè),是英偉達(dá)的 Megatron(現(xiàn)在是第二大 Transformer 模型)的兩倍,其參數(shù)是 OpenAI 的 GPT-2 的十倍。微軟表示,T-NLG 在各種語言建模基準(zhǔn)上均優(yōu)于最新技術(shù),并在應(yīng)用于許多實(shí)際任務(wù)(包括總結(jié)和問題解答)時(shí)表現(xiàn)出色。

  不過,像 Google 的 Meena 一樣,最初使用 GPT-2,T-NLG 最初只能在私人演示中共享。

  微軟 AI 研究應(yīng)用科學(xué)家 Corby Rosset 在博客文章中寫道:“除了通過匯總文檔和電子郵件來節(jié)省用戶時(shí)間之外,T-NLG 還可以通過為作者提供寫作幫助,并回答讀者可能對(duì)文檔提出的問題,由此來增強(qiáng) Microsoft Office 套件的使用體驗(yàn)。”

  具有 Transformer 架構(gòu)的語言生成模型可以預(yù)測下一個(gè)單詞。它們可用于編寫故事,以完整的句子生成答案以及總結(jié)文本。

  微軟表示,他們的目標(biāo)是在任何情況下都能夠像人類一樣直接,準(zhǔn)確,流暢地做出響應(yīng):以前,問題解答和摘要系統(tǒng)依賴于從文檔中提取現(xiàn)有內(nèi)容,這些內(nèi)容可以作為備用答案或摘要,但它們通常看起來不自然或不連貫。使用T-NLG 這樣的自然語言生成模型,可以自然地總結(jié)或回答有關(guān)個(gè)人文檔或電子郵件主題的問題。

  來自 AI 領(lǐng)域的專家告訴 VentureBeat,2019 年是 NLP 模型開創(chuàng)性的一年——使用 Transformer 架構(gòu)無疑是 2019 年最大的機(jī)器學(xué)習(xí)趨勢之一,這導(dǎo)致了語言生成領(lǐng)域和 GLUE 基準(zhǔn)測試領(lǐng)導(dǎo)者的進(jìn)步,F(xiàn)acebook 的 RoBERTa、谷歌的 XLNet 和微軟的 MT-DNN 都紛紛加入到各類基準(zhǔn)測試榜首的爭奪當(dāng)中。

  同樣是在今天,微軟還開源了一個(gè)名為 DeepSpeed 的深度學(xué)習(xí)庫。該學(xué)習(xí)庫已針對(duì)開發(fā)人員進(jìn)行了優(yōu)化,以提供低延遲、高吞吐量的推理。

  DeepSpeed 包含零冗余優(yōu)化器(ZeRO),用于大規(guī)模訓(xùn)練具有 1 億個(gè)或更多參數(shù)的模型,微軟過去曾用它訓(xùn)練T-NLG。

  微軟表示,DeepSpeed 和 ZeRO 使得他們能夠降低模型并行度(從 16 降低到4),將每個(gè)節(jié)點(diǎn)的批處理大小增加四倍,并將訓(xùn)練時(shí)間減少了三分之二;DeepSpeed 使用更少的 GPU 可以使大型模型的訓(xùn)練效率更高。

  開發(fā)人員和機(jī)器學(xué)習(xí)從業(yè)人員都可以使用 DeepSpeed 和 ZeRO,因?yàn)榕嘤?xùn)大型網(wǎng)絡(luò)(例如利用 Transformer 架構(gòu)的網(wǎng)絡(luò))可能會(huì)很昂貴,并且可能會(huì)遇到大規(guī)模問題。

  另外,Google 的 DeepMind 今天也發(fā)布了一種新的遠(yuǎn)程內(nèi)存模型 Compressive Transformer,以及一種針對(duì)書本級(jí)語言建模的新基準(zhǔn) PG19。
  (邯鄲網(wǎng)站建設(shè)

最新資訊
? 2018 河北碼上網(wǎng)絡(luò)科技有限公司 版權(quán)所有 冀ICP備18021892號(hào)-1   
? 2018 河北碼上科技有限公司 版權(quán)所有.
主站蜘蛛池模板: 博医通医疗器械互联网供应链服务平台_博医通| 吸污车_吸粪车_抽粪车_电动三轮吸粪车_真空吸污车_高压清洗吸污车-远大汽车制造有限公司 | 河南凯邦机械制造有限公司| 搪玻璃冷凝器_厂家-越宏化工设备 | 带锯机|木工带锯机圆木推台锯|跑车带锯机|河北茂业机械制造有限公司| | 艺术涂料_进口艺术涂料_艺术涂料加盟_艺术涂料十大品牌 -英国蒙太奇艺术涂料 | 吉林污水处理公司,长春工业污水处理设备,净水设备-长春易洁环保科技有限公司 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 深圳市八百通智能技术有限公司官方网站 | 谈股票-今日股票行情走势分析-牛股推荐排行榜 | 铝镁锰板_铝镁锰合金板_铝镁锰板厂家_铝镁锰金属屋面板_安徽建科 | 中天寰创-内蒙古钢结构厂家|门式刚架|钢结构桁架|钢结构框架|包头钢结构煤棚 | 氢氧化钙设备, 氢氧化钙生产线-淄博惠琛工贸有限公司 | 沈阳液压泵_沈阳液压阀_沈阳液压站-沈阳海德太科液压设备有限公司 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | 烟台游艇培训,威海游艇培训-烟台市邮轮游艇行业协会 | 焊接减速机箱体,减速机箱体加工-淄博博山泽坤机械厂 | 玻璃钢型材-玻璃钢风管-玻璃钢管道,生产厂家-[江苏欧升玻璃钢制造有限公司] | 儋州在线-儋州招聘找工作、找房子、找对象,儋州综合生活信息门户! | 齿轮减速机电机一体机_齿轮减速箱加电机一体化-德国BOSERL蜗轮蜗杆减速机电机生产厂家 | 气体热式流量计-定量控制流量计(空气流量计厂家)-湖北南控仪表科技有限公司 | 钛合金标准件-钛合金螺丝-钛管件-钛合金棒-钛合金板-钛合金锻件-宝鸡远航钛业有限公司 | 耐腐蚀泵,耐腐蚀真空泵,玻璃钢真空泵-淄博华舜耐腐蚀真空泵有限公司 | 尾轮组_头轮组_矿用刮板_厢式刮板机_铸石刮板机厂家-双驰机械 | 无线讲解器-导游讲解器-自助讲解器-分区讲解系统 品牌生产厂家[鹰米讲解-合肥市徽马信息科技有限公司] | 红立方品牌应急包/急救包加盟,小成本好项目代理_应急/消防/户外用品加盟_应急好项目加盟_新奇特项目招商 - 中红方宁(北京) 供应链有限公司 | 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 企业管理培训,企业培训公开课,企业内训课程,企业培训师 - 名课堂企业管理培训网 | 青岛侦探调查_青岛侦探事务所_青岛调查事务所_青岛婚外情取证-青岛狄仁杰国际侦探公司 | 谈股票-今日股票行情走势分析-牛股推荐排行榜| 达利园物流科技集团-| 广州展览制作|展台制作工厂|展览设计制作|展览展示制作|搭建制作公司 | 江苏南京多语种翻译-专业翻译公司报价-正规商务翻译机构-南京华彦翻译服务有限公司 | 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | 电动打包机_气动打包机_钢带捆扎机_废纸打包机_手动捆扎机 | 粉末包装机,拆包机厂家,价格-上海强牛包装机械设备有限公司 | 河南道路标志牌_交通路标牌_交通标志牌厂家-郑州路畅交通 | 渣土车电机,太阳能跟踪器电机,蜗轮蜗杆减速电机厂家-淄博传强电机 | 北京网站建设|北京网站开发|北京网站设计|高端做网站公司 | 沥青车辙成型机-车托式混凝土取芯机-混凝土塑料试模|鑫高仪器 |