人工智能聊天機器人領域烽煙再起,谷歌和 OpenAI 之間激烈的競爭態勢愈演愈烈。就在谷歌一年一度的 I / O 開發者大會召開前夕,這家科技巨頭發布了一段視頻,展示了疑似經過升級的 Gemini 聊天機器人。視頻中,Gemini 可以同時實時處理來自視頻和語音的輸入。
這段視頻貌似是在 I / O 大會搭建現場拍攝的,視頻展示了 Gemini 在一臺 Pixel 手機上流暢地處理實時視頻和語音提問,并準確地提供信息。當被問到正在進行的布置工作時,Gemini 正確識別出這是為一個重要活動做的準備。
整個對話過程自然流暢,Gemini 還會詢問用戶注意到的細節,成功識別出了該活動為谷歌 I / O 開發者大會,并進行了簡要介紹。
谷歌發布該預告片的時機非常巧妙,恰好在 OpenAI 有關 ChatGPT 的發布會前幾個小時,OpenAI 在此發布會上推出了全新的 ChatGPT-4o 大模型,其理解和對話的流暢性以及連貫性方面都達到了無與倫比的水平。
雖然過去的一些演示視頻讓外界對這類內容持有一定的懷疑態度,但今天展示的案例無疑證實了人工智能聊天機器人可以無縫集成語音和視頻輸入。這種多模態能力,加上非常自然的對話流,讓我們仿佛看到了未來人工智能交互的一瞥。
(碼上科技)