OpenAI技術長穆拉提(Mira Murati)5月13日發表了最新AI模型,GPT-4o!這最後的英文字o是Omni的縮寫,代表著「全方位、全能」

GPT-4o在處理文本、影片和音頻各方面都有著顯著提升,不僅能解讀文字、圖片,還整合了語音功能,其中最大的進步,便是它的視覺推理,只要舉起手機讓AI看看周圍的環境,它便可以推測你在做什麼。

以下仔細介紹GPT-4o有哪些功能?

GPT-4o可以做什麼?

GPT-4o可以像真人一樣即時對話、給意見

和AI聊天機器人對話已不再是單調乏味的體驗,GPT-4o講話相當自然生動,反應靈敏,仿佛在和一個真人在交談一般,真實到讓人起雞皮疙瘩。

在演示影片中,使用者問了GPT-4o:「今天要面試這樣穿如何?」而GPT-4o的回應簡直跟一般真人無異,它不僅會開使用者玩笑,還會像人類一樣稱讚對方。

它還能辨識人類語氣中的情緒,假設使用者剛跑完步,GPT-4o可以從喘氣聲知道,使用者可能剛運動完。

從官方YouTube影片中,可以聽得出來機器人聲音有抑揚頓挫,外媒《The Verge》形容GPT-4o的聲音很像電影《雲端情人》(Her)女主角史嘉蕾·喬韓森的聲音。

發表會結束後,OpenAI執行長奧特曼(Sam Altman)還相當神秘地在X上發布了一個字:「她」(Her),似乎就在影射《雲端情人》中AI與人類的關係。

GPT-4o達到即時同步翻譯

GPT-4o熟悉50種語言,還能進行「零延遲」的即時翻譯,在義大利文和英文之間切換語言,而且翻譯的速度之快、準確度之高,讓人嘆為觀止。

不僅如此,它還能夠即時同步英文和西班牙文,讓跨語言溝通變得輕而易舉。穆拉提指出,GPT-4o很大地解決了ChatGPT機器人回答中的延遲問題,使用者甚至可以打斷與GPT-4o的對話,問它新問題,AI會根據修改後的答案作回應。

AI可以互相對話

更加驚人的是,兩個GPT-4o之間可以進行對話,仿佛兩個真正的AI智慧體在互相交流。

在一段演示影片中,兩支手機上都開了GPT-4o,示範者開啟其中一個AI的鏡頭,它將所看到的景象,敘述給另一個AI聽,它立刻清楚地說出,使用者身上穿了一件黑夾克和一件淺色的上衣。

隨後,這兩個AI竟然聊起來了,還可以一起合唱,兩個ChatGPT合唱,還能指定他們的音調,令人嘆為觀止!

教青少年解題三角函數

對於教育界來說,GPT-4o更是一個無可比擬的利器。

它能夠幫助青少年解題三角函數,在一段演示影片中,GPT-4o一步步透過語音,教導影片中的青少年算出,寫在一張紙上的基本三角函數問題,而且爸爸還可以指定AI不可以先給答案,AI還會在算出答案後稱讚你,真是太貼心了。

當視障者的眼睛

最後,更令人感動的是,GPT-4o對於視障者來說,就像是他們的眼睛一般,幫助他們探索這個世界,在影片中可以看見,AI告訴視障者哪裡是白金漢宮,可以走到哪條路叫計程車,什麼時候可以舉起手招呼車等等。

這種功能的加入,讓我們對醫療保健的未來,充滿了無限的想像。

不難想見,GPT-4o的問世即將大大改變我們的生活方式,這次OpenAI不僅提升了人工智慧的應用水平,更讓我們看到了技術不斷進步的美好前景。

GPT-4o費用多少?

GPT-4o將開放給所有人免費使用,ChatGPT付費用戶則將繼續擁有免費用戶5倍的容量限制。

GPT-4o什麼時候可以用?

OpenAI表示,GPT-4o的功能將迭代推出。目前文字和圖像功能已能在ChatGPT中使用,台灣社群上已可看到許多人的使用心得。

資料來源:OpenAI YouTubeGPT-4o DemoThe Verge

核稿編輯:林易萱