ChatGPT 會講話了!OpenAI 為聊天機器人新增語音、圖像辨識能力

新功能會先提供給 ChatGPT Plus 和企業版的用戶優先體驗,將於未來兩週內推出。

ChatGPT 於昨(25 日)晚宣布推出新語音和圖像能力,用戶能與 AI 進行語音對話,或向 AI 展示與談話相關的圖像。

新功能會先提供給 ChatGPT Plus 和企業版的用戶優先體驗,將於未來兩週內推出,其中語音功能可在 iOS 和 Android 設備上使用,而圖像功能則會出現在所有平台。

與 ChatGPT 進行語音對話

使用者可藉由語音和 ChatGPT 進行來回對話,像是用語音請 ChatGPT 提供一篇睡前故事,聊天機器人也會用語音將其生成的故事唸出來。

新語音功能背後為一個新的文字轉語音模型,只需幾秒的語音樣本,模型就能用文本來生成接近人聲的語音。要將使用者的語音轉成文字,則是採用開源語音識別系統 Whisper。

至於 AI 的聲音來源,OpenAI 與專業的聲音演員合作,來建立每一個聲音,目前共 5 種聲音可選擇。OpenAI 也強調,生成聲音的技術可能會導致不肖人士以模仿他人來詐騙,因此他們確保新功能生成的聲音都是來自於直接合作的聲音演員。

若想體驗語音功能,需在行動裝置 App 的「設定」→「新功能」中選擇加入語音對話。接著再點擊位於主畫面右上角的耳機符號,從五種不同的聲音中做選擇。

ChatGPT 看得懂多張圖像

現在也可向 ChatGPT 提供一或多個圖像,像是中秋節烤肉時烤肉架無法使用,就可傳送照片給 ChatGPT 來解決問題。若要請聊天機器人著重在圖像中的特定部分,可以使用 App 中的繪圖工具將該部分圈起來。

圖像理解功能是由多模態 GPT-3.5 和 GPT-4 驅動。這些模型將語言推理技巧應用於各種圖像,包括照片、螢幕截圖,以及含文字和圖像的內容。

若要傳照片,只要點擊照片的按鈕即可拍攝或選擇圖像,如果使用的是 iOS 或 Android,則要點擊加號按鈕。用戶可以討論多個圖像或使用繪圖工具來引導 ChatGPT。

圖像生成和文字生成一樣也存有產生幻覺等風險,因此 OpenAI 在廣泛部署此新功能前,已進行紅隊演練對模型進行了風險測試,包括測試了極端主義和科學能力等領域的風險,並召集了多元 Alpha 測試人員。