Openai推出重大更新,實(shí)現(xiàn)看、聽(tīng)、說(shuō)全方位能力。
近日,Openai官方博客發(fā)布消息,展示了一項(xiàng)自從大型語(yǔ)言模型ChatGPT-4 推出以來(lái)的最大功能更新。據(jù)官方發(fā)布的應(yīng)用案例顯示,現(xiàn)在人們可以使用手機(jī)攝像頭和麥克風(fēng),通過(guò)ChatGPT解決實(shí)際問(wèn)題。比如,用戶可以拍攝共享單車的照片,然后詢問(wèn)人工智能助手如何調(diào)整座椅。隨著技術(shù)的快速迭代,生成式 AI 競(jìng)賽已經(jīng)進(jìn)入了一個(gè)新的階段——多模態(tài)之爭(zhēng)。在這個(gè)階段,各大科技公司競(jìng)相推出了一系列新產(chǎn)品
和功能,借助人工智能技術(shù),突破傳統(tǒng)搜索引擎和聊天機(jī)器人的局限,為用戶帶來(lái)更豐富、更精準(zhǔn)的交互體驗(yàn)。
ChatGPT-長(zhǎng)了眼睛和嘴巴
多模態(tài)競(jìng)爭(zhēng):從文本到圖像,AI技術(shù)的下一個(gè)前沿
隨著技術(shù)的不斷發(fā)展,我們正逐步進(jìn)入一個(gè)全新的AI時(shí)代——多模態(tài)AI競(jìng)賽。無(wú)論是Meta的AudioCraft項(xiàng)目,還是谷歌Bard和微軟Bing聊天功能的升級(jí),都在向世界宣告著多模態(tài)時(shí)代的到來(lái)。
最近,Meta推出了一個(gè)名為AudioCraft的全新項(xiàng)目,這個(gè)項(xiàng)目將AI的能力從文本擴(kuò)展到了音樂(lè)領(lǐng)域。通過(guò)AI技術(shù),AudioCraft能夠生成全新的音樂(lè)作品,這無(wú)疑是對(duì)AI能力的一次全新拓展。與此同時(shí),谷歌的Bard和微軟的Bing也在其聊天體驗(yàn)中引入了多模態(tài)功能。這種功能使用戶可以在與這些AI助手交流時(shí),不僅局限于文本,還可以通過(guò)圖像、音頻等多種形式進(jìn)行交流。
亞馬遜也沒(méi)有落后,他們正在借助大型語(yǔ)言模型(LLM)的力量來(lái)增強(qiáng)其Alexa數(shù)字助理的功能。為了在這個(gè)全新的多模態(tài)AI競(jìng)賽中占得先機(jī),亞馬遜剛剛宣布了斥資40億美元投資OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic的消息。而蘋(píng)果也在嘗試通過(guò)AI技術(shù)生成語(yǔ)音,他們稱之為Personal Voice。
在圖像生成模型方面,OpenAI的DALL-E 3在上周發(fā)布后,已經(jīng)可以在支持文本和排版生成的最新模型中生成圖像。而當(dāng)?shù)貢r(shí)間周一晚,OpenAI又發(fā)布公告稱ChatGPT現(xiàn)在能夠分析圖像,并在文本對(duì)話中反應(yīng)出對(duì)圖像的理解。此外,ChatGPT移動(dòng)應(yīng)用程序還將增加語(yǔ)音合成選項(xiàng),與現(xiàn)有的語(yǔ)音識(shí)別功能搭配使用時(shí),將實(shí)現(xiàn)與人工智能助手的完全語(yǔ)言對(duì)話。
在這個(gè)全新的多模態(tài)AI時(shí)代,各種技術(shù)的交匯與融合正在不斷地打破我們的認(rèn)知邊界。可以預(yù)見(jiàn)的是,未來(lái)的AI助手將越來(lái)越智能化,能夠更好地理解和響應(yīng)用戶的各種需求。而這一切的背后,正是生成式AI技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷擴(kuò)展。在這個(gè)競(jìng)賽中,我們期待看到更多的創(chuàng)新和突破,以及AI技術(shù)在各個(gè)領(lǐng)域的更廣泛應(yīng)用。
現(xiàn)在的ChatGPT已經(jīng)具備了語(yǔ)音功能。這個(gè)功能由一個(gè)新的文本轉(zhuǎn)語(yǔ)音模型(text to speech)驅(qū)動(dòng),只需要文本和幾秒的語(yǔ)音樣本就可以生成類似人聲的音頻。這個(gè)功能使得ChatGPT不僅能夠理解和生成文本,還能夠以語(yǔ)音形式呈現(xiàn)回答,進(jìn)一步增強(qiáng)了它的交互性和自然性。
OpenAI在公告中還提到了他們與專業(yè)配音演員合作創(chuàng)建了語(yǔ)音條,這也意味著ChatGPT可以生成更為真實(shí)和自然的語(yǔ)音。此外,ChatGPT還使用了OpenAI開(kāi)源的語(yǔ)音識(shí)別系統(tǒng)Whisper,可以將用戶的語(yǔ)音轉(zhuǎn)錄為文字,這使得ChatGPT在語(yǔ)音交互方面表現(xiàn)得更加出色。
通過(guò)使用GPT-3.5或GPT-4模型,ChatGPT現(xiàn)在能夠處理和解析上傳的圖像,就像它處理文本輸入一樣。這個(gè)新功能讓用戶可以點(diǎn)擊圖像并將其添加到聊天中。然后,ChatGPT會(huì)根據(jù)圖像中的文本進(jìn)行分析,并給出回答或響應(yīng)。
ChatGPT推出的語(yǔ)音交互和圖像識(shí)別功能為聊天機(jī)器人帶來(lái)了前所未有的實(shí)用性,使它們從簡(jiǎn)單的文本處理工具向更貼近真實(shí)生活的方向發(fā)展。同時(shí),這也預(yù)示著未來(lái)AI系統(tǒng)的發(fā)展趨勢(shì)——不僅要理解抽象的文字世界,還要能夠感知復(fù)雜的語(yǔ)音、圖像信息,甚至是物理世界,從而真正達(dá)到人機(jī)交互的境界。
