具有感官的ChatGPT開(kāi)始入侵物理世界

AI快訊 2年前 (2023) AI工具箱

1,054 0 9

Openai推出重大更新，實(shí)現(xiàn)看、聽(tīng)、說(shuō)全方位能力。

近日，Openai官方博客發(fā)布消息，展示了一項(xiàng)自從大型語(yǔ)言模型ChatGPT-4 推出以來(lái)的最大功能更新。據(jù)官方發(fā)布的應(yīng)用案例顯示，現(xiàn)在人們可以使用手機(jī)攝像頭和麥克風(fēng)，通過(guò)ChatGPT解決實(shí)際問(wèn)題。比如，用戶可以拍攝共享單車的照片，然后詢問(wèn)人工智能助手如何調(diào)整座椅。隨著技術(shù)的快速迭代，生成式 AI 競(jìng)賽已經(jīng)進(jìn)入了一個(gè)新的階段——多模態(tài)之爭(zhēng)。在這個(gè)階段，各大科技公司競(jìng)相推出了一系列新產(chǎn)品
和功能，借助人工智能技術(shù)，突破傳統(tǒng)搜索引擎和聊天機(jī)器人的局限，為用戶帶來(lái)更豐富、更精準(zhǔn)的交互體驗(yàn)。

ChatGPT-長(zhǎng)了眼睛和嘴巴

多模態(tài)競(jìng)爭(zhēng)：從文本到圖像，AI技術(shù)的下一個(gè)前沿

隨著技術(shù)的不斷發(fā)展，我們正逐步進(jìn)入一個(gè)全新的AI時(shí)代——多模態(tài)AI競(jìng)賽。無(wú)論是Meta的AudioCraft項(xiàng)目，還是谷歌Bard和微軟Bing聊天功能的升級(jí)，都在向世界宣告著多模態(tài)時(shí)代的到來(lái)。

最近，Meta推出了一個(gè)名為AudioCraft的全新項(xiàng)目，這個(gè)項(xiàng)目將AI的能力從文本擴(kuò)展到了音樂(lè)領(lǐng)域。通過(guò)AI技術(shù)，AudioCraft能夠生成全新的音樂(lè)作品，這無(wú)疑是對(duì)AI能力的一次全新拓展。與此同時(shí)，谷歌的Bard和微軟的Bing也在其聊天體驗(yàn)中引入了多模態(tài)功能。這種功能使用戶可以在與這些AI助手交流時(shí)，不僅局限于文本，還可以通過(guò)圖像、音頻等多種形式進(jìn)行交流。

亞馬遜也沒(méi)有落后，他們正在借助大型語(yǔ)言模型（LLM）的力量來(lái)增強(qiáng)其Alexa數(shù)字助理的功能。為了在這個(gè)全新的多模態(tài)AI競(jìng)賽中占得先機(jī)，亞馬遜剛剛宣布了斥資40億美元投資OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic的消息。而蘋(píng)果也在嘗試通過(guò)AI技術(shù)生成語(yǔ)音，他們稱之為Personal Voice。

在圖像生成模型方面，OpenAI的DALL-E 3在上周發(fā)布后，已經(jīng)可以在支持文本和排版生成的最新模型中生成圖像。而當(dāng)?shù)貢r(shí)間周一晚，OpenAI又發(fā)布公告稱ChatGPT現(xiàn)在能夠分析圖像，并在文本對(duì)話中反應(yīng)出對(duì)圖像的理解。此外，ChatGPT移動(dòng)應(yīng)用程序還將增加語(yǔ)音合成選項(xiàng)，與現(xiàn)有的語(yǔ)音識(shí)別功能搭配使用時(shí)，將實(shí)現(xiàn)與人工智能助手的完全語(yǔ)言對(duì)話。

在這個(gè)全新的多模態(tài)AI時(shí)代，各種技術(shù)的交匯與融合正在不斷地打破我們的認(rèn)知邊界。可以預(yù)見(jiàn)的是，未來(lái)的AI助手將越來(lái)越智能化，能夠更好地理解和響應(yīng)用戶的各種需求。而這一切的背后，正是生成式AI技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷擴(kuò)展。在這個(gè)競(jìng)賽中，我們期待看到更多的創(chuàng)新和突破，以及AI技術(shù)在各個(gè)領(lǐng)域的更廣泛應(yīng)用。

現(xiàn)在的ChatGPT已經(jīng)具備了語(yǔ)音功能。這個(gè)功能由一個(gè)新的文本轉(zhuǎn)語(yǔ)音模型（text to speech）驅(qū)動(dòng)，只需要文本和幾秒的語(yǔ)音樣本就可以生成類似人聲的音頻。這個(gè)功能使得ChatGPT不僅能夠理解和生成文本，還能夠以語(yǔ)音形式呈現(xiàn)回答，進(jìn)一步增強(qiáng)了它的交互性和自然性。

OpenAI在公告中還提到了他們與專業(yè)配音演員合作創(chuàng)建了語(yǔ)音條，這也意味著ChatGPT可以生成更為真實(shí)和自然的語(yǔ)音。此外，ChatGPT還使用了OpenAI開(kāi)源的語(yǔ)音識(shí)別系統(tǒng)Whisper，可以將用戶的語(yǔ)音轉(zhuǎn)錄為文字，這使得ChatGPT在語(yǔ)音交互方面表現(xiàn)得更加出色。

通過(guò)使用GPT-3.5或GPT-4模型，ChatGPT現(xiàn)在能夠處理和解析上傳的圖像，就像它處理文本輸入一樣。這個(gè)新功能讓用戶可以點(diǎn)擊圖像并將其添加到聊天中。然后，ChatGPT會(huì)根據(jù)圖像中的文本進(jìn)行分析，并給出回答或響應(yīng)。

ChatGPT推出的語(yǔ)音交互和圖像識(shí)別功能為聊天機(jī)器人帶來(lái)了前所未有的實(shí)用性，使它們從簡(jiǎn)單的文本處理工具向更貼近真實(shí)生活的方向發(fā)展。同時(shí)，這也預(yù)示著未來(lái)AI系統(tǒng)的發(fā)展趨勢(shì)——不僅要理解抽象的文字世界，還要能夠感知復(fù)雜的語(yǔ)音、圖像信息，甚至是物理世界，從而真正達(dá)到人機(jī)交互的境界。

版權(quán)聲明：AI工具箱發(fā)表于 2023-09-26 21:12:31。
轉(zhuǎn)載請(qǐng)注明：具有感官的ChatGPT開(kāi)始入侵物理世界 | AI工具箱

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

欧美激情啪啪_免费看黄在线看_日韩高清一二三区_91av久久久_麻豆精品国产_eeuss影院一区二区三区_欧美一级片在线_亚洲一区二区久久久久久_色噜噜狠狠一区二区_日本五十熟hd丰满

具有感官的ChatGPT開(kāi)始入侵物理世界

AI 繪畫(huà)領(lǐng)域再創(chuàng)新高，新控制大師以 1% 參數(shù)超越 ControlNet

重磅！李嘉誠(chéng)豪捐6000萬(wàn)港元推動(dòng)AI醫(yī)療行業(yè)建設(shè)！

暫無(wú)評(píng)論