Ponedjeljak, 29 Aprila, 2024
Rubrika:

ChatGPT sa slikama i glasovnim komandama

Većina OpenAI-ovih promjena u ChatGPT-u uključuje ono što bot sa vještačkom inteligencijom može da uradi: pitanja na koja može da odgovori, informacije kojima može da pristupi i poboljšane osnovne modele. Ovog puta, međutim, prilagođava se način na koji koristite sam ChatGPT

Kompanija uvodi novu verziju usluge koja vam omogućava da podstaknete AI bota ne samo kucanjem rečenica u okvir za tekst, već i govorom naglas ili samo postavljanjem slike. Nove funkcije se uvode onima koji plaćaju za ChatGPT u naredne dvije nedelje, a svi ostali će ga dobiti „ubrzo posle“, navodi OpenAI.

Dio glasovnog ćaskanja je prilično poznat: dodirnete dugme i izgovorite svoje pitanje, ChatGPT ga pretvara u tekst i šalje ga velikom jezičkom modelu, dobija odgovor nazad, pretvara ga u govor i izgovara odgovor naglas. Trebalo bi da se osjećate kao da razgovarate sa Alexa-om ili Google Assistant-om, samo – OpenAI se nada – odgovori će biti bolji zahvaljujući poboljšanoj osnovnoj tehnologiji. Čini se da je većina virtuelnih asistenata ponovo izgrađena da bi se oslanjala na LLM – OpenAI je upravo ispred igre.

OpenAI-jev odličan Whisper model obavlja mnogo posla sa govorom u tekst, a kompanija uvodi novi model teksta u govor za koji kaže da može da generiše „zvuk nalik ljudskom samo iz teksta i nekoliko sekundi uzorka govora. ” Moći ćete da izaberete glas ChatGPT-a između pet opcija, ali čini se da OpenAI misli da model ima mnogo veći potencijal od toga. OpenAI radi sa Spotifi-om na prevođenju podcasta na druge jezike, na primjer, uz zadržavanje zvuka glasa podkastera. Postoji mnogo zanimljivih upotreba za sintetičke glasove, a OpenAI bi mogao biti veliki dio te industrije.

Ali činjenica da možete da napravite sposoban sintetički glas sa samo nekoliko sekundi zvuka takođe otvara vrata za sve vrste problematičnih slučajeva upotrebe. „Ove mogućnosti takođe predstavljaju nove rizike, kao što je mogućnost da se zlonamjerni akteri lažno predstavljaju kao javne ličnosti ili počine prevaru“, navodi kompanija u postu na blogu u kojem najavljuju nove funkcije. OpenAI kaže da model nije dostupan za široku upotrebu upravo iz tog razloga; biće mnogo više kontrolisano i ograničeno na specifične slučajeve upotrebe i partnerstva.

U međuvremenu, pretraga slika pomalo liči na Google Lens. Snimite fotografiju onoga što vas zanima, a ChatGPT će pokušati da utvrdi šta pitate i da u skladu s tim odgovori. Takođe možete da koristite alatku za crtanje u aplikaciji da bi vaš upit bio jasniji ili govorili ili kucali pitanja koja idu uz sliku. Ovde je od pomoći priroda ChatGPT-a napred-nazad; umjesto da pretražujete, dobijete pogrešan odgovor, a zatim izvršite još jednu pretragu, možete zatražiti od bota i precizirati odgovor dok idete. (Ovo je veoma slično onome što Google radi i sa multimodalnom pretragom.)

Očigledno, pretraga slika ima svoje potencijalne probleme. Jedan je šta bi se moglo dogoditi kada zatražite chatbot o nekoj osobi. OpenAI kaže da je namjerno ograničio ChatGPT-ovu „sposobnost da analizira i daje direktne izjave o ljudima“ i zbog tačnosti i zbog privatnosti. To znači jednu od najvećih naučnofantastičnih vizija za vještačku inteligenciju — sposobnost da pogledate nekoga i kažete: „Ko je to?“ — neće doći uskoro. Što je vjerovatno dobra stvar.

Skoro godinu dana nakon početnog lansiranja ChatGPT-a, čini se da OpenAI još uvijek pokušava da shvati kako da svom botu da više funkcija i mogućnosti bez stvaranja novih skupova problema i nedostataka. Sa ovim izdanjima, kompanija je pokušala da ide tom linijom namjerno ograničavajući šta njeni novi modeli mogu da urade. Ali taj pristup neće raditi zauvijek. Kako sve više ljudi koristi glasovnu kontrolu i pretragu slika, i kako se ChatGPT približava tome da bude zaista multimodalan, koristan virtuelni asistent, biće sve teže i teže držati zaštitne ograde uključene.

Najnovije

Najčitanije

Povezano

Komentari

Subscribe
Notify of

0 Komentara
Inline Feedbacks
Pregedaj sve