Poslednjih godina, vreme slušanja tokom kojeg je veštačkoj inteligenciji bilo potrebno da klonira nečiji glas je postajalo sve kraće i kraće.
Nekada su za to bili potrebni sati, potom minuti, a sada to može da se obavi u sekundama.
Kompanija OpenAI je nedavno otkrila da je njihovoj tehnologiji kloniranja glasa potrebno svega 15 sekundi audio materijala kako bi reprodukovala nečiji glas.
U objavi na svom sajtu, OpenAI je ponudio i kratak uvid u model pod nazivom Voice Engine, koji je u razvoju od kraja 2022.
Voice Engine radi tako što mu se nudi miniimalno 15 sekundi govornog materijala. Korisnik potom može da unese tekst kako bi se kreiralo ono što OpenAI opisuje kao „emotivni i realistični“ govor koji blisko oponaša originalnog govornika.
Iz kompanije OpenAI tvrde da pažljivo i informativno pristupaju opciji da ova tehnologija postane široko dostupna, jer postoji mogućnost zloupotrebe sintetičkih glasova.
Prema njihovim rečima, cilj je da se pokrene dijalog o razumnom razvoju sintetičkih glasova i kako društvo može da se prilagodi ovim novim mogućnostima.