Finały wykorzystują sztuczną inteligencję do zamiany tekstu na mowę, ponieważ może ona tworzyć linie „w ciągu zaledwie kilku godzin, a nie miesięcy”, co zaskakuje prawdziwych aktorów głosowych

0
144

„Dlaczego, do kurwy nędzy, ludzie od głosu AI zachowują się tak, jakby zatrudnianie aktorów głosowych było jakimś tajemnym rytuałem”.

A (podcast Embark Studios) – twórcy nadchodzącego FPS-a (The Finals) – zasugerowali, że gra będzie wykorzystywać linie głosowe AI w dającej się przewidzieć przyszłości. Wyjaśnienie to sprawiło jednak, że niektórzy aktorzy głosowi poczuli się w najlepszym razie zdezorientowani.

Carl Strandberg i Andreas Almström, projektanci dźwięku w The Finals, zostali zapytani: „Kto podkładał głos? Brzmią naprawdę autentycznie” (spoilery: nie wszyscy podzielają tę opinię). Odpowiedzieli: „Używamy sztucznej inteligencji z kilkoma wyjątkami, więc wszystkie głosy zawodników, takie jak szczeknięcia i komentatorzy głosowi, są syntezatorami mowy AI”. Różne rzeczy związane z podkładaniem głosu – chrząkanie, odgłosy bólu, przeskakiwanie nad przedmiotami – są poza tym wykonywane we własnym zakresie.

„Powodem, dla którego poszliśmy tą drogą, jest to, że zamiana tekstu na mowę AI jest w końcu niezwykle potężna. Zapewnia nam wystarczającą jakość i pozwala nam być niezwykle reaktywnym na nowe pomysły … jeśli projektant gry wpadnie na nowy pomysł na tryb gry, możemy mieć lektora reprezentującego to w ciągu zaledwie kilku godzin, zamiast miesięcy.”

Wyjaśnienie to nie jest jednak zgodne z doświadczeniami aktorów głosowych, którzy faktycznie pracują w grach. Jednym z takich aktorów jest Gianni Matragrano – którego możesz rozpoznać jako Gabriela z Ultrakill, choć pracował w wielu różnych grach, w tym Genshin Impact, Gloomwood i Evil West.

Matragrano napisał na (Twitter thread): „Nieustannie realizujemy sesje na zamówienie w pośpiechu, w ciągu dnia lub dwóch … Kiedy potrzebujesz więcej, możesz zarezerwować kolejną sesję. W rzeczywistości bardzo to ułatwiamy”. Następnie ujawnia, że miał wątpliwości podczas grania w wersję beta, ale czekał na potwierdzenie: „Miałem swoje podejrzenia, ale nie chciałem nic mówić na wypadek, gdybym się mylił, a może to był tylko symbol zastępczy. Ale teraz, w dużej otwartej becie z [150 000] jednoczesnych graczy, to zdecydowanie tylko ich wizja.”

Powyższe wideo jest przykładem opublikowanym przez samego Matragrano i… tak, nie jest aż tak świetne. Słyszę zbyt wiele doliny niesamowitości, by kupić tę „niezwykle potężną” technologię, którą chwalili się Strandberg i Almström. Strandberg i Almström dodali jednak zastrzeżenie: „Jeśli brzmi to trochę dziwnie, to pod względem estetycznym nadal dobrze komponuje się z fantazją wirtualnego pokazu gier”. To od ciebie zależy, czy te linie głosowe cię zanurzą.

Zane Schacht, inny aktor głosowy, napisał: „Dlaczego, do cholery, ludzie głosowi AI zachowują się tak, jakby zatrudnianie aktorów głosowych było jakimś tajemnym rytuałem … W ciągu dwugodzinnej sesji znokautowałem całe gry warte dźwięku. To nie jest głębokie.”

Pax Helgesen, który jest zarówno starszym projektantem dźwięku, jak i aktorem głosowym, skomentował: „Chciałbym ponownie zachęcić deweloperów do ponownego rozważenia wykorzystania głosu w swoich grach jako po prostu „atutu” w procesie zwinnego rozwoju”. Stwierdził, że tak, sztuczna inteligencja może odgrywać ważną rolę w rozwoju gry, ale „aktor, który mógłby wykorzystać narzędzia swojego rzemiosła i doświadczenia do współpracy i stworzenia czegoś większego niż to, co wyobrażali sobie deweloperzy.”

Jestem skłonny się tutaj zgodzić. W pewnym sensie aktorstwo i projektowanie dźwięku to dwie bardzo różne dyscypliny. Jest to podobne do tego, jak „artyści AI” są zestrzeliwani na placu publicznym, gdy dzielą się wynikami swoich podpowiedzi, ponieważ ci z lepszym okiem mogą dostrzec brak kompozycji i intencji na milę.

Możesz poprosić algorytm o wyprodukowanie czegoś, to prawda, ale sztuka obejmuje dziesiątki celowych wyborów, których maszyna nie może w tej chwili odtworzyć. Z aktorstwem jest podobnie. Część mnie zastanawia się, czy Strandberg i Almström po prostu nie wiedzą wystarczająco dużo o VA, aby zrozumieć, w jaki sposób ich linie wygenerowane przez ElevenLabs są irytujące dla graczy, którzy nie dbają o czas realizacji.

Tym bardziej dziwaczne jest to, że istnieją już interesujące, przemyślane zastosowania tej technologii w grach. Jakiś czas temu ujawniono, że polski dubbing Cyberpunk 2077 wykorzystał sztuczną inteligencję do zapewnienia nowych linii w dodatku Phantom Liberty, po tym jak aktor głosowy dla pewnej postaci zmarł.CD Projektdołożył należytej staranności. Zatrudnił aktora głosowego, który wygłosił nowe kwestie (które miały zostać zmienione za pomocą programu Respeecher), uzyskał zgodę pozostałych przy życiu członków rodziny aktora i zrobił to w celu zachowania oryginalnego występu bez udziału sztucznej inteligencji.

Jeśli chodzi o The Finals, trudno mi dostrzec twórcze intencje. Jasne, sztuczna inteligencja może być w stanie zapewnić szybsze zwroty akcji – nawet jeśli nie są one tak powolne, jak przedstawiają je twórcy – ale wynik jest pozbawiony osobowości. Strzelanka dla wielu graczy nie musi zapewniać głębokiej narracji, oczywiście, ale słuchasz tych szczeknięć przez wiele godzin. Czuję, że sztywna, niezręczna dostawa stanie się irytująca, szybko.

Skontaktowałem się z Embark Studios w celu uzyskania komentarza i otrzymałem wiadomość e-mail, w której studio wykorzystuje mieszankę „nagranego dźwięku głosowego i dźwięku generowanego za pomocą narzędzi TTS [text to speech] w naszych grach, w zależności od kontekstu”, cytując rozmowy między postaciami jako takie, w których ważne jest, aby prawdziwi ludzie rozmawiali ze sobą. „TTS pozwala nam na dostosowanie [aktorstwa głosowego] tam, gdzie inaczej byśmy tego nie zrobili, np. ze względu na szybkość implementacji.”

„W przypadkach, w których używamy TTS w The Finals, zawsze jest on oparty na prawdziwych głosach”. W tym miejscu należy zauważyć, że&nbspwiększośćprogramów głosowych AI opiera się na prawdziwych głosach, w taki sam sposób, w jaki sztuka AI opiera się na prawdziwej sztuce – tak działa ta technologia. „W otwartej wersji beta opiera się na połączeniu profesjonalnych aktorów głosowych i tymczasowych głosów pracowników Embark. Tworzenie gier bez aktorów nie jest celem Embark, a technologia TTS wprowadziła nowe sposoby współpracy.”

Studia Embark nie skomentowały pytania „miesiące vs. tygodnie”, choć implikacja wydaje się być bliska temu, co przedstawiono we wspomnianym wywiadzie: TTS jest częścią wizji The Finals. Gra prawdopodobnie wykorzysta mieszankę pracy głosowej i sztucznej inteligencji nawet po wyjściu z wersji beta – chyba że opinia publiczna zmieni zdanie Embark Studios.