corrodedsounds » Auto-Tune dla umysłu, czyli kompozytor bez serca albo muzyka z... kodu

Niedawno w mojej pracy, w której zarabiam na bułkę (aby potem beztrosko marnować czas popołudniami na pisanie pierdół, zamiast np. dygać nadgodziny albo drugi etat), zostałem poproszony o sporządzenie raportu opisowego, podsumowującego pewien okres rozwoju projektu X. Żeby „rozrzedzić” nieco ciężar suchych liczb, dat i faktów i przenieść język tabelek Excela na język komunikacji międzyludzkiej, zamieściłem w treści sprawozdania kilka kwiecistych porównań, sugestywnych analogii, nawiązań, odniesień i paralel. Pierwsze pytanie, jakie mi potem zadano, to czy napisał mi to Chat GPT. Z jednej strony mnie nieco zmroziło i prawie doszło do odpalenia krótkiego lontu świętego oburzenia, z drugiej zaś pojawiła się taka myśl – to chyba nie jest źle, skoro tak sobie „z głowy” potrafię pisać jak sztuczna inteligencja, mająca do dyspozycji cały internet, nawet ten zapisany przez Chucka Norrisa na dyskietce. No właśnie. Bo w tym wszystkim kluczem jest słowo „inteligencja”. Nie, dziś nie będzie tu o jej porażających deficytach, które zostały boleśnie obnażone wśród polskich „elit” wydarzeniami ostatnich igrzysk parademokratycznych. Kwestia jest bardziej skomplikowana niż wydrukowanie gotowca protestu wyborczego. Gdzie kończy się algorytm i korzystanie z zasobów, a gdzie zaczyna się prawdziwa inteligencja?

Stoję na krawędzi decyzji, aby przeprowadzić taki oto eksperyment. Chciałbym mianowicie “zapromptować”, czyli tak sformułować zapytanie narzędziom generatywnego AI (a jest ich już multum), aby przez analizę moich tekstów zdefiniowały styl, a następnie w tym stylu stworzyły szereg recenzji określonych płyt. Zamiast katować się słuchaniem po kilkanaście, a nawet kilkadziesiąt razy pod rząd jakiegoś materiału i wychwytywać niuanse, przywoływać wspomnienia i dać się porywać emocjom, mógłbym dłubać w nosie. Boję się jednak uczynić ten krok, bo pewnie okazałoby się, że AI pisze o wiele szybciej, lepiej a może i nawet bardziej emocjonalnie. No i nie byłyby to przecież moje teksty. Z tym, że czy aby na pewno, skoro byłyby napisane „marciniakiem” i mogłyby być tak dobre i trafne, że tylko się pod nimi podpisać obiema rękami? Czy Chat GPT jest tak dobry, że potrafi pisać jak ja, czy ja jestem całkiem dobry, bo potrafię pisać jak Chat GPT? Teksty tekstami, ale na przykład co z muzyką? Czyż nie jest kuszące stworzenie w kilkadziesiąt minut gładkiego albumu z chwytliwymi piosenkami zamiast godzinami ślęczeć bezproduktywnie nad instrumentem, przeżywać bóle niemocy twórczej, a potem i tak całą sesję wywalić do kosza, jako nic nie wartą? Tak mam właśnie od kilku miesięcy – sprzęt się kurzy, a ja nie jestem w stanie wydobyć zeń nic sensownego… Jak już wiemy od Tymona Tymańskiego "muzyka pochodzi albo z serca albo z dupy.” I wydawałoby się, że muzyka z dupy powinna zawsze stać na straconej pozycji, ale tak nie jest. Nigdy zresztą tak nie było. A teraz w dodatku siłą rzeczy nasuwa się mało optymistyczne stwierdzenie, że będzie coraz gorzej. Muzyka z dupy zyskała przepotężnego sojusznika w postaci AI. Kiedyś, żeby powstała muzyka, potrzebni byli ludzie. Basiści wykorzystywani głównie do noszenia gratów, marzący o zagraniu solówy, neurotyczni perkusiści o precyzji sypanych z wora kartofli, wokaliści o głosie jak dzwon i ego wielkości stadionu, na jakim chcieliby występować. Potrzebny był garaż, czy inna kanciapa, kilka piw i marzenia o sławie lub przynajmniej o zagraniu w klubie za zwrot kosztów podróży. Kłótnie, niesnaski, obrazy, fochy, rozejścia i reuniony i tak dalej. A dziś? Dziś wystarczy komputer. I uwaga - nie chodzi o coś oczywistego - absolutnie powszechne wykorzystanie komputera jako zaawansowanego studia nagrań z tysiącem instrumentów i efektów na pokładzie, bo to mamy od dziesięcioleci. Nie chodzi też o to, że można nagrać za pomocą wtyczek VST fenomenalnie porywające ścieżki garów nie korzystając wcale z żywego perkusisty, który w dodatku spóźnia na próby, sypie i gubi tempo. Nie. Chodzi o to, że wystarczy umiejętność „promptowania” do stworzenia muzyki, od razu nagranej, zaśpiewanej, zmiksowanej i zmasterowanej.

Człowiek. Istota zdolna do stworzenia symfonii, ballady, disco polo i „Despacito” przez wieki komponował, wymyślał instrumenty, grał, fałszował, cierpiał z miłości, braku weny i braku audytorium. Muzyka była jego głosem, sercem, sposobem na powiedzenie światu „oto jestem”, nawet jeśli mówił to z użyciem bębna ze skóry wroga i pałek z jego piszczeli. Witajcie jednak w epoce muzyki AI. Oczywiste żarty w stylu Freddie Mercury śpiewa „My Heart Will Go On” albo „Master Of Puppets” nagrany przez big-band w latach czterdziestych ubiegłego wieku to coś w rodzaju filmiku, na którym Tusk ściska się i całuje z Kaczyńskim. Wszyscy wiedzą, że to AI i że to nieprawdziwe. Ale oto słucham sobie właśnie zespołu, o którym ostatnio zrobiło się głośno, bo miało się zrobić - The Velvet Sundown. Weźmy taki na przykład kawałek „Marching Shadows”, który całkiem mi się podoba, zwłaszcza to, co swoimi umiejętnościami prezentuje w nim wokalista.

„– Ich brzmienie łączy faktury psychodelicznego alt-rocka i folk rocka z lat 70. z nowoczesnymi strukturami alt-popu i indie. Lśniące tremola, ciepłe pogłosy taśmy i delikatny wir organów nadają wszystkiemu poczucie historii, bez wymuszonego charakteru” – możemy przeczytać w oficjalnym opisie zespołu na Spotify. I może wszystko się zgadza i byłoby okej, gdyby nie to, że The Velvet Sundown nie istnieją. Po prostu. Są tworem programu, w którym za osiem baksów miesięcznie możesz wygenerować sobie nawet pięćset kawałków. Pięćdziesiąt pełnowymiarowych longów. No i co teraz mam z tym począć? Że nie jest to muzyka z serca, to oczywiste. Ale to nawet nie jest muzyka z dupy. To muzyka z… no właśnie z czego? Z danych? Muzyka generowana przez sztuczną inteligencję nie ma źródła w duszy, lecz w danych. Nie wyrasta z traumy, tylko z parametru. A jednak… brzmi. I co gorsza, muzyka tych sztucznych bytów (i bajtów) brzmi coraz lepiej. Oczywiście zamiast to przyznać, łatwiej byłoby mi się żachnąć, przyjąć tok myślenia starego pierdziela, co to z tysiąca winyli muzykę jadł, ba! również i artysty wyplatającego swoją dark ambientową twórczością tkaninę transcendentalnej emanacji eksperymentalnej jaźni 😊, czy jakoś tak i autorytatywnie odciąć się od wszelkiego sztucznego gówna, które na milę zalatuje nieautentycznością. Ale jeśli odrzucimy te wszelkie uszojebne koszmarki nafaszerowane autotunem i skupimy się na produkcjach choćby w stylu wspomnianego The Velvet Sundown, to co tu potępiać? Nie, żebym teraz od razu padł na kolana i zawył z zachwytu, ale jak na ten etap rozwoju AI, to jest całkiem dobre. Ech, chyba bluźnię, powiecie… no wiem. Nic nie poradzę jednak, że bardziej mnie ciekawi co z tego wszystkiego wyniknie za lat kilka, niż trwoży wizja muzycznego „Matrixa”. Jestem pewien, że pojawienie się całkowicie fikcyjnego zespołu, który w tym samym czasie daje na całym świecie 1000 koncertów w różnych miejscach, korzystając do tego z projekcji holograficznych, jest tylko kwestią czasu. Prace już trwają. Idealnie skrojony produkt pod potrzeby słuchacza, ze szczególnym uwzględnieniem zasady inżyniera Mamonia:

„Proszę pana, ja jestem umysł ścisły. Mnie się podobają melodie, które już raz słyszałem. Po prostu. To... Poprzez... No, reminiscencję. No jakże może podobać mi się piosenka, którą pierwszy raz słyszę?”

Zygmunt Maklakiewicz jako inżynier Mamoń w filmie "Rejs" Marka Piwowskiego 1970

Dlatego piosenki, które zagra i zaśpiewa ten zespół, mimo, że będą słyszane po raz pierwszy, to będą od samego początku znane i lubiane jak własna kieszeń zaraz po pierwszym. Algorytmy uczą się szybciej niż początkujący gitarzysta akordów barowych (nie tych od spelunek, tylko tych „barre”). Przesłuchają całą dyskografię Pink Floyd, Beatlesów i Kraftwerk w 0.2 sekundy, wyciągną z tego esencję, dodadzą modne urozmaicenia i voilà! Masz album, który brzmi jakby ziścił się twój mokry sen. I teraz zaczynają się schody. Bo skoro nie jesteś w stanie odróżnić, czy dany kawałek zrobił żywy człowiek, czy algorytm, to… czy to jeszcze muzyka ludzka? Czy to już tylko dźwiękowa iluzja emocji? I czy to w ogóle jest ważne? A raczej zapytajmy kiedy przestanie być ważne. Kiedy muzyka nie będzie już deklaracją serca i duszy, a tylko matematycznie zoptymalizowaną przyjemnością dla ucha? I czy to jeszcze muzyka, skoro nie ma autora, tylko funkcje? Jak napisał Roland Barthes w swoim eseju „Śmierć autora”, autor nie istnieje – istnieje tylko tekst i jego czytelnik. Czy w takim razie twórcą stanie się odbiorca, który de facto dopiero wtedy nada znaczenie temu, co stworzyła bezduszna matematyka? Ale przecież muzyka to jest matematyka. Od zawsze. Od jej podstawowych struktur po percepcję i tworzenie. Matematyka dostarcza narzędzi do opisu i analizy muzyki. Harmonia i proporcje, rytm i podziały, funkcje, czy w ogóle sama podstawa akustyki - fizyka dźwięku. Przecież częstotliwość dźwięku, amplituda i długość fali to wielkości, które opisuje się za pomocą równań matematycznych. Kiedy ten sam dźwięk ma w takim razie wartość, a kiedy nie? Gdy ktoś żywy go zagra? A zaprogramowany syntezator już nie? Chyba już do końca nie wiadomo. Nic dziwnego, że słuchając sztucznej muzyki, człowiek może poczuć się… niepotrzebny. Zbyteczny twórczo. Maszyny grają lepiej niż my. Są bardziej spójne, nie mylą się, nie wchodzą sobie w słowo w refrenie, nie mają problemu z akordem E-dur po północy i po paru piwach...

Ale może właśnie w tym cała nasza nadzieja. Może kiedyś zaczniemy doceniać to ludzkie niedoskonałe "coś". Jakąś fałszywą nutę, lukę w pamięci podczas śpiewania tekstu na koncercie, gitarowe solo, które miało być epickie, a wybrzmiało, jakby wszystkie struny pękły naraz? Bo ostatecznie – czy muzyka to dźwięki sensu stricto, czy raczej bardziej ten dziwny stan duszy, gdy one (te dźwięki) coś w nas uruchamiają? Jak pisał Walter Benjamin w „Dziele sztuki w dobie reprodukcji technicznej” — reprodukcja usuwa „aureolę” dzieła. Ale to moim zdaniem tylko jedna strona medalu. Druga jest taka, że być może to my nadajemy muzyce sens, nie zaś jej pochodzenie.

Robert Marciniak

02.07.2025