Proč na aranži záleží: 3 nástroje porazí 5
Tři síly rozhodují, jak „čistě“ zní výstup ze Suno u každé generace: kolik zvuků soupeří o rozpočet kodeku, z jaké éry model čerpá zvyky a jak vzácný typ hlasu žádáš. Níže je plný český převod krátkého článku MasterForge (květen 2026) — včetně měření z řady „Before You Master“, praktických pravidel a dvou startovních receptů.
Co článek řeší (v kostce)
- Rozpočet kodeku — Suno skládá zvuk token po tokenu přes neuronový kodek (ztrátová komprese) s omezeným datovým rozpočtem na sekundu. Méně nástrojů = víc detailu na každý.
- Éra, ze které model čerpá — např. „heavy metal“ často táhne do estetiky konce 80. let; důvodem je, kde v tréninku leží nejvíc relevantních nahrávek a tagů.
- Typ hlasu — běžné kombinace v datech vycházejí čistě; vzácné (středověký ženský punkový vokál, death growl…) model spíš „sešíva“ a bývá to nejslabší část skladby.
Dva prompty, dva světy
Stejný model, stejný den — ale rozdíl v aranži a žánrovém zatížení změní výsledek z „moderní produkce“ na „kazetové demo z 80. let“. Podle MasterForge to není náhoda: jiný počet konkurentů o kodek, jiná gravita tréninku, jiné nároky na vokál.
Piano ballad about loss, intimate male vocal
Heavy metal anthem, distorted guitars, double bass drums, powerful male vocal
Rozpočet kodeku
Představ si fixní dort: rozkrájet ho na tři kusy dá každému víc „měkkého středu“; na sedm kusů už jsou okraje tenké a první padá detail. Čím hustší aranž, tím víc „zbytků“ končí ve stereo straně a mastering musí dřít víc — v článku uvádějí příkladové rozdíly v dB úpravách mezi řídkou baladou a plným metalem nebo hutnou elektronikou.
Podle MasterForge to přímo měřili v předchozím díle série: čím řidší aranž, tím méně „smetí“ končí ve stereo side kanálu a mastering nemusí tolik zasahovat.
- Slow Bloom — řídká balada se třemi nástroji; při masteringu stačilo cca +10,2 dB vyčištění sub‑pásma ve side kanálu.
- Endless Darkness — plný metal se stejným enginem; stejný typ úpravy šel na cca +15,8 dB a surový záznam měl riziko fáze až 54,8 % času skladby.
- Bassure — hutná elektronika; největší zásah v daném pásmu až +16,5 dB.
Čím hustší aranž, tím víc kodekových zbytků v side kanálu a tím víc práce pro mastering. Podle autorů jde o jeden z nejstabilnějších vzorců napříč stovkami analyzovaných generací.
Proč „metal“ zní jako 1985
Podle měření stovek generací, když po Suno chceš heavy metal, výstup často spadne do estetiky konce 80. let: skleněné činely, syčivé zkreslené kytary, tenčí kop než v současných deskách, ten „lisovaný“ lesk na výškách. Není to náhoda.
Korpus nahrávek silně tagovaných jako heavy metal je podle jejich inference nejsilnější kolem let 1975–1995 — kanonická okna žánru i dobře popsaná data. Moderní metalové produkce (silný spodek, vykopnuté středy, čisté transienty) jsou v rozložení zastoupené slaběji, takže model defaultně reprodukuje to, co viděl nejčastěji. Není to chyba modelu — predikce kopíruje to, co bylo v datech nejhustší.
Jak to obcházet v promptu: aktivně tahat ke současnosti — podžánry jako djent nebo modern progressive metal, plus slovníky typu modern mix, full low end, polished production (viz tabulky níže). Chceš-li moderní zvuk bez kompromisu, článek řadí audio seed mezi nejsilnější páku vůči „érové gravitaci“.
Problém hlasu
Suno si hlasy nevymýšlí z ničeho — naučila se je z dat. Čistota vokálu souvisí s tím, jak moc daný typ v datech byl. Běžné kombinace (mladý ženský pop, mužský rockový bariton, rapová artikulace…) vycházejí skoro pořád čistě.
Na okraj přijde třeba středověký ženský punkový vokál: kulturní moment byl malý, dochovaných nahrávek málo — model mezi existujícími ženskými modely a punkovou texturou šije kompromis. Podle autorů je to opakovatelně nejslabší část skladby, ne nutně kvůli špatnému promptu.
Extrémní techniky (death growl, brutal growl, deathcorové screamy…) do stejné díry padají ještě hlouběji: když si oddělíš vokál z AI metalové skladby a poslechneš ho sólo, skoro vždy zní hůř než nástroje kolem. To je podle článku aktuálně největší jednotlivý limit AI heaváků. Operní metalový soprán, přechody growl→čistý, falsetové screamy — stejný okrajový problém.
Slova, která drží v přítomnosti — a která táhnou zpátky
Model nerozlišuje „hezky / hnusně“ — mapuje slova na to, co v datech typicky následuje. Kvalita a éra nahrávky jdou ruku v ruce s tím, kam slova ukazují.
Drží tě v „dnešku“ (čistší zvuk)
- warm bass, intimate piano, driving rhythm, punchy drums
- airy vocal, polished production, modern mix, full low end
Tahají ke starší / horší věrnosti
- lo-fi, vintage, analog tape, cassette quality
- 1930s / 1970s / 1980s production, old school, raw demo
- mp3 quality, tape hiss
Exclude Styles — podle článku nejpodceňovanější nástroj
Cokoli nechceš slyšet, dej sem jako negativní seznam; model se tomu aktivně vyhýbá. Inspirace z článku (anglicky, připravené ke kopírování):
- Éra a kvalita:
vintage 1980s production,vintage cassette quality,lo-fi recording,analog tape hiss,mp3 quality,audio compression artifacts,metallic shimmer artifacts - Vokál, co ti leze do skladby:
high female backing vocal,soaring chorus vocal,choir aaah pad,auto-tune metal,vocaloid,operatic soprano metal(když nechceš) - Klišé:
generic stadium rock anthem,generic rock metal final chorus,anthem rock cliche,summer pop festival rock,radio rock ballad(mimo ty styly) - Frekvenční peklo:
high-frequency synth pad,bright synth shimmer,audio fog midrange,treble whistle
Když se něco vrátí i tak, přidej to do Exclude u dalšího pokusu — časem si postavíš vlastní filtr chutě.
První slovo stylu určuje lídra
První token promptu má v attention mechanismu největší váhu: ukotní lead nástroj i směr skladby. Příklady z článku: Piano dark ballad → piano vede; Dark piano ballad → spíš nálada, piano jako textura. Drž styl v 4–8 vědomých slovech; další seředění už ředí signál.
Hierarchie nástrojů (codec-friendly, ne „hudební lepší horší“)
- Snadné: klavír, akustická kytara, jednoduché bicí, sólový vokál
- Střed: čistá elektrická, basa, lehké synty
- Rizikové: zkreslená kytara, sbor, smyčcová sekce
- Těžké: celý metalový band, hutná elektronika, vrstvené vokály
Důvod: čisté harmonie a přehledné útoky se komprimují líp než konstantní nové alikvóty u distortion.
Rychlé připomínky ze série: tagy, Weirdness, seed
Tři věci, které v originálech MasterForge úzce navazují na vše výše — zde jen stručně, detailněji v průvodci Prompt jako producent.
Producer tagy tvarují strukturu, ne nástroje
Tagy jako [Bridge], [Outro], [Breakdown: piano alone] říkají, kde ve skladbě jsi a jakou má sekce hustotu. Nepřidávají samy o sobě nové nástroje ani „základní zvuk“. Dlouhé popisné tagy berou rozpočet, který by kodek mohl investovat do detailu — krátké tagy obvykle stačí.
Weirdness a Style rozhodují, jak moc model poslechne prompt
Jakmile Weirdness přesáhne zhruba 0,48 nebo Style klesne pod cca 0,68, model bez audio seedu často začne ujíždět od zadání. Na čistou baladu nemusíš šrouby tlačit; na experimentální hybrid ano — a pak seed prakticky nutně.
Audio seed je nejsilnější kormidlo
Krátký referenční klip, který nahráš, ukotní generaci esteticky víc než samotný text — včetně toho kritického: moderní heavák v modelu, který jinak táhne do konce 80. let. Chceš-li současný metalový zvuk, seed podle článku není volitelný bonus, ale páka proti gravitaci tréninkových dat.
Dva startovní recepty (z článku)
Snadná cesta — balada
- Styl začni
PianoneboVoice and piano. - 4–6 slov; náladu a texturu až za lead.
- Weirdness cca 0,28, Style cca 0,80; seed nepotřebuješ.
- Max. 3–4 producer tagy.
- Krátký Exclude třeba:
orchestral arrangement,full band,high female backing vocal(chceš-li řídký zvuk).
Těžší cesta — heavák
- Přijmi, že bez seedu je default často „late 80s“.
- Kotvi současné podžánry (
djent,modern progressive metal). vintage,classic,old school,80s productionhoď do Exclude a pole rozšiřuj.- Style 0,80–0,85; Weirdness bez seedu raději ne přes 0,32.
- Pro moderní zvuk: moderní metalový audio seed, v článku zmiňují vliv kolem 55 % (Audio Influence).
- V aranži drž aktivní nástroje pod pět v jednom momentu.
Závěr (podle originálu)
Aranž rozhoduje, kolik zvuků soupeří o rozpočet kodeku. Éra, ze které model čerpá nejvíc váhy, rozhoduje, jak ten zvuk „chutná“ v čase — u metalu často k pozdním 80. letům, dokud ho aktivně neutáhneš jinam. Typ hlasu rozhoduje, jestli vůbec může znít „opravdově“ — okrajové kombinace zatím často zaostávají za nástroji.
Suno se bude zlepšovat: korpus poroste, kapacita kodeku poroste, okrajové vokály doženou běžné. Mezitím autoři měří a pracují s tím, co model dává — a benchmarkem jim zůstává první finský AI death metal, který obstojí na sluchátkách jako špičková lidská produkce. Do té doby platí pravidla z tohoto článku.
→ Anglický originál včetně interaktivních diagramů · AI Hudba: Skladatel a Textař · Prompt jako producent