Suno · praxe

Proč na aranži záleží: 3 nástroje porazí 5

Tři síly rozhodují, jak „čistě“ zní výstup ze Suno u každé generace: kolik zvuků soupeří o rozpočet kodeku, z jaké éry model čerpá zvyky a jak vzácný typ hlasu žádáš. Níže je plný český převod krátkého článku MasterForge (květen 2026) — včetně měření z řady „Before You Master“, praktických pravidel a dvou startovních receptů.

Zdroj a autor původního článku: Petri Korhonen, MasterForge — Why Arrangement Matters: 3 Instruments Beat 5 (květen 2026). Tato stránka je neoficiální český převod pro čtenáře PumpyDumpy AI; technické závěry vycházejí z jejich měření a popisu modelu, ne ze zveřejněné dokumentace Suno.

Co článek řeší (v kostce)

  1. Rozpočet kodeku — Suno skládá zvuk token po tokenu přes neuronový kodek (ztrátová komprese) s omezeným datovým rozpočtem na sekundu. Méně nástrojů = víc detailu na každý.
  2. Éra, ze které model čerpá — např. „heavy metal“ často táhne do estetiky konce 80. let; důvodem je, kde v tréninku leží nejvíc relevantních nahrávek a tagů.
  3. Typ hlasu — běžné kombinace v datech vycházejí čistě; vzácné (středověký ženský punkový vokál, death growl…) model spíš „sešíva“ a bývá to nejslabší část skladby.

Dva prompty, dva světy

Stejný model, stejný den — ale rozdíl v aranži a žánrovém zatížení změní výsledek z „moderní produkce“ na „kazetové demo z 80. let“. Podle MasterForge to není náhoda: jiný počet konkurentů o kodek, jiná gravita tréninku, jiné nároky na vokál.

Piano ballad about loss, intimate male vocal

Heavy metal anthem, distorted guitars, double bass drums, powerful male vocal

Rozpočet kodeku

Představ si fixní dort: rozkrájet ho na tři kusy dá každému víc „měkkého středu“; na sedm kusů už jsou okraje tenké a první padá detail. Čím hustší aranž, tím víc „zbytků“ končí ve stereo straně a mastering musí dřít víc — v článku uvádějí příkladové rozdíly v dB úpravách mezi řídkou baladou a plným metalem nebo hutnou elektronikou.

Diagram: rozpočet kodeku — tři vs. sedm nástrojů
Diagram „The Codec Budget“ — MasterForge.

Podle MasterForge to přímo měřili v předchozím díle série: čím řidší aranž, tím méně „smetí“ končí ve stereo side kanálu a mastering nemusí tolik zasahovat.

  • Slow Bloom — řídká balada se třemi nástroji; při masteringu stačilo cca +10,2 dB vyčištění sub‑pásma ve side kanálu.
  • Endless Darkness — plný metal se stejným enginem; stejný typ úpravy šel na cca +15,8 dB a surový záznam měl riziko fáze až 54,8 % času skladby.
  • Bassure — hutná elektronika; největší zásah v daném pásmu až +16,5 dB.

Čím hustší aranž, tím víc kodekových zbytků v side kanálu a tím víc práce pro mastering. Podle autorů jde o jeden z nejstabilnějších vzorců napříč stovkami analyzovaných generací.

Praktické pravidlo: ideální sweet spot jsou 2–3 aktivní nástroje v daný okamžik; 3–4 ještě ujde; 5+ v jednom úderu je zóna, kde se artefakty začnou kumulovat bez ohledu na kvalitu promptu.

Proč „metal“ zní jako 1985

Podle měření stovek generací, když po Suno chceš heavy metal, výstup často spadne do estetiky konce 80. let: skleněné činely, syčivé zkreslené kytary, tenčí kop než v současných deskách, ten „lisovaný“ lesk na výškách. Není to náhoda.

Korpus nahrávek silně tagovaných jako heavy metal je podle jejich inference nejsilnější kolem let 1975–1995 — kanonická okna žánru i dobře popsaná data. Moderní metalové produkce (silný spodek, vykopnuté středy, čisté transienty) jsou v rozložení zastoupené slaběji, takže model defaultně reprodukuje to, co viděl nejčastěji. Není to chyba modelu — predikce kopíruje to, co bylo v datech nejhustší.

Diagram: kde model slýchal nejvíc metalu v čase
Časová osa „Where Metal Training Data Lives“ — MasterForge.

Jak to obcházet v promptu: aktivně tahat ke současnosti — podžánry jako djent nebo modern progressive metal, plus slovníky typu modern mix, full low end, polished production (viz tabulky níže). Chceš-li moderní zvuk bez kompromisu, článek řadí audio seed mezi nejsilnější páku vůči „érové gravitaci“.

Problém hlasu

Suno si hlasy nevymýšlí z ničeho — naučila se je z dat. Čistota vokálu souvisí s tím, jak moc daný typ v datech byl. Běžné kombinace (mladý ženský pop, mužský rockový bariton, rapová artikulace…) vycházejí skoro pořád čistě.

Na okraj přijde třeba středověký ženský punkový vokál: kulturní moment byl malý, dochovaných nahrávek málo — model mezi existujícími ženskými modely a punkovou texturou šije kompromis. Podle autorů je to opakovatelně nejslabší část skladby, ne nutně kvůli špatnému promptu.

Extrémní techniky (death growl, brutal growl, deathcorové screamy…) do stejné díry padají ještě hlouběji: když si oddělíš vokál z AI metalové skladby a poslechneš ho sólo, skoro vždy zní hůř než nástroje kolem. To je podle článku aktuálně největší jednotlivý limit AI heaváků. Operní metalový soprán, přechody growl→čistý, falsetové screamy — stejný okrajový problém.

Diagram: běžné vs. okrajové typy hlasů v datech
Mapa „What Suno Has Heard“ — MasterForge.

Slova, která drží v přítomnosti — a která táhnou zpátky

Model nerozlišuje „hezky / hnusně“ — mapuje slova na to, co v datech typicky následuje. Kvalita a éra nahrávky jdou ruku v ruce s tím, kam slova ukazují.

Drží tě v „dnešku“ (čistší zvuk)

  • warm bass, intimate piano, driving rhythm, punchy drums
  • airy vocal, polished production, modern mix, full low end

Tahají ke starší / horší věrnosti

  • lo-fi, vintage, analog tape, cassette quality
  • 1930s / 1970s / 1980s production, old school, raw demo
  • mp3 quality, tape hiss

Exclude Styles — podle článku nejpodceňovanější nástroj

Cokoli nechceš slyšet, dej sem jako negativní seznam; model se tomu aktivně vyhýbá. Inspirace z článku (anglicky, připravené ke kopírování):

  • Éra a kvalita: vintage 1980s production, vintage cassette quality, lo-fi recording, analog tape hiss, mp3 quality, audio compression artifacts, metallic shimmer artifacts
  • Vokál, co ti leze do skladby: high female backing vocal, soaring chorus vocal, choir aaah pad, auto-tune metal, vocaloid, operatic soprano metal (když nechceš)
  • Klišé: generic stadium rock anthem, generic rock metal final chorus, anthem rock cliche, summer pop festival rock, radio rock ballad (mimo ty styly)
  • Frekvenční peklo: high-frequency synth pad, bright synth shimmer, audio fog midrange, treble whistle

Když se něco vrátí i tak, přidej to do Exclude u dalšího pokusu — časem si postavíš vlastní filtr chutě.

První slovo stylu určuje lídra

První token promptu má v attention mechanismu největší váhu: ukotní lead nástroj i směr skladby. Příklady z článku: Piano dark ballad → piano vede; Dark piano ballad → spíš nálada, piano jako textura. Drž styl v 4–8 vědomých slovech; další seředění už ředí signál.

Hierarchie nástrojů (codec-friendly, ne „hudební lepší horší“)

Diagram: hierarchie nástrojů podle náročnosti na kodek
Pyramida „The Instrument Hierarchy“ — MasterForge.
  • Snadné: klavír, akustická kytara, jednoduché bicí, sólový vokál
  • Střed: čistá elektrická, basa, lehké synty
  • Rizikové: zkreslená kytara, sbor, smyčcová sekce
  • Těžké: celý metalový band, hutná elektronika, vrstvené vokály

Důvod: čisté harmonie a přehledné útoky se komprimují líp než konstantní nové alikvóty u distortion.

Rychlé připomínky ze série: tagy, Weirdness, seed

Tři věci, které v originálech MasterForge úzce navazují na vše výše — zde jen stručně, detailněji v průvodci Prompt jako producent.

Producer tagy tvarují strukturu, ne nástroje

Tagy jako [Bridge], [Outro], [Breakdown: piano alone] říkají, kde ve skladbě jsi a jakou má sekce hustotu. Nepřidávají samy o sobě nové nástroje ani „základní zvuk“. Dlouhé popisné tagy berou rozpočet, který by kodek mohl investovat do detailu — krátké tagy obvykle stačí.

Weirdness a Style rozhodují, jak moc model poslechne prompt

Jakmile Weirdness přesáhne zhruba 0,48 nebo Style klesne pod cca 0,68, model bez audio seedu často začne ujíždět od zadání. Na čistou baladu nemusíš šrouby tlačit; na experimentální hybrid ano — a pak seed prakticky nutně.

Audio seed je nejsilnější kormidlo

Krátký referenční klip, který nahráš, ukotní generaci esteticky víc než samotný text — včetně toho kritického: moderní heavák v modelu, který jinak táhne do konce 80. let. Chceš-li současný metalový zvuk, seed podle článku není volitelný bonus, ale páka proti gravitaci tréninkových dat.

Dva startovní recepty (z článku)

Snadná cesta — balada

  • Styl začni Piano nebo Voice and piano.
  • 4–6 slov; náladu a texturu až za lead.
  • Weirdness cca 0,28, Style cca 0,80; seed nepotřebuješ.
  • Max. 3–4 producer tagy.
  • Krátký Exclude třeba: orchestral arrangement, full band, high female backing vocal (chceš-li řídký zvuk).

Těžší cesta — heavák

  • Přijmi, že bez seedu je default často „late 80s“.
  • Kotvi současné podžánry (djent, modern progressive metal).
  • vintage, classic, old school, 80s production hoď do Exclude a pole rozšiřuj.
  • Style 0,80–0,85; Weirdness bez seedu raději ne přes 0,32.
  • Pro moderní zvuk: moderní metalový audio seed, v článku zmiňují vliv kolem 55 % (Audio Influence).
  • V aranži drž aktivní nástroje pod pět v jednom momentu.
Upřímný limit: vzácný vokál může znít hůř než nástroje kolem — není to nutně špatný prompt, ale aktuální stav technologie. Časem se to zlepší; playbook začíná už u toho, kolik zvuků do místnosti pustíš a kam slova ukazují.

Závěr (podle originálu)

Aranž rozhoduje, kolik zvuků soupeří o rozpočet kodeku. Éra, ze které model čerpá nejvíc váhy, rozhoduje, jak ten zvuk „chutná“ v čase — u metalu často k pozdním 80. letům, dokud ho aktivně neutáhneš jinam. Typ hlasu rozhoduje, jestli vůbec může znít „opravdově“ — okrajové kombinace zatím často zaostávají za nástroji.

Suno se bude zlepšovat: korpus poroste, kapacita kodeku poroste, okrajové vokály doženou běžné. Mezitím autoři měří a pracují s tím, co model dává — a benchmarkem jim zůstává první finský AI death metal, který obstojí na sluchátkách jako špičková lidská produkce. Do té doby platí pravidla z tohoto článku.

→ Anglický originál včetně interaktivních diagramů · AI Hudba: Skladatel a Textař · Prompt jako producent