Přeoptimalizace: proč krásný backtest často selže naživo

V kvantitativním tradingu platí nepříjemné pravidlo: čím krásnější equity křivka vyleze z optimalizace, tím víc opatrnosti si zaslouží. Hladká čára vzhůru bez drawdownů skoro nikdy neznamená, že jste našli výjimečnou strategii. Mnohem častěji znamená, že jste vytvořili strategii výjimečně přizpůsobenou jedné konkrétní minulosti — a právě jí se říká přeoptimalizovaná.

Co se doopravdy stalo: naučili jste se šum

Historická data obsahují dvě složky. Signál — vztahy, které mají důvod existovat a šanci platit i zítra. A šum — souhry okolností, které se už nikdy přesně nezopakují. Velkou část tržních pohybů tvoří šum; smyslem optimalizace je vytěžit signál a šumu si nevšímat.

Každý parametr strategie je ale knoflík, kterým jde křivku přizpůsobit datům. Pár knoflíků tvaruje hrubé rysy — a to je v pořádku. S každým dalším knoflíkem ale roste schopnost modelu obkreslit i náhodné zákruty historie: vyhnout se přesně té ztrátě z března, trefit přesně ten výkyv ze srpna. Strategie se přestává učit trh a začíná si pamatovat data. Statistika tomu říká stupně volnosti; praxe tomu říká „ono to na nových datech nefunguje".

Multiple testing: loterie s tisíci losy

Druhý mechanismus je záludnější, protože funguje i u jednoduchých strategií. Když vyzkoušíte tisíc kombinací parametrů a vyberete nejlepší, provedli jste tisíc pokusů — a mezi tisíci pokusy se skvělý výsledek najde i čirou náhodou. I kdyby všechny kombinace byly ve skutečnosti bezcenné, ta „nejlepší" bude vypadat působivě. Vybrali jste vítěze loterie a tvrdíte, že umí vyhrávat loterie.

Tomuto jevu se říká selection bias při mnohonásobném testování — a Bailey, Borwein, López de Prado a Zhu argumentují, že právě kvůli němu většina publikovaných backtestů naživo zklame. Formalizovali ho metrikou Probability of Backtest Overfitting (pravděpodobnost, že vítěz optimalizace je přeučený) a navazujícím Deflated Sharpe Ratio — Sharpe ratio „vyfouknutým" o efekt počtu pokusů. Přesná čísla nejsou podstatná pro tenhle článek; podstatný je princip: výsledek optimalizace je nutné posuzovat s ohledem na to, kolik pokusů ho vybralo.

Jak se přeoptimalizace pozná

Propast mezi in-sample a out-of-sample. Na datech, na kterých se ladilo, strategie exceluje; na neviděných datech je z ní průměr nebo ztráta. Tohle je definiční příznak — a přesně na něj cílí walk-forward analýza.
Křehké maximum. Posuňte parametr o kousek — a výsledek se rozpadne. Skutečně robustní nastavení sedí na náhorní plošině (plateau), kde i sousední hodnoty fungují slušně. Osamocený špičatý vrchol uprostřed pustiny je skoro vždy artefakt šumu.
Nestabilita napříč obdobími a trhy. Strategie, jejíž „optimální" parametry se v každém období či na každém instrumentu radikálně liší, nemá stabilní jádro.
Podezřele dokonalá equity. Reálné strategie mají ztrátová období a drawdowny. Křivka bez nich obvykle neukazuje genialitu, ale míru přizpůsobení historii.

Jak se bránit

Méně knoflíků. Každý parametr si musí své místo obhájit. Pravidlo, které nedokážete zdůvodnit ekonomicky nebo tržní mechanikou („proč by tohle mělo fungovat?"), je kandidát na vyhození.
Out-of-sample validace jako standard. Nikdy nehodnotit strategii jen na datech, na kterých se ladila. Systematicky to řeší walk-forward analýza s rolujícími okny.
Test citlivosti parametrů. Prozkoumat okolí vítězného nastavení. Hledá se plošina, ne vrchol — nastavení, které přežije posunutí každého parametru, má šanci přežít i posun trhu.
Monte Carlo simulace. Tisíce permutací výsledků (pořadí obchodů, vynechané obchody, posuny) ukážou distribuci možných výsledků místo jedné křivky — a hlavně realistický pohled na drawdowny.
Nikdy neladit podle out-of-sample. Jakmile OOS výsledek ovlivní další ladění, přestal být out-of-sample a kolo přeoptimalizace se roztáčí znovu, jen o patro výš.

Jak s tím pracujeme my

V naší platformě BXF na tenhle problém míří celý testovací řetěz: genetická optimalizace je stavěná tak, aby hledala robustní řešení, ne náhodné maximum — a každý kandidát pak musí projít walk-forwardem a Monte Carlo simulací, než se vůbec uvažuje o produkci. Krásná křivka z optimalizace u nás není výsledek. Je to vstup do dalšího kola zkoušek.

Čtení Bailey, Borwein, López de Prado, Zhu: The Probability of Backtest Overfitting · López de Prado, Bailey: The Deflated Sharpe Ratio. Navazující článek: Walk-forward analýza: proč jeden backtest nestačí.

Chcete vědět, jestli vaše strategie stojí na signálu, nebo na šumu? Kontaktujte nás →