Overfitting - prehľad, metódy detekcie a prevencie

Overfitting je pojem používaný v štatistike, ktorý odkazuje na chybu modelovania, ktorá nastane, keď funkcia príliš úzko korešponduje s konkrétnym súborom údajov. Výsledkom je, že nadmerné vybavenie nemusí vyhovovať ďalším údajom, čo môže mať vplyv na presnosť predpovedania budúcich pozorovaní.

Overfitting

Overfitting možno zistiť kontrolou metrík overenia, ako je presnosť a strata. Metriky overovania sa zvyčajne zvyšujú až do bodu, keď stagnujú alebo začnú klesať, keď je model ovplyvnený nadmerným vybavením. Počas vzostupného trendu sa model snaží dobre zapadnúť, čo po dosiahnutí spôsobí, že trend začne klesať alebo stagnovať.

Stručné zhrnutie

  • Overfitting je chyba modelovania, ktorá zavádza zaujatosť modelu, pretože príliš úzko súvisí so sadou údajov.
  • Vďaka nadmernému vybaveniu je model relevantný iba pre jeho množinu údajov a je irelevantný pre akékoľvek ďalšie množiny údajov.
  • Niektoré z metód používaných na prevenciu nadmerného vybavenia zahŕňajú zostavovanie, rozširovanie údajov, zjednodušovanie údajov a krížové overovanie.

Ako zistiť nadmerné vybavenie?

Zistenie nadmerného vybavenia je pred testovaním údajov takmer nemožné. Môže pomôcť pri riešení inherentnej charakteristiky nadmerného vybavenia, ktorou je neschopnosť zovšeobecniť súbory údajov. Údaje je preto možné rozdeliť do rôznych podmnožín, aby bolo uľahčenie ich trénovania a testovania. Údaje sú rozdelené do dvoch hlavných častí, tj. Testovacej a tréningovej sady.

Výcviková sada predstavuje väčšinu dostupných údajov (asi 80%) a trénuje model. Testovacia sada predstavuje malú časť dátovej sady (asi 20%) a slúži na testovanie presnosti údajov, s ktorými nikdy predtým neinteragovala. Segmentovaním množiny údajov môžeme preskúmať výkonnosť modelu na každej sade údajov, aby sme zistili, kedy k nej dôjde, a tiež uvidíme, ako funguje tréningový proces.

Výkon je možné merať pomocou percenta presnosti pozorovaného v obidvoch súboroch údajov a vyvodiť záver o prítomnosti nadmerného vybavenia. Ak model podáva lepšie výsledky na cvičnej súprave ako na skúšobnej súprave, znamená to, že model pravdepodobne nadmerne pracuje.

Ako zabrániť nadmernému vybaveniu?

Ďalej uvádzame niektoré zo spôsobov, ako zabrániť nadmernému vybaveniu:

1. Školenie s ďalšími údajmi

Jedným zo spôsobov, ako zabrániť nadmernému vybaveniu, je tréning s väčším počtom údajov. Takáto možnosť uľahčuje algoritmy Algoritmy (Algos) Algoritmy (Algos) sú súbory pokynov, ktoré sa zavádzajú na vykonanie úlohy. Algoritmy sa zavádzajú na automatizáciu obchodovania s cieľom generovať zisky na frekvencii, ktorú ľudský obchodník nedokáže zistiť signál. lepšie minimalizovať chyby. Keď používateľ do modelu vloží viac tréningových údajov, nebude schopný preplniť všetky vzorky a bude nútený generalizovať, aby získal výsledky.

Používatelia by mali neustále zhromažďovať viac údajov ako spôsob zvýšenia presnosti modelu. Táto metóda sa však považuje za nákladnú, a preto by používatelia mali zabezpečiť, aby použité údaje boli relevantné a čisté.

2. Rozšírenie dát

Alternatívou k tréningu s väčším počtom údajov je rozšírenie dát, ktoré je v porovnaní s prvou z nich lacnejšie. Ak nemôžete neustále zhromažďovať viac údajov, môžete vytvoriť dostupné množiny údajov rôznorodé. Vďaka rozšíreniu údajov vyzerajú ukážkové údaje pri každom spracovaní modelom mierne odlišne. Tento proces umožňuje, aby sa každá množina údajov javila pre model jedinečná, a zabraňuje mu v tom, aby sa naučila vlastnosti súborov údajov.

Ďalšou možnosťou, ktorá funguje rovnako ako zväčšenie údajov, je pridanie šumu k vstupným a výstupným údajom. Vďaka pridaniu šumu do vstupu sa model stane stabilným bez toho, aby to malo vplyv na kvalitu a súkromie údajov, zatiaľ čo pridanie šumu do výstupu spôsobí, že údaje budú rozmanitejšie. Pridávanie šumu by sa však malo robiť s mierou, aby rozsah šumu nebol taký, aby boli údaje nesprávne alebo príliš odlišné.

3. Zjednodušenie údajov

Môže dôjsť k nadmernému vybaveniu z dôvodu zložitosti modelu, takže aj pri veľkom objeme údajov dokáže model stále preplniť výcvikový súbor údajov. Metóda zjednodušenia údajov sa používa na zníženie nadmerného vybavenia znížením zložitosti modelu, aby bol dostatočne jednoduchý na to, aby nepreťažoval.

Niektoré z akcií, ktoré je možné implementovať, zahŕňajú orezanie rozhodovacieho stromu a zníženie počtu parametrov. Parameter Parameter je užitočnou súčasťou štatistickej analýzy. Vzťahuje sa na charakteristiky, ktoré sa používajú na definovanie danej populácie. Zvykne sa to v neurónovej sieti a pri výpadku v neutrálnej sieti. Zjednodušenie modelu tiež môže spôsobiť, že bude model ľahší a bude bežať rýchlejšie.

4. Zostavenie

Súbor je technika strojového učenia, ktorá funguje kombináciou predpovedí z dvoch alebo viacerých samostatných modelov. Medzi najobľúbenejšie metódy montáže patrí posilňovanie a vrecovanie. Posilnenie funguje pomocou jednoduchých základných modelov na zvýšenie ich súhrnnej zložitosti. Trénuje veľké množstvo slabých študentov usporiadaných do postupnosti tak, aby sa každý študent v poradí učil na chybách učiaceho sa pred ním.

Posilňovanie kombinuje všetkých slabých študentov v poradí, aby priniesli jedného silného študenta. Druhou metódou zoskupovania je vrecovanie, ktoré je opakom posilňovania. Pytliactvo funguje tak, že sa trénuje veľké množstvo silných študentov, ktorí sú usporiadaní paralelne a potom ich kombinujú, aby optimalizovali svoje predpovede.

Ďalšie zdroje

Finance je oficiálnym poskytovateľom globálneho certifikátu Financial Modeling & Valuation Analyst (FMVA) ™ FMVA®. Pripojte sa k viac ako 350 600 študentom, ktorí pracujú pre spoločnosti ako Amazon, JP Morgan a Ferrari, s cieľom pomôcť komukoľvek stať sa finančným analytikom na svetovej úrovni. . Pre ďalší postup vo vašej kariére budú užitočné ďalšie finančné zdroje, ktoré sú uvedené nižšie:

  • Základné štatistické koncepty vo financiách Základné štatistické koncepcie pre financie Dôkladné pochopenie štatistík je zásadne dôležité, aby nám pomohlo lepšie porozumieť financiám. Okrem toho môžu štatistické koncepty pomôcť investorom pri monitorovaní
  • Predpätie ťažby údajov Predpätie ťažby údajov Predpätie ťažby údajov sa týka predpokladu, že obchodník pripisuje dôležitosť výskytu na trhu, ktorý bol v skutočnosti výsledkom náhody alebo nepredvídania.
  • Náhodný les Náhodný les Náhodný les je technika používaná pri modelovaní predpovedí a analýzy správania a je postavená na rozhodovacích stromoch. Náhodný les obsahuje veľa rozhodovacích stromov
  • Bezpodmienečná pravdepodobnosť Bezpodmienečná pravdepodobnosť Bezpodmienečná pravdepodobnosť, známa tiež ako hraničná pravdepodobnosť, označuje pravdepodobnosť, ktorá nie je ovplyvnená predchádzajúcimi alebo budúcimi udalosťami. Inými slovami,

Posledné príspevky

$config[zx-auto] not found$config[zx-overlay] not found