- Päätöspuut mallintavat ennusteita rekursiivisten jakojen avulla, jotka on valittu epäpuhtauksien minimoimiseksi, käyttäen mittoja, kuten Gini, entropia tai varianssi.
- Tiedonlisäys ohjaa ominaisuuden ja kynnysarvon valintaa kussakin solmussa, jolloin puut voivat käsitellä sekä regressiota että luokittelua.
- Hyperparametrit, kuten max_depth, min_samples_split ja min_information_gain, hallitsevat ylisovitusta ja puun monimutkaisuutta.
- Yksittäisten puiden mekaniikan ymmärtäminen on välttämätöntä ennen siirtymistä ensembleihin, kuten satunnaismetsiin, jotka vakauttavat ja parantavat suorituskykyä.

Päätöspuumallinnus tyhjästä on yksi silmiä avaavimmista harjoituksista, joita voit tehdä, jos haluat todella ymmärtää, miten puupohjaiset mallit ajattelevat ja miksi ne ovat niin suosittuja koneoppimisessa. Sen sijaan, että puuta käsiteltäisiin mystisenä mustana laatikkona, näet, miten kukin jako valitaan, miten epäpuhtauksia mitataan ja miten lehdillä tuotetaan numeerisia ennusteita sekä regressio- että luokitteluongelmissa.
Tässä oppaassa käymme läpi päätöspuiden taustalla olevat ydinajatukset, niiden käyttämät kustannusfunktiot, miten ne etsivät parhaita jakoja ja miten koodataan peruspuu, joka tukee sekä regressiota että luokittelua, käyttäen vain peruskäsitteitä, kuten silmukoita, ehtoja ja yksinkertaista tilastotiedettä. Matkan varrella vertaamme regressio- ja luokittelupuita, yhdistämme teorian käytännön toteutuksiin työkaluissa, kuten Python ja R (esimerkiksi rpartin ja tree:n avulla), ja sijoitamme lyhyesti päätöspuita suurempien kokonaisuuksien, kuten satunnaismetsien, sisään.
Mikä on päätöspuu ja miksi se on niin intuitiivinen?
Päätöspuu on pohjimmiltaan kyllä/ei-kysymysten (tai yksinkertaisten sääntöjen) virta, joka opastaa sinua juuripäätöksestä lopulliseen ennusteeseen lehtisolmussa. Tyypillisessä ohjatun oppimisen ympäristössä tavoitteena on ennustaa kohdemuuttuja Y käyttäen useita ennustavia tekijöitä (piirteitä, kovariaatteja), ja puu oppii sarjan kysymyksiä, kuten ”onko paino ≤ 103?” tai ”onko maa {USA, Iso-Britannia, Kanada}?”, jotka jakavat tiedot vähitellen homogeenisempiin ryhmiin.
Saadaksesi hieman intuitiota, kuvittele, että haluat ennustaa, onko joku lihava, käyttämällä vain pituutta ja painoa, ja sinulla on merkitty tietojoukko, joka kertoo, kuka on lihava ja kuka ei. Puu saattaa löytää säännön, kuten ”jos paino > 100 kg, ennusta lihavuutta”, mutta tämä sääntö ei ole täydellinen: jotkut yli 100 kg painavat eivät ole lihavia, ja jotkut alle kynnysarvon painavat ovat. Puu lisää sitten jatkuvasti lisää kysymyksiä (alajakoja), esimerkiksi pituudesta tai tarkennetusta painokynnyksestä, "hienosäätääkseen" näitä alkuperäisiä karkeita ennusteita.
Jokainen puun sisäinen solmu vastaa päätössääntöä, jokainen haara vastaa yhtä säännön lopputulosta ja jokainen lehtisolmu vastaa ominaisuusavaruuden aluetta, jossa ennusteet ovat vakioita. Luokittelussa lehti palauttaa luokkatunnisteen (tai todennäköisyysjakauman tunnisteiden yli); regressiossa lehti palauttaa tyypillisesti kyseiseen alueeseen osuvien kohdearvojen keskiarvon.
Yksi päätöspuiden tärkeimmistä vahvuuksista on, että ne käsittelevät sekä regressiota että luokittelua luonnollisesti, niitä on helppo tulkita ja ne toimivat sekä kvantitatiivisten että kvalitatiivisten (kategoristen) ennustajien kanssa ilman raskasta esikäsittelyä. Sinun ei tarvitse olettaa mitään tiettyä jakaumaa ominaisuuksillesi tai kohteellesi, mikä tekee puista erittäin houkuttelevia todellisissa tilanteissa, joissa klassisia lineaarisia oletuksia usein rikotaan.
Luokittelu vs. regressiopuut
Vaikka luokittelu- ja regressiopuiden rakenne on sama, vastemuuttujan Y luonne ja jakamisessa käytetty kustannusfunktio eroavat näiden kahden tyypin välillä. Kun Y on kvantitatiivinen (esimerkiksi myynti, elinajanodote, polttoaineenkulutus), puhumme regressiopuusta; kun Y on kvalitatiivinen tai kategorinen (esimerkiksi selvisi vs. ei selvinnyt, lihava vs. ei lihava), puhumme luokittelupuusta.
Regressiopuussa tavallisena tavoitteena on jakaa ominaisuusavaruus alueisiin, joissa vaste voidaan approksimoida vakiolla, usein kyseisen alueen havaintojen keskiarvolla. Tyypilliset päätössäännöt ovat muotoa ”onko xk ≤ c?”, jossa xk on yksi kovariaateista ja c on kynnysarvo; nämä säännöt jakavat avaruuden toistuvasti hypersuorakulmioihin, ja kaikilla saman hypersuorakulmion pisteillä on sama ennustettu arvo ŷ.
Luokittelupuussa jaot ovat edelleen muotoa ”ominaisuus ≤ kynnysarvo?” tai ”kategoria joukossa S?”, mutta jaon laatu mitataan sillä, kuinka puhtaita tuloksena olevat lapsisolmut ovat luokkatunnisteiden suhteen. Lehtiennuste on yleensä solmun sisällä oleva enemmistöluokka, ja malli pyrkii luomaan lehtiä, jotka ovat mahdollisimman lähellä vain yhden luokan sisältämistä.
Näistä kohdetyypin eroista huolimatta koodauksen näkökulmasta voit toteuttaa yhden yleisen puurakenteen ja yksinkertaisesti syöttää erilaisia epäpuhtaus- tai häviömittareita riippuen siitä, käytätkö regressiota vai luokittelua. Myöhemmin, kun laskemme informaatiovoittoa, huomaat, että luokittelun (entropiaan perustuva) ja regression (varianssiin perustuva) kaavat ovat hengeltään samansuuntaiset.
Epäpuhtaus- ja kustannusfunktiot päätöspuissa
Minkä tahansa päätöspuualgoritmin ytimessä on kustannusfunktio, joka arvioi, kuinka hyvin tietty jako erottelee datan mielekkäisiin ryhmiin. Tämä kustannusfunktio ilmaistaan epäpuhtautena: solmua pidetään puhtaana, jos kaikki sen näytteet kuuluvat samaan luokkaan (luokittelua varten) tai niillä on lähes sama numeerinen arvo (regressiota varten).
Aina kun valitset ominaisuudelle ehdokasjaon, algoritmi tarkastelee tuottamiaan lapsisolmuja ja kysyy: "kuinka sekoittuneet ovat kunkin lapsen otsikot (tai arvot)?" Hyvä jako tuottaa lapsisolmuja, jotka ovat paljon vähemmän epäpuhtaita kuin vanhempi, mikä tarkoittaa, että kunkin lapsen tiedot ovat homogeenisempia kohteeseen nähden.
Luokittelupuissa epäpuhtauksia mitataan yleensä kriteereillä, kuten Gini-indeksillä tai entropialla, jotka molemmat kuvaavat sitä, kuinka todennäköisesti satunnaisesti valittu havainto kyseisessä solmussa luokiteltaisiin väärin, jos yksinkertaisesti ennustaisimme enemmistöluokan. Regressiopuissa epäpuhtauksia mitataan yleensä neliövirheellä tai varianssilla, joka heijastaa sitä, kuinka hajallaan kohdearvot ovat solmun sisällä.
Gini-indeksi: epäpuhtauksien mittaaminen luokittelupuissa
Gini-indeksi on yksi yleisimmin käytetyistä epäpuhtausmittareista luokittelupuissa, koska se on helppo laskea ja toimii hyvin käytännössä. Käsitteellisesti se mittaa todennäköisyyttä, että solmusta satunnaisesti valittu havainto luokiteltaisiin väärin, jos sen tunniste ennustettaisiin kyseisen solmun tunnistejakauman mukaan.
Jos solmu sisältää luokkia, joiden todennäköisyydet ovat P1, P2, …, Pn, Gini-indeksi lasketaan seuraavasti: Gini = 1 − Σ (Pi)². Kun solmu on täysin puhdas (kaikki havainnot kuuluvat samaan luokkaan), yksi todennäköisyyksistä on 1 ja loput ovat 0, joten neliöiden summa on 1 ja Gini-indeksi on 0, mikä osoittaa täyden puhtauden.
Toisaalta Gini-indeksi saavuttaa maksiminsa, kun luokat sekoittuvat tasaisesti solmun sisällä, esimerkiksi binääriongelmasssa, jossa P1 = P2 = 0.5, jolloin Gini = 1 − (0.5² + 0.5²) = 0.5. Tuossa tilanteessa enemmistöluokan ennustaminen on niin huono kuin kyseiselle jakaumalle olla ja voi, koska solmu sisältää puolet kummastakin luokasta.
Kun toteutat Gini-funktion koodissa, tyypillisesti otat solmun tunnistevektorin, lasket kunkin luokan frekvenssin, muunnat frekvenssit todennäköisyyksiksi ja käytät sitten kaavaa 1 − Σ p². Jos teet tämän useille ehdokasjakautumille, voit verrata, mikä jako tuottaa lapsia, joilla on alhaisempi painotettu keskimääräinen Gini-epäpuhtaus, mikä on juuri se, mitä puu tarvitsee parhaan osion valitsemiseen.
Entropia: toinen näkemys luokitteluepäpuhtaudesta
Entropia on vaihtoehtoinen epäpuhtausmitta, jota käytetään laajalti informaatioteoriassa ja varhaisissa puualgoritmeissa, kuten ID3 ja C4.5, ja se kuvaa satunnaisuuden tai epävarmuuden määrää solmun luokkajakaumassa. Gini keskittyy luokitteluvirheen todennäköisyyteen, kun taas entropia kvantifioi "yllätyksen", joka liittyy tietyn luokan havaitsemiseen, kun jakauma on sekoitettu.
Annetut luokkatodennäköisyydet p1, …, s.c Solmun S entropia määritellään seuraavasti: E(S) = − Σ pi log₂(pi). Jos solmu on puhdas, yksi todennäköisyyksistä on 1 ja kaikki muut ovat 0, mikä tekee summasta nollan (koska log₂(1) = 0), joten entropia on 0, mikä osoittaa, ettei epävarmuutta ole.
Kun solmu sisältää tasaisen luokkien jakauman, entropia on maksimoitu; binääriongelmalle, jossa p1 = s2 = 0.5, entropia on 1 bitti, mikä on kahdelle luokalle suurin mahdollinen arvo. Tämä arvo vastaa suurinta epävarmuutta, eli solmu on niin epäpuhdas kuin se voi olla kyseisen jakauman vallitessa.
Vaikka Gini ja entropia käyttävät eri kaavoja ja niillä on erilaiset numeeriset alueet (Gini välillä 0–0.5 kahdelle luokalle, entropia välillä 0–1), molemmat mittaavat pohjimmiltaan samaa käsitettä, joten ne johtavat yleensä käytännössä hyvin samankaltaisiin puihin. Kun lasket molemmat samalla solmulla, huomaat, että korkea Gini vastaa korkeaa entropiaa ja päinvastoin, minkä vuoksi monet kirjastot antavat sinun valita jommankumman ilman, että suorituskyky muuttuu dramaattisesti.
Tiedonhankinta ja parhaiden jakojen valinta
Parhaan jaon valitsemiseksi useiden ehdokkaiden joukosta puualgoritmi käyttää mittaria nimeltä Information Gain, joka mittaa, kuinka paljon epäpuhtaudet vähenevät, kun jaamme solmun sen lapsiin. Intuitiivisesti jaolla on suuri informaatiohyöty, jos lapset ovat paljon puhtaampia kuin vanhempi, mikä tarkoittaa, että sääntö erotti tiedot onnistuneesti merkityksellisempiin ryhmiin.
Entropiaa käyttävissä luokittelupuissa jaon informaatiovoitto määritellään seuraavasti: IGluokittelu = E(vanhempi) − Σ (|Slapsi| / |Svanhempi|) · E(Slapsi). Ensin lasketaan pääsolmun entropia ja vähennetään sitten lapsisolmujen painotettu keskimääräinen entropia, jossa painot ovat niiden suhteellisia kokoja.
Regressiopuiden tapauksessa analoginen käsite käyttää epäpuhtausmittana varianssia tai keskineliövirhettä, jolloin saadaan IGregressio = Muutt(vanhempi) − Σ (|Slapsi| / |Svanhempi|) · Muutt(Slapsi). Tässä asetelmassa hyvä jako on sellainen, joka vähentää merkittävästi tavoitearvojen vaihtelua kunkin lapsen sisällä.
Puun koulutusalgoritmi arvioi tämän informaatiovoiton jokaiselle mahdolliselle kandidaattijaolle jokaisella ominaisuudella ja valitsee sitten jaon, jolla on suurin vahvistus, edellyttäen, että se ylittää tietyn vähimmäiskynnyksen, jotta vältetään hyödyttömien, pienten parannusten luominen. Tätä prosessia toistetaan sitten rekursiivisesti jokaisella lapsisolmulla, kunnes jotkin pysäytyskriteerit täyttyvät.
Kuinka etsiä paras jako kullekin ominaisuudelle
Parhaan jaon löytäminen yksittäiselle ominaisuudelle riippuu siitä, onko ominaisuus numeerinen vai kategorinen, mutta perusajatus on aina sama: luetella ehdokasosiot ja laskea niiden informaatiovoitto. Numeerisissa ominaisuuksissa osio määritellään kynnysarvolla; kategorisissa ominaisuuksissa se määritellään ryhmittelemällä tasot osajoukkoihin.
Numeerisen ennustajan tapauksessa tavanomainen strategia on tarkastella kaikkia ainutlaatuisia arvoja, jotka ominaisuus ottaa nykyisessä solmussa, lajitella ne ja sitten harkita peräkkäisten arvojen välisiä ehdokkaiden kynnysarvoja. Jokaista ehdokaskynnystä c varten luodaan kaksi ryhmää (x ≤ c ja x > c), lasketaan kunkin ryhmän epäpuhtaudet ja sitten lasketaan informaatiovahvistus; kynnys, joka tuottaa suurimman vahvistuksen, on paras numeerinen jako kyseiselle ominaisuudelle.
Kategoristen ennustajien kanssa työskentelyssä hakuavaruus on monimutkaisempi, koska periaatteessa mikä tahansa luokkien osajoukko voi muodostaa jaon toisen puolen ja komplementin toisella puolella. K-luokkaisessa ominaisuudessa on useita mahdollisia osajoukkoja (2K−1 − 1 ei-triviaali osiointi), joten käytännössä toteutukset usein rajoittavat tätä hakua tai käyttävät heuristiikkaa, varsinkin kun K on suuri.
Kun olet laskenut parhaan jakauman kullekin ominaisuudelle, vertaat niiden tiedonhyötyjä ja valitset ominaisuuden ja kynnysarvon (tai kategorian osajoukon), jotka vastaavat suurinta vahvistusta. Tästä valitusta jaosta tulee päätös nykyisessä solmussa, ja koulutusprosessi toistuu sitten jokaiselle lapselle vastaavan havaintojen osajoukon kanssa.
Puiden kasvun hallinta hyperparametreilla
Jos annat päätöspuun kasvaa ilman rajoituksia, se jatkaa jakautumista, kunnes jokainen lehti on joko täysin puhdas tai sisältää hyvin vähän havaintoja, mikä johtaa lähes aina vakavaan ylisovitukseen (ylisovitus vs. ali-sovitus). Tämän välttämiseksi asetat kokoelman hyperparametreja, jotka hallitsevat puun syvyyttä ja monimutkaisuutta.
Yleinen hyperparametri on max_depth, joka rajoittaa puun kasvavien tasojen enimmäismäärän juuresta mihin tahansa lehteen. Jos max_depth on asetettu arvoon None (tai erittäin suureksi luvuksi), puu voi kasvaa niin kauan kuin muut rajoitteet täyttyvät; jos luku on pieni, puu pysyy matalana ja helpommin tulkittavana, mutta se ei välttämättä sovi kunnolla.
Toinen keskeinen hyperparametri on min_samples_split, joka määrittää havaintojen vähimmäismäärän, jotka solmun on sisällettävä, ennen kuin se voidaan jakaa. Jos solmulla on vähemmän näytteitä kuin tämä kynnysarvo, se muuttuu lehdeksi, mikä estää mallia jahtaamasta kohinaa hyvin pienissä datajoukoissa.
Voit myös asettaa vähimmäisinformaatiovahvistuksen (min_information_gain), jolloin algoritmi suorittaa jaon vain, jos se tuottaa merkittävän parannuksen epäpuhtauksien vähenemisessä. Näin vältetään tarpeettomien haarojen syntyminen, jotka tuskin muuttavat ennusteita ja vain monimutkaistavat puun rakennetta.
Päätöspuun rakentaminen tyhjästä koodilla
Päätöspuun toteuttaminen tyhjästä perustuu yleensä pieneen joukkoon ydinfunktioita, joita kutsutaan rekursiivisesti. Vaikka kirjastot, kuten scikit-learn tai rpart, tekevät kaiken tämän salaa, näiden vaiheiden koodaaminen itse selkeyttää logiikkaa huomattavasti (ohjelmointilogiikka) ja antaa sinulle täyden hallinnan käyttäytymisestä.
Ensin tarvitset rutiinin, joka solmun nykyisen datan perusteella arvioi jokaisen ominaisuuden ja jokaisen ehdokasjakauman löytääkseen sen, jolla on suurin informaatiovoitto. Tämä funktio palauttaa valitun ominaisuuden, jakosäännön (kynnysarvon tai luokkien osajoukon), vahvistusarvon ja totuusarvon maskin tai indeksijoukot, jotka tunnistavat vasemmalle ja oikealle menevät näytteet.
Toiseksi tarvitset lehtisolmuille ennustusfunktion, joka muuntaa kyseisen solmun kohdearvojen joukon yhdeksi ennustukseksi. Regressiossa tämä on tyypillisesti y:n keskiarvo kyseisessä solmussa; luokittelussa käytetään yleensä moodia (yleisin luokka) ja mahdollisesti tallennetaan myös luokan todennäköisyydet, jos halutaan probabilistisia tuloksia.
Kolmanneksi luot rekursiivisen harjoitusfunktion, joka tarkistaa pysäytyskriteerit, etsii parhaan jaon, jos se on sallittua, ja sitten rakentaa lapsisolmut kutsumalla itseään vasemmalla ja oikealla osajoukolla. Jos otoksen vähimmäiskoon, enimmäissyvyyden tai vähimmäisvahvistuksen ehdot eivät täyty, funktio lopettaa jakamisen ja tallentaa lehtiennusteen lisähaarojen sijaan.
Miten ennustaminen toimii koulutetussa päätöspuussa
Kun puusi on koulutettu ja olet tallentanut kaikki jakosäännöt ja lehtiennusteet, uuden havainnon ennusteen tekeminen on yksinkertaisesti puuta pitkin kulkemista juuresta lehteen. Jokaisessa sisäisessä solmussa tarkastetaan vaadittu ominaisuus ja testataan, täyttääkö havainto solmun ehdon.
Jos jako-sääntö on numeerinen, tarkistat, onko ominaisuuden arvo pienempi vai yhtä suuri kuin kynnysarvo; jos jako-sääntö on kategorinen, tarkistat, kuuluuko kategoria tiettyyn osajoukkoon. Tuloksesta riippuen seuraat sopivaa haaraa (esimerkiksi "kyllä" vasemmalle, "ei" oikealle) ja toistat tämän prosessin seuraavassa solmussa.
Jatkat puuta alaspäin, kunnes saavutat solmun, jolla ei ole lapsia. Solmu on lehti, joka tallentaa vakion lähtöarvon tai luokan tunnisteen. Regressiopuussa ennuste on luku, kuten arvioitu elinajanodote tai polttoainetehokkuus; luokittelupuussa tulosteena on ennustettu kategoria, kuten ”selviytyi” tai ”ei selvinnyt”.
Jos testaat tätä lähestymistapaa samoilla aineistoilla, joita käytit koulutukseen, näet usein melko korkean luokittelutarkkuuden (esimerkiksi noin 85 % joissakin yksinkertaisissa obesiteetti- tai Titanic-tyyppisissä esimerkeissä), mutta suorituskyky saattaa laskea näkymättömissä aineistoissa, jos sukupuusi on liian syvä. Juuri tästä syystä puiden syvyyden ja koon hallinta on niin tärkeää, ja miksi satunnaismetsien kaltaiset kokonaisuudet keksittiin puiden ennusteiden vakauttamiseksi.
Regressiopuiden kanssa työskentely käytännössä
Regressiopuut ovat erityisen käteviä silloin, kun ennustajien ja vasteen välinen suhde on vahvasti epälineaarinen ja sisältää vuorovaikutuksia, joita on vaikea mallintaa klassisella lineaarisella regressiolla. Sen sijaan, että puu yrittäisi sovittaa yhtä globaalia yhtälöä, se osittaa ominaisuusavaruuden alueisiin ja sovittaa yksinkertaisen vakiomallin kunkin alueen sisälle.
R:ssä suositut paketit, kuten rpart ja tree, helpottavat regressiopuiden rakentamista yhdellä funktiokutsulla, joka määrittää kaavan, kuten y ~ x1 + x2 + … + x11. Näihin paketteihin vaikutti Breimanin ja kollegoiden kuvaama alkuperäinen CART-metodologia, ja ne toteuttavat monia nykyaikaisen puupohjaisen mallinnuksen vakiomuotoisia jakamis- ja karsintaideoita.
Voit esimerkiksi käyttää rpart-pakettia mallintaaksesi vasteen y yhdentoista kovariantin x1 - x11 perusteella, puhdistaaksesi datasta puuttuvat arvot ja visualisoida sitten tuloksena olevan puun apufunktioilla, kuten rpart.plot-paketin prp:llä. Päätesolmut näyttävät kunkin alueen ennustetun y-arvon, jota voit käyttää suoraan uusiin havaintoihin.
Kun käytössä on opetettu regressiopuu, voit syöttää ennustusfunktioon uusia kovariaattiarvoja, kuten x9 = 70, x2 = 100 tai x9 = 60, x2 = 150, jolloin saat arvioidut arvot ŷ (esimerkiksi noin 20 tai 28 polttoaineenkulutusesimerkissä). Näiden ennusteiden vertaaminen havaittuihin arvoihin, esimerkiksi y:n ja ŷ:n välisen korrelaation kautta, antaa nopean käsityksen siitä, kuinka hyvin puu tallentaa taustalla olevan kuvion, vaikka tietojoukko olisi melko pieni.
Yksittäisistä puista satunnaisiin metsiin
Yksittäinen päätöspuu on tehokas, mutta myös tunnetusti herkkä harjoitusdatan erityispiirteille, mikä voi johtaa suureen varianssiin (harha ja varianssi) ja ylisovitus. Tämän lieventämiseksi satunnaismetsät rakentavat useita puita datan bootstrapped-näytteistä ja yhdistävät ennusteensa, jolloin saadaan vakaampi ja yleensä tarkempi malli.
Satunnaismetsässä jokainen puu koulutetaan bootstrap-näytteellä, mikä tarkoittaa, että alkuperäisestä harjoitusjoukosta otetaan uusi, saman kokoinen tietojoukko korvaavalla otoksella. Tämä otantaprosessi saa jokaisen puun näkemään hieman erilaisen tietojoukon, joten niiden virheet korreloivat vähemmän ja voivat kumota toisensa aggregoitaessa.
Lisäksi satunnaismetsät tuovat satunnaisuutta ominaisuuksien valintaprosessiin ottamalla huomioon vain satunnaisen ennustajien osajoukon kussakin jaossa kaikkien ennustajien sijaan. Tämä vähentää entisestään puiden välistä korrelaatiota, lisää metsän monimuotoisuutta ja pyrkii vähentämään varianssia lisäämättä liikaa harhaa.
Bootstrap-otoksen ja ennusteiden yhdistämisen yhdistelmää kutsutaan pussitykseksi, ja satunnaismetsissä saadaan myös sisäinen arvio mallivirheestä arvioimalla kutakin puuta niiden datapisteiden perusteella, joita ei sisällytetty sen bootstrap-otokseen (ns. out-of-bag-havainnot). Tämä pussin ulkopuolinen virhe tarjoaa kätevän tavan arvioida suorituskykyä ilman erillistä validointisarjaa.
Vaikka tämä artikkeli keskittyy yksittäisen puun rakentamiseen tyhjästä, tämän peruskomponentin toiminnan ymmärtäminen helpottaa huomattavasti sen ymmärtämistä, miten satunnaismetsien, gradientin tehostamisen ja muiden puupohjaisten menetelmien kaltaiset kokonaisuudet perustuvat samoille periaatteille saavuttaakseen huippuluokan tuloksia monissa sovelletuissa ongelmissa.
Kaiken yhteen kohdistettu päätöspuuregressio alusta alkaen osoittaa, kuinka yksinkertainen joukko sääntöjä, kustannusfunktioita ja rekursiivisia jakoja voi mallintaa monimutkaisia suhteita, olipa kyseessä sitten binäärisen lopputuloksen, kuten eloonjäämisen, kategorisen tunnisteen, kuten lihavuustilan, tai numeerisen tavoitteen, kuten elinajanodotteen tai polttoaineenkulutuksen, ennustaminen. Tästä syvällisestä ymmärryksestä tulee vankka perusta edistyneempien puupohjaisten tekniikoiden käytölle käytännössä.