Regresija analizira odnose med spremenljivkami
Regresija je tehnika rudarjenja podatkov, ki se uporablja za napovedovanje števila numeričnih vrednosti (imenovanih tudi neprekinjene vrednosti ) glede na posamezen niz podatkov. Na primer, regresija se lahko uporablja za predvidevanje stroškov izdelka ali storitve, glede na druge spremenljivke.
Regresija se uporablja v več panogah za poslovno in marketinško načrtovanje, finančno napovedovanje, okoljsko modeliranje in analizo trendov.
Regression Vs. Razvrstitev
Regresija in klasifikacija sta tehniki rudarjenja podatkov, ki se uporabljajo za reševanje podobnih problemov, vendar so pogosto zmedeni. Oba sta uporabljena pri analizi napovedi, vendar se regresija uporablja za napoved številčne ali neprekinjene vrednosti, medtem ko klasifikacija dodeljuje podatke v diskretne kategorije.
Na primer, regresija bi se lahko uporabila za napovedovanje vrednosti doma, ki temelji na njegovi lokaciji, kvadratnih čevljih, ceni, ko je bila nazadnje prodana, cene podobnih domov in drugih dejavnikov. Razvrstitev bi bila v redu, če bi radi namesto tega organizirali hiše v kategorije, kot so pripravljenost, velikost serije ali stopnje kriminala.
Vrste regresijskih tehnik
Najpreprostejša in najstarejša oblika regresije je linearna regresija, ki se uporablja za oceno razmerja med dvema spremenljivkama. Ta tehnika uporablja matematično formulo ravne črte (y = mx + b). V preprostem smislu to preprosto pomeni, da je glede na graf z Y in osjo X razmerje med X in Y ravna črta z nekaj izliva. Na primer, lahko domnevamo, da bi se zaradi povečanja števila prebivalcev proizvodnja hrane povečala enako - to zahteva močno, linearno povezavo med dvema številkama. Če si želite to vizualizirati, upoštevajte graf, v katerem osi Y sledijo povečanju populacije, os X pa spremlja proizvodnjo hrane. Ker se vrednost Y poveča, se vrednost X poveča z enako hitrostjo, zaradi česar bo razmerje med njima ravna črta.
Napredne tehnike, kot je večkratna regresija, napovedujejo razmerje med več spremenljivkami - na primer, ali obstaja povezava med dohodkom, izobraževanjem in kdo se odloči za življenje? Dodajanje več spremenljivk znatno poveča kompleksnost napovedi. Obstaja več vrst tehnik večkratne regresije, vključno s standardnimi, hierarhičnimi, spletnimi in postopnimi postopki, vsak z lastno aplikacijo.
Na tej točki je pomembno razumeti, kaj poskušamo napovedati (odvisna ali predvidena spremenljivka) in podatke, ki jih uporabljamo za izdelavo napovedi (neodvisne spremenljivke ali napovedovalce ). V našem primeru želimo napovedati lokacijo, kjer se odloči živeti ( predvidena spremenljivka) glede na dohodek in izobrazbo (obe spremenljivki napovedovalca ).
- Standardna večkratna regresija upošteva vse spremenljivke napovedovalca hkrati. Na primer 1) kakšno je razmerje med dohodkom in izobrazbo (napovedovalci) in izbiro soseske (napovedano); in 2) v kolikšni meri vsak posamezen prediktor prispeva k temu odnosu?
- Postopno večkratna regresija odgovarja povsem drugemu vprašanju. Postopni regresijski algoritem bo analiziral, kateri napovedovalci se najbolje uporabljajo za napovedovanje izbire soseske - kar pomeni, da stopenjski model oceni vrstni red pomembnosti spremenljivk napovedovalca in nato izbere ustrezno podmnožico. Ta vrsta regresijske problematike uporablja "korake" za razvoj regresijske enačbe. Glede na to vrsto regresije se vsi napovedovalci v končni regresijski enačbi morda ne pojavijo.
- Hierarhična regresija , kot po korakih, je zaporedni proces, vendar se spremenljivke prediktorja vnašajo v model v vnaprej določenem vrstnem redu, ki je definiran vnaprej, to pomeni, da algoritem ne vsebuje vgrajenega niza enačb za določanje vrstnega reda, vnesite napovedovalce. To se najpogosteje uporablja, ko posameznik, ki ustvarja regresijsko enačbo, ima strokovno znanje o tem področju.
- Regresija Setwise je podobna postopnemu, vendar pa analizira množice spremenljivk in ne posamezne spremenljivke.