Definiranje statističnega modela regresije

Regresija analizira odnose med spremenljivkami

Regresija je tehnika rudarjenja podatkov, ki se uporablja za napovedovanje števila numeričnih vrednosti (imenovanih tudi neprekinjene vrednosti ) glede na posamezen niz podatkov. Na primer, regresija se lahko uporablja za predvidevanje stroškov izdelka ali storitve, glede na druge spremenljivke.

Regresija se uporablja v več panogah za poslovno in marketinško načrtovanje, finančno napovedovanje, okoljsko modeliranje in analizo trendov.

Regression Vs. Razvrstitev

Regresija in klasifikacija sta tehniki rudarjenja podatkov, ki se uporabljajo za reševanje podobnih problemov, vendar so pogosto zmedeni. Oba sta uporabljena pri analizi napovedi, vendar se regresija uporablja za napoved številčne ali neprekinjene vrednosti, medtem ko klasifikacija dodeljuje podatke v diskretne kategorije.

Na primer, regresija bi se lahko uporabila za napovedovanje vrednosti doma, ki temelji na njegovi lokaciji, kvadratnih čevljih, ceni, ko je bila nazadnje prodana, cene podobnih domov in drugih dejavnikov. Razvrstitev bi bila v redu, če bi radi namesto tega organizirali hiše v kategorije, kot so pripravljenost, velikost serije ali stopnje kriminala.

Vrste regresijskih tehnik

Najpreprostejša in najstarejša oblika regresije je linearna regresija, ki se uporablja za oceno razmerja med dvema spremenljivkama. Ta tehnika uporablja matematično formulo ravne črte (y = mx + b). V preprostem smislu to preprosto pomeni, da je glede na graf z Y in osjo X razmerje med X in Y ravna črta z nekaj izliva. Na primer, lahko domnevamo, da bi se zaradi povečanja števila prebivalcev proizvodnja hrane povečala enako - to zahteva močno, linearno povezavo med dvema številkama. Če si želite to vizualizirati, upoštevajte graf, v katerem osi Y sledijo povečanju populacije, os X pa spremlja proizvodnjo hrane. Ker se vrednost Y poveča, se vrednost X poveča z enako hitrostjo, zaradi česar bo razmerje med njima ravna črta.

Napredne tehnike, kot je večkratna regresija, napovedujejo razmerje med več spremenljivkami - na primer, ali obstaja povezava med dohodkom, izobraževanjem in kdo se odloči za življenje? Dodajanje več spremenljivk znatno poveča kompleksnost napovedi. Obstaja več vrst tehnik večkratne regresije, vključno s standardnimi, hierarhičnimi, spletnimi in postopnimi postopki, vsak z lastno aplikacijo.

Na tej točki je pomembno razumeti, kaj poskušamo napovedati (odvisna ali predvidena spremenljivka) in podatke, ki jih uporabljamo za izdelavo napovedi (neodvisne spremenljivke ali napovedovalce ). V našem primeru želimo napovedati lokacijo, kjer se odloči živeti ( predvidena spremenljivka) glede na dohodek in izobrazbo (obe spremenljivki napovedovalca ).