Razvrščanje v podatkovno rudarjenje

Razvrščanje je tehnika rudarjenja podatkov, ki kategorijam dodeli zbirko podatkov, da bi pomagali pri natančnejših napovedih in analizah. Klasifikacija se imenuje tudi včasih imenovana Tree Tree , ena izmed več metod, ki omogočajo učinkovito analizo zelo velikih podatkovnih nizov.

Zakaj razvrstitev?

Zelo velike baze podatkov postajajo norma v današnjem svetu "velikih podatkov". Predstavljajte si bazo podatkov z več terabajtov podatkov - terabyte znaša en bilijon bajtov podatkov.

Facebook samo enkrat črpa 600 terabajtov novih podatkov (od leta 2014, ko je nazadnje poročal o teh specifikacijah). Glavni izziv velikih podatkov je, kako to razumeti.

In velik obseg ni edini problem: veliki podatki prav tako kažejo raznolike, nestrukturirane in hitro spreminjajoče se. Razmislite o avdio in video podatkih, objavah družabnih omrežij, 3D-podatkih ali geoprostorskih podatkih. Te vrste podatkov ni mogoče enostavno razvrstiti ali organizirati.

Za rešitev tega izziva je bil razvit vrsto avtomatskih metod za pridobivanje uporabnih informacij, med njimi klasifikacijo .

Kako deluje razvrstitev

Ob nevarnosti, da se preveč odmaknemo v tech-govor, se pogovorimo, kako deluje klasifikacija. Cilj je ustvariti niz klasifikacijskih pravil, ki bodo odgovorili na vprašanje, odločali ali predvideli vedenje. Za začetek je razvit niz podatkov o usposabljanju, ki vsebuje določen niz atributov in verjeten izid.

Naloga klasifikacijskega algoritma je ugotoviti, kako ta niz atributov doseže svoj zaključek.

Scenarij : Morda družba za kreditne kartice poskuša določiti, katere možnosti bi morala ponuditi kreditno kartico.

To je lahko niza podatkov o usposabljanju:

Podatki o vadbi
Ime Starost Spol Letni prihodek Ponudba za kreditne kartice
John Doe 25 M 39.500 dolarjev Ne
Jane Doe 56 F 125.000 dolarjev Ja

Stolpec »napovedovalec« Starost , spol in letni dohodek določata vrednost »atributa napovedovalca« Ponudba za kreditne kartice . V sklopu usposabljanja je znacilen atribut napovedovalca. Algoritem klasifikacije nato poskuša določiti, kako je bila dosežena vrednost atributa napovedovalca: kakšne so povezave med prediktorji in odločitvijo? Razvila bo niz pravil za napovedovanje, ponavadi izjavo IF / THEN, na primer:

IF (starost> 18 AL Starost <75) IN letni dohodek> 40.000 THEN Ponudba s kreditno kartico = da

Očitno je to preprost primer, algoritem pa bi potreboval precej večje vzorčenje podatkov kot dve prikazani dokumenti. Poleg tega bodo pravila za napovedovanje verjetno precej bolj zapletena, vključno s podrejenimi pravili za zajem podrobnosti atributov.

Nato je algoritem podan "napovedani niz" podatkov, ki jih je treba analizirati, toda za ta niz ni naveden atribut napovedi (ali odločitev):

Podatki o napovednikih
Ime Starost Spol Letni prihodek Ponudba za kreditne kartice
Jack Frost 42 M 88.000 $
Mary Murray 16 F $ 0

Ti podatki napovedovalca pomagajo oceniti natančnost pravil za napovedovanje in pravila se nato spreminjajo, dokler razvijalec meni, da so napovedi učinkovite in uporabne.

Primeri klasifikacije vsak dan

Razvrščanje in druge tehnike rudarjenja podatkov zaostajajo za večino naših vsakodnevnih izkušenj kot potrošniki.

Napovedi vremena lahko uporabljajo razvrstitev, da poročajo, ali bo dan deževen, sončen ali oblačno. Zdravstveni poklic bi lahko analiziral zdravstvene pogoje za napovedovanje medicinskih izidov. Vrsta metode razvrščanja, Naive Bayesian, uporablja pogojno verjetnost, da razvršča spam e-pošto. Od odkritja goljufij do ponudbe izdelkov je vsakodnevno klasificiranje podatkov za analizo podatkov in izdelavo napovedi.