Kaj je k-pomeni grozdenje?

Podatkovno rudarjenje z algoritmom k-sredstev

Algoritem združevanja k- orodij je orodje za pridobivanje podatkov in orodje za strojno učenje, ki se uporablja za združevanje opazovanj v skupine s sorodnimi opazovanji brez predhodnega poznavanja teh razmerij. Z vzorčenjem algoritem poskuša prikazati, v katero kategorijo ali skupino pripadajo podatki, s številom gruč, ki jih definira vrednost k.

Algoritem k- sredstva je ena najpreprostejših tehnik klasteriranja in se običajno uporablja v medicinskem slikanju, biometriji in sorodnih področjih. Prednost k- pomeni združevanje je, da govori o svojih podatkih (z uporabo nenadzorovane oblike), namesto da morate navesti algoritem o podatkih na začetku (z uporabo nadzorovane oblike algoritma).

Včasih se imenuje Lloydov algoritem, zlasti v računalniških krogih, ker je standardni algoritem prvič predlagal Stuart Lloyd leta 1957. Izraz "k-sredstva" je leta 1967 skoval James McQueen.

Kako funkcije k-pomeni algoritem

Algoritem k- sredstev je evolucijski algoritem, ki svoje ime pridobi z njegovega načina delovanja. Algoritem združuje opazovanja v skupine k , kjer je k vnesen kot vhodni parameter. Vsako opazovanje nato dodeli grozdom na podlagi bližine opazovanja srednji vrednosti grozda. Sredina grozda se nato ponovno izračuna in proces se začne znova. Evo, kako deluje algoritem:

  1. Algoritem sam izbere točke k kot prvotne klaster centre (sredstva).
  2. Vsaka točka nabora podatkov je dodeljena zaprtemu grudu, ki temelji na evklidski razdalji med vsako točko in središčem klastera.
  3. Vsako središče grozda se ponovno izračuna kot povprečje točk v tej skupini.
  4. 2. in 3. korak ponavljata, dokler se ne združita grozdov. Konvergenca se lahko določi drugače, odvisno od izvedbe, vendar običajno pomeni, da bodisi nobena opazovanja ne spremenijo grozdov, ko se ponovita koraka 2 in 3 ali da spremembe ne bistveno razlikujejo v opredelitvi grozdov.

Izbira števila grozdov

Ena od glavnih pomanjkljivosti k- pomeni grozdenje je dejstvo, da morate določiti število grozdov kot vhod v algoritem. Kot je bilo načrtovano, algoritem ni zmožen določiti ustreznega števila grozdov in je odvisen od uporabnika, da ga vnaprej določi.

Na primer, če ste na primer imeli skupino ljudi, ki jih je treba združiti na podlagi binarne spolne identitete kot moški ali ženski, bi klic k- sredstva algoritem s pomočjo vhoda k = 3 prisilil ljudi v tri skupine, če sta le dva, ali vnos k = 2 bi zagotovil bolj naraven pristop.

Podobno, če je bila skupina posameznikov zlahka združena glede na matično državo in vi ste imenovali k- sredstvo algoritem z vnosom k = 20, so lahko rezultati preveč posplošeni, da bi bili učinkoviti.

Zaradi tega je pogosto dobra ideja, da preizkusite z različnimi vrednostmi k, da ugotovite vrednost, ki najbolje ustreza vašim podatkom. Prav tako boste morda želeli raziskati uporabo drugih algoritmov za iskanje podatkov v vašem iskanju strojno pridobljenega znanja.