Արդյո՞ք մենք պետք է նորմալացնենք տվյալները մինչև կլաստերավորումը:

Արդյո՞ք մենք պետք է նորմալացնենք տվյալները մինչև կլաստերավորումը:
Արդյո՞ք մենք պետք է նորմալացնենք տվյալները մինչև կլաստերավորումը:
Anonim

Նորմալացումը օգտագործվում է ավելորդ տվյալների վերացման համար և ապահովում է լավ որակի կլաստերների ստեղծումը, որոնք կարող են բարելավել կլաստերավորման ալգորիթմների արդյունավետությունը: Այսպիսով, այն դառնում է էական քայլ նախքան էվկլիդեսյան հեռավորությունը խմբավորումը: շատ զգայուն է տարբերությունների փոփոխությունների նկատմամբ[3]։

Արդյո՞ք մեզ անհրաժեշտ է նորմալացնել տվյալները K-means կլաստերի համար:

Ինչպես k-NN մեթոդում, կլաստերավորման համար օգտագործվող բնութագրերը պետք է չափվեն համադրելի միավորներով: Այս դեպքում միավորները խնդիր չեն, քանի որ բոլոր 6 բնութագրերն արտահայտված են 5 բալանոց սանդղակով: Նորմալացում կամ ստանդարտացում անհրաժեշտ չէ:

Ինչպե՞ս եք պատրաստում տվյալները մինչև կլաստերավորումը:

Տվյալների պատրաստում

Կլաստերային վերլուծություն R-ում կատարելու համար, ընդհանուր առմամբ, տվյալները պետք է պատրաստվեն հետևյալ կերպ. տողերը դիտարկումներ են (անհատներ), իսկ սյունակները՝ փոփոխականներ: Տվյալների մեջ բացակայող ցանկացած արժեք պետք է հեռացվի կամ գնահատվի: Տվյալները պետք է ստանդարտացված լինեն (այսինքն՝ մասշտաբավորված), որպեսզի փոփոխականները համեմատելի լինեն:

Արդյո՞ք տվյալները պետք է մասշտաբավորվեն կլաստերավորման համար:

Կլաստերավորման ժամանակ դուք հաշվարկում եք նմանությունը երկու օրինակների միջև՝ համակցելով այդ օրինակների բոլոր հատկանիշի տվյալները՝ թվային արժեքի մեջ: Առանձնահատկությունների տվյալների համադրումը պահանջում է, որ տվյալները ունենան նույն մասշտաբը:

Ինչու է կարևոր նորմալացնել առանձնահատկությունները մինչև կլաստերավորումը:

Ստանդարտացումը Տվյալների կարևոր քայլն էնախնական մշակում։

Ինչպես բացատրվեց այս հոդվածում, k-միջինը նվազագույնի է հասցնում սխալի ֆունկցիան՝ օգտագործելով Նյուտոնի ալգորիթմը, այսինքն՝ գրադիենտի վրա հիմնված օպտիմալացման ալգորիթմը։ Տվյալների նորմալացումը բարելավում է նման ալգորիթմների կոնվերգենցիան:

Խորհուրդ ենք տալիս: