Նորմալացումը օգտակար է երբ ձեր տվյալները ունեն տարբեր մասշտաբներ, և ձեր օգտագործած ալգորիթմը ենթադրություններ չի անում ձեր տվյալների բաշխման վերաբերյալ, ինչպիսիք են k-մոտ հարևանները և արհեստական նյարդերը ցանցեր։ Ստանդարտացումը ենթադրում է, որ ձեր տվյալները ունեն Գաուսի (զանգի կորի) բաշխում։
Ե՞րբ պետք է նորմալացնենք տվյալները:
Տվյալները պետք է նորմալացվեն կամ ստանդարտացվեն, որպեսզի բոլոր փոփոխականները համաչափ լինեն միմյանց հետ: Օրինակ, եթե մի փոփոխականը 100 անգամ մեծ է մյուսից (միջին հաշվով), ապա ձեր մոդելը կարող է ավելի լավ վարվել, եթե նորմալացնեք/ստանդարտացնեք երկու փոփոխականները մոտավորապես համարժեք:
Ո՞րն է տարբերությունը նորմալացման և ստանդարտացման միջև:
Նորմալացումը սովորաբար նշանակում է արժեքների վերագնահատում [0, 1] միջակայքում: Ստանդարտացումը սովորաբար նշանակում է տվյալների վերագնահատում, որպեսզի ունենան միջին 0 և ստանդարտ շեղում 1 (միավոր շեղում):
Ե՞րբ և ինչո՞ւ է մեզ անհրաժեշտ տվյալների նորմալացում:
Ավելի պարզ լեզվով ասած, նորմալացումը ապահովում է, որ ձեր բոլոր տվյալները բոլոր գրառումներում նույն ձևով նայվեն և կարդացվեն: Նորմալացումը կստանդարտացնի դաշտերը՝ ներառյալ ընկերությունների անունները, կոնտակտների անունները, URL-ները, հասցեների տվյալները (փողոցներ, նահանգներ և քաղաքներ), հեռախոսահամարները և աշխատանքի անվանումները:
Ինչպե՞ս եք ընտրում նորմալացումն ու ստանդարտացումը:
Բիզնեսի աշխարհում «նորմալացումը» սովորաբար նշանակում է, որ արժեքների միջակայքը«նորմալացված է 0.0-ից -ից մինչև 1.0»: «Ստանդարտացում» սովորաբար նշանակում է, որ արժեքների տիրույթը «ստանդարտացված» է՝ չափելու համար, թե որքան ստանդարտ շեղումներ է այդ արժեքը միջինից: