Feature Selection & Engineering
Machine Learning edo Deep Learning-eko edozein eredu egin aurretik —zenbakizko datuak edo datu kategorikoak aurresatea dela, ikusmen artifizialeko sistemak egitea dela edo lengoaia naturalaren prozesamendua barne hartzen duten proiektuak direla—, bada aldez aurretik egin beharreko urrats bat: aldagaiak hautatzea eta eraldatzea.
Horregatik, ikastaro honen helburua da ikasleek ulertzea zer garrantzi duen prozesu horiek egiteak eta ikastea zer teknika dauden horretarako.
Nori zuzendua
Aldagaiak behar bezala hautatu eta eraldatu nahi dituzten pertsonei zuzendua, Machine Learning eta Deep Learning ereduak behar bezala aplikatzeko eta gaur egun dauden prozedurak ezagutzeko.
Baldintzak
Gomendagarria da Python programazioari buruzko ezagutzak izatea, baina ez da ezinbestekoa.
Egitaraua
Oinarrizko kontzeptuak:
- Eredua zer den.
- Ereduak baliozkotzea.
- Alborapenaren eta bariantzaren arazoa.
- Ereduen entrenamenduari buruz.
- Aldagaiak hautatzearen abantailak.
Aldagai esplikatzaileen betekizunak:
- Iragankortasuna.
- Fidagarritasuna.
- Orokortzeko gaitasuna.
- Bariantza minimoa.
- Datuaren kalitatea.
Negozioa ezagututa hautatzea aldagaiak.
Analisi grafikoak:
- BoxPlot.
- ScatterPlot.
- PairsPanels.
- Korrelazio-grafikoak
Irizpide estatistikoen araberako hautaketa:
- Korrelazioa.
- Hipotesien kontrastea.
- Khi karratuaren puntu-multzoa.
- Anova taula.
- Wilcoxon kontrastea.
- Kendal’s
- Sarrera bikoitzeko taulak.
- Mutual Information.
Biltzean oinarritutako metodoak:
- Recursive Feature Elimination (RFE).
- Aurreranzko/atzeranzko azpimultzoaren metodoa.
Ereduetan oinarritutako metodoak:
- Erregresio lineala.
- Erregresio logistikoa.
- Lasso Regresion.
- Ridge Regresion.
- Erabaki-zuhaitza.
- Random Forest.
- XGBoost.
Adibide praktikoak.
Taula-datuen eraldaketak:
- Muturreko balioen tratamendua.
- Balio galduak.
- Logaritmoak hartzea.
- Erro karratua.
- Modelaketa ez-lineala.
- Datuen normalizazioa.
- Box-Cox Transformation.
- One Hot Encoding.
- Target Encoding.
Ikusmen artifizialerako eraldaketak:
- One Hot Encoding.
- Datuen normalizazioa.
LNPrako eraldaketak:
- One Hot Encoding.
- Count Vectorizer.
- Bag of Words.
- N-Gramak
- Term Frequency-Inverse Document Frequency (TF-IDF bektorizazioa)