Selekcja cech to metody doboru istotnych deskryptorów w zbiorze danych, ze względu na określone kryterium. Jest ściśle powiązana z uczeniem maszynowym nadzorowanym i posiada tam duże znaczenie praktyczne jako narzędzie optymalizacji kosztów obliczeniowych oraz minimalizacji błędu klasyfikatorów. To podejście naturalnie przykłada wagę do relacji deskryptorów i zmiennych decyzyjnych. Dziedzina all-relevant feature selection ukształtowała się z omówionych idei jako odrębny kierunek rozwoju. Metody all-relevant stanowią narzędzia wyszukiwania deskryptorów, które są w jakikolwiek informatywny sposób powiązane ze zmienną decyzyjną, nie ograniczając się tylko do kryterium optymalizacji błędu klasyfikacji. Takie podejście znajduje zastosowania jako narzędzie badawcze dla danych w eksperymentach biologicznych, gdzie zazwyczaj liczba deskryptorów w zbiorze danych wielokrotnie przewyższa liczbę dostępnych obserwacji, a problem polega na wykryciu wszystkich znaczących w danym procesie biologicznym czynników i interpretowalność wyników jest dodatkowym atutem. Przykładem metody klasy all-relevant jest filtr statystyczny Multi Dimensional Feature Selection (MDFS), ukierunkowany w szczególności na wykrywanie interakcji synergicznych między deskryptorami. Ponieważ problem interakcji pomiędzy genami jest nierozwiązany, metoda efektywnego wykrywania synergii ma duże znaczenie badawcze.
W pracy skupiono się na opracowaniu rzetelnej procedury oceny metod selekcji klasy all-relevant, ze szczególnym uwzględnieniem MDFS oraz parametru dyskretyzacji deskryptorów, która jest jednym z najistotniejszych oraz najkosztowniejszych obliczeniowo elementów algorytmu. Domyślnie dyskretyzacja opiera się na przeszukaniu określonej liczby losowych sposobów podziałów zbiorów wartości rangowanych deskryptorów, gdzie liczba podziałów jest stosunkowo mała. Teoria informacji oraz elementy statystyki matematycznej będące teoretycznymi podstawami MDFS sugerują jednak inne podejście, oparte na maksymalizacji mocy testu chi-kwadrat, poprzez podział deskryptorów na równoliczne klasy. W praktyce, w tej drugiej metodzie pojawiają się problemy niedostatecznie dobrej estymacji parametrów rozkładów hipotezy zerowej, spowodowane m. in. małą liczbą dostępnych w danym zbiorze obiektów, a w wariancie wielowymiarowym algorytmu- korelacjami między deskryptorami. Kwestię oceny sposobów dyskretyzacji należało rozwiązać eksperymentalnie. Dotychczasowe prace poświęcone testom MDFS dotyczyły sytuacji, gdzie zbiory danych nie oddawały charakterystyk tych, które są głównym obszarem zastosowań algorytmu. W pracy przygotowano metody symulacji oparte o syntetycznie zmienne decyzyjne oraz analizę sieci ważonych korelacji prawdziwego zbioru danych dot. poziomu ekspresji genów za pomocą metod WGCNA (Weighted Gene Correlation Network Analysis), powszechnie stosowanych w sieciowej analizie skupień danych omicznych. Zapewniło to zarówno interpretowalność wyników oraz odpowiedni realizm przeprowadzanych eksperymentów. Nakreślono wstępną charakterystykę słabych i mocnych stron metod selekcji, a przygotowane miary, narzędzia programistyczne oraz sposoby symulacji posłużą do dalszych badań.
Feature selection is a class of methods of finding relevant descriptiors, given a dataset and a specific optimal selection criterion. It has been closely connected to supervised machine learning and in that context it’s of great importance as a tool for both computational cost optimization and classification error minimization. That approach naturally puts emphasis on relations between descriptors and decision variable. All-relevant feature selection was formed out of these ideas as a separate entity. All-relevant methods are used to find all descriptors that are related to the decision variable in any informative way, not limiting the scope of search space to solutions that minimize classification error. It has its uses in research related to biology, where datasets typically consist of small sample sizes compared to the number of features. In that area, the problem is to find all biologically relevant factors when considering an effect of some sort, and the ability to obtain human-interpretable results is crucial. Multi Dimensional Feature Selection (MDFS) is an example of an all-relevant statistical filter designed specifically for finding synergistic interactions between variables. Describing interactions between genes is an open problem, which means that an effective method of synergy detection is an important research tool.
The focus of this thesis was to design a reliable testing procedure for selection methods, with emphasis being put on the effectivity of MDFS when different methods of discretization are used. Discretization of descriptors is one of the most crucial and compute-intensive elements of the algorithm. A default method of discretization in MDFS is based on searching for the most informative discretization in several random ways to split objects into classes, using relatively few divisions in variables’ ranges. Information theory and statistics, on which MDFS is based, suggest an alternative approach based on maximizing the power of chi-squared goodness-of-fit test by splitting the objects to equiprobable classes based on their ranks. Using the second method in practice raises some problems related to effective estimation of the null hypothesis’ distribution related to factors such as overall low count of samples or, as in the multidimensional variant of the algorithm, caused by correlations between descriptors. For that reason, discretization methods had to be evaluated by simulation. Previous work on MDFS testing on simulated data was not concerned with how closely the simulation resembles real data where MDFS is mostly used. The simulations prepared and performed in this work, however, were based on real gene expression data, synthetic decision variable and concepts of Weighted Gene Correlation Network Analysis, widely used in community detection applications to omics data. That approach assured both that the simulations would be realistic and that the results would be interpretable. An introductory characterization of weak and strong sides of feature selection methods was formulated, and the prepared measures, computational tools and simulation methods will allow for further research.