Great amount of stored information used in connection with Machine Learning and statistical
methods enables high quality insight and analysis of data that leads to design of high preci-
sion classification systems. In the process of analysis, selection of most informative features
is crucial for later quality of the designed system. In this report we propose two implemen-
tations of Multidimensional Feature Selection algorithm that can be used in distributed
environments for detection of all-relevant variables. We have developed software using C++
and High Performance ParalleX in order to achieve best performance and portability. The
main purpose of the software is to enable researchers for genomics data analysis in search for
multiple correlations in potential sources of the diseases.
Wielka ilość zgromadzonych informacji wykorzystanych w połączeniu z uczeniem maszynowym i metodami statystycznymi umożliwia wysokiej jakości analizę i wgląd w dane, co prowadzi do projektowania systemów klasyfikujących o wielkiej precyzji. W procesie analizy wybór najbardziej istotnych cech jest kluczowy dla późniejszej jakości projektowanych systemów. W tym raporcie zaproponowane są dwie implementacje algorytmu „Multidimensional Feature Selection”, które mogą być użyte w rozproszonych środowiskach obliczeniowych do detekcji wszelce istotnych zmiennych. Oprogramowanie zostało rozwinięte z wykorzystaniem języka C++ i biblioteki „High Performance Parallex” w celu uzyskania najlepszej wydajności i przenośności rozwiązania. Głównym przeznaczeniem oprogramowania jest umożliwienie badaczom analizy danych genetycznych w poszukiwaniu złożonych zależności w potencjalnych źródłach chorób.