W pracy przedstawiono opracowanie i testy biblioteki języka R realizującej protokół rzetelnej budowy modeli
nadzorowanego uczenia maszynowego. Zaimplementowany protokół używa wielostopniowej walidacji krzyżowej do oceny obciążenia modelu wynikających z zastosowania wyboru zmiennych, rozrzutu wyników wynikającego z różnego składu zbioru treningowego i testowego, a także do oceny wpływu wielkości próby na jakość modelu. Protokół został przetestowany z wykorzystaniem danych udostępnionych w ramach eksperymentu „Neuroblastoma Data Integration Challenge” CAMDA 2017. Zbiory danych zawierają informację o poziomie ekspresji genów pacjentów z neuroblastomą wraz z informacją o klinicznym stanie końcowym (clinical end-point). Każdy pacjent jest opisany z użyciem ponad 60 000 zmiennych, co wymusza konieczność zastosowania metod selekcji zmiennych do budowy modelu. Dane występują jako dwa zbiory o różnej liczbie obiektów (145 i 498), przy czym zbiór mniejszy jest podzbiorem większego.
Zaimplementowana biblioteka jest ogólna, może być wykorzystana z dowolnym algorytmem uczenia nadzorowanego i algorytmu selekcji zmiennych z wykorzystaniem zaproponowanego interfejsu. W pracy przedstawiono implementację biblioteki wykorzystującą dwa algorytmy klasyfikacji (las losowy i algorytm k najbliższych sąsiadów – k-NN) oraz dwa algorytmy wyboru zmiennych (t-test wraz z procedurą LASSO, oraz MDFS – algorytm oparty na teorii informacji umożliwiający wykrycie zmiennych synergicznych).
W ramach testów zastosowano bibliotekę do zbadania wpływu krotności walidacji krzyżowej na jakość wyniku, a także do zbadania obciążenia modeli wynikających z użycia algorytmu selekcji zmiennych. Oba testy przeprowadzono dla obu zbiorów danych, co pozwoliło na oszacowanie wpływu wielkości próby na obciążenia modelu.
The thesis presents the development and tests of the R language library that implements the robust protocol for building supervised machine learning models.
The protocol uses multi-stage cross-validation to assess the model bias resulting from the use of variable selection, to estimate variance of results resulting from the different composition of the training and test set, and to assess the impact of the sample size on the model’s quality.
The protocol was tested using data provided as part of the „Neuroblastoma Data Integration Challenge” experiment – CAMDA 2017.
The data sets contain information on the gene expression level of patients with neuroblastoma together with information about the clinical end-point. Each patient is described using more than 60,000 variables, which necessitates the use of variable selection methods to build the model. The data appears as two sets with different number of objects (145 and 498), with the smaller set being a subset of the larger one.
The implemented library is general, it can be used with any supervised learning algorithm and variable selection algorithm using the proposed interface. The work presents the implementation of the library using two classification algorithms (random forest and k-NN neighbor’s k algorithm) and two variable selection algorithms (t-test together with the LASSO procedure, and MDFS – an algorithm based on the information theory enabling the detection of synergistic variables).
As part of the tests, a library was used to examine the impact of number cross-validation repeats on the quality of the result as well as to investigate the bias of models resulting from the use of the variable selection algorithm. Both tests were carried out for both data sets, which allowed to estimate the impact of the sample size on model bias.