Celem pracy jest zademonstrowanie wykorzystania sztucznej inteligencji/uczenia maszynowego oraz innych metod analizy danych do wykrywania sekwencji wirusa HPV w danych genomicznych.
Klasyfikator taksonomiczny oparty na CNN osiągnął zarówno dla treningu, jak i dla walidacji dokładność ponad 80%. W czasie testowania okazało się, że CNN rozpoznawała głównie długość sekwencji, a nie jej cechy charakterystyczne, klasyfikując dłuższe sekwencje jako sekwencje niewirusowe i krótsze sekwencje jako sekwencje wirusowe. Użyto różnych technik, tj. uczenia jedynie na sekwencjach wirusowych, a następnie testowania modelu na danych meta genomicznych, różnych modeli paddingu, różnych architektur sieci i różnych danych wejściowych, aby wyeliminować ten problem. Stosunkowo wydajna okazała się metoda analizy danych oparta na indeksie Jaccarda/Tversky’ego.
This work aims to demonstrate the use of artificial intelligence/machine learning and other data analysis methods to detect HPV genetic sequences in metagenomic data.
The CNN-based taxonomic classifier achieved an accuracy of over 80% for both training and validation. During testing, it turned out that the CNN recognized mainly sequence length rather than its characteristic features, classifying longer sequences as non-viral sequences and shorter sequences as viral sequences. Various techniques were used to overcome this problem, i.e. training on viral sequences and then testing the model on metagenomic data, different padding models, different network architectures and different input data. The data analysis method based on the Jaccard/Tversky index turned out to be relatively efficient.