Ribonucleic acids (RNAs) constitute a very important class of biological macromolecules, which regulate many key cellular processes. As RNAs are also involved in the pathogenesis of many diseases, they are becoming attractive targets for the new drugs. Computational methods play a pivotal role in the early stages of drug discovery and one of the biggest challenges is a prediction of ligand’s activity, as it allows for more effective development of novel therapies. In recent years machine learning boosted many fields of science and industry and also led to the emergence of new rational drug discovery methods.
In the following work, I describe the development of fingeRNAt – a software tool for the detection of non-covalent interactions in nucleic acid-ligand complexes. Interactions are encoded in the form of Structural Interaction Fingerprints (SIFts) – one-dimensional binary vectors in which the respective bit in the fingerprint is set to “1” in case of a presence of a particular interaction between nucleic acid and ligand, and to “0” otherwise.
I present the application of SIFts together with machine learning methods for activity prediction of small molecule ligands toward six RNA targets. For the purpose of this analysis, an exhaustive database of ligands active towards selected RNA targets was created based on manual curation of literature data. I evaluated three types of SIFts, six data preprocessing methods, and 42 machine learning algorithms. The benchmark results clearly demonstrate not only the effectiveness of the proposed approach but also the advantage over ligand’s activity prediction based on molecular docking.
Kwasy rybonukleinowe (RNA) stanowią niezwykle istotną klasę biologicznych makromolekuł, regulującą wiele kluczowych procesów komórkowych. Związki te, ze względu na udział w patogenezie wielu chorób, stają się atrakcyjnymi celami dla nowych leków. Metody obliczeniowe odgrywają decydującą rolę na wczesnych etapach projektowania leków, a jednym z największych wyzwań jest przewidywanie aktywności ligandów, co umożliwia efektywniejsze badania nad nowymi terapiami. W ostatnich latach uczenie maszynowe przyniosło przełom w wielu dziedzinach nauki i przemysłu, a także doprowadziło do rozwoju nowych metod racjonalnego projektowania leków.
W niniejszej pracy przedstawiam program fingeRNAt, służący do wykrywania niekowalencyjnych oddziaływań w kompleksach kwasów nukleinowych z ligandami. Oddziaływania te są zapisywane w formie Fingerprintów Oddziaływań Strukturalnych (SIFts) – jednowymiarowych binarnych wektorów, w których każdy bit ma przypisaną wartość „1” w przypadku wykryciu określonego rodzaju oddziaływania między kwasem nukleinowym a ligandem, oraz wartość „0” w przeciwnym przypadku.
Przedstawiam zastosowania SIFts w połączeniu z metodami uczenia maszynowego do przewidywania aktywności związków drobnocząsteczkowych wobec sześciu celów RNA. Na potrzeby niniejszej analizy utworzona została baza ligandów o znanej aktywności wobec wybranych celów RNA. Sprawdziłam trzy typy SIFts, sześć metod preprocesowania danych oraz 42 algorytmy uczenia maszynowego. Wyniki przeprowadzonego porównania dowodzą nie tylko efektywności zaproponowanego w niniejszej pracy podejścia, ale także przewagę nad przewidywaniami aktywności ligandów uzyskanymi w oparciu o dokowanie molekularne.