The Covid-19 pandemic showed how great the danger of interspecies transmission of the virus is. It was not the first case in human history. However, with scientific advances in the 21st century, still there is no effective technology to predict epidemics, although scientists are working hard to invent a way to give early warning of epidemiological danger. One of the most popular methods is the identification of clusters of viral mutations, which allows to single out areas potentially more at risk that interspecies transmission will follow a virus mutation. However the studies are not systematic and centralized, but are rather publications of independent scientific centers. Moreover, the multitude of published materials is so large that, one should consider automating the process of finding and analyzing materials.
The present work was aimed at creating a prototype of an application, that would allow precisely the systematic analysis of clusters of new occurrences of viral mutations. Scientific publications from around the world on the Coronaviridae family of viruses occurring in bats, were used as the material for analysis. In this work, a comprehensive framework for the semi-automatic data gathering and display of recent findings regarding the transmission of novel coronaviruses is proposed. This task was restricted to the bat family based on availability and popularity. The project consisted of the creation of two parts: a module using machine learning algorithms to search the Internet efficiently, select materials and extract information from the text into a pre-predicted data model; and a module responsible for visualizing clusters of new viral discoveries. These types of applications do not exist in the assumed functionalities. The closest is the Chinese application [11], which meets similar requirements for visualization; however, it completely ignores the search optimization aspect.
The work on this paper resulted in the development of BatApp, a web application for visualizing the hot spots of new virus mutations or transmissions to other species considered by way of example coronaviruses on bats. The data was previously obtained from the AI module, which performs searches by keywords, selections based on the classification of article abstracts using a trained Support Vector Machine (for test set F1> 90\% and Area Under Receiver Operator Characteristic > 95\%), and retrieves content as .pdf files and verified for redundancy. The final results partially deviate from the functional assumptions due to important facts that were not known at the conceptual stage: a definite overestimation of the number of articles on the problem and the lack of a universal API with access to scientific publications.
Pandemia Covid-19 pokazała jak duże niebezpieczeństwo niesie za sobą transmisja międzygatunkowa wirusa. Nie był to pierwszy przypadek w historii ludzkości. Jednakże wraz z postępem naukowym w XXI wieku wciąż nie istnieje skuteczna technologia do predykcji epidemii, choć naukowcy intensywnie pracują nad wynalezieniem sposobu wczesnego ostrzegania przed zagrożeniem epidemiologicznym. Jedną z najpopularniejszych metod jest określanie skupisk mutacji wirusów, które pozwalają wytypować obszary potencjalnie bardziej zagrożone, że po mutacji wirusa nastąpi transmisja międzygatunkowa. Badania nie mają, jednakże charakteru systematycznego oraz scentralizowanego, a są raczej publikacjami niezależnych ośrodków naukowych. Co więcej mnogość materiałów publikowanych jest na tyle duża, że należałoby się zastanowić nad automatyzacją procesu wyszukiwania i analizy materiałów.
Niniejsza praca miała na celu stworzenie prototypu aplikacji, która pozwalałaby właśnie na systematyczną analizę skupisk nowych wystąpień mutacji wirusowych. Za materiał, który posłużył do analizy były publikacje naukowe z całego świata dotyczące wirusów z rodziny Coronaviridae występujących u nietoperzy. Na projekt składało się stworzenie dwóch części: modułu wykorzystującego algorytmy uczenia maszynowego do skutecznego przeszukiwania Internetu, selekcji materiałów i ekstrakcji informacji z tekstu do postaci wcześniej przewidzianego modelu danych; oraz modułu odpowiedzialnego za wizualizacje skupisk odkryć nowych wirusów. W założonych funkcjonalnościach nie istnieją tego rodzaje aplikacje. Najbliżej jest chińska aplikacja [11] która spełnia podobne wymagania co do wizualizacji, jednakże zupełnie pomija aspekt optymalizacyjny wyszukiwanie.
W wyniku prac nad niniejszą pracą powstał BatApp – aplikacja webowa do wizualizacji odkryć skupisk nowych mutacji koronawirusów u nietoperzy. Dane zostały wcześniej uzyskane z modułu AI, który realizuje wyszukiwanie po słowach kluczowych, selekcje na podstawie klasyfikacji abstraktów artykułów przy użyciu wytrenowanego Maszyny Wektorów Nośnych (ang. SVM) (dla zbioru testowego F1> 90\% oraz Polem pod krzywą ROC > 95\%), oraz pobiera treści w postaci plików pdf oraz weryfikowane pod kątem redundancji. Finalne wyniki częściowo odbiegają od założeń funkcjonalnych ze względu na istotne fakty, które na etapie koncepcyjnym nie były znane: zdecydowane przeszacowanie liczby artykułów dotyczących problemu oraz brak uniwersalnego API z dostępem do wydawnictw naukowych.