The first goal of this thesis was to test the feasibility of using word embeddings to measure semantic similarity of long legal texts. The solution uses a text corpus of publicly available judgments of Polish courts collected under the SAOS project. Semantic similarity of the texts is calculated using the python implementation of Mikolov’s doc2vec (gensim). The additional goal was to make the results available to users of the SAOS portal. The list of similar judgments IDs is loaded into the SAOS infrastructure with a specially designed module to display the list of judgments most similar to the one that is currently viewed in the “Additional information” pane.
Pierwszym celem niniejszej pracy jest przetestowanie wybranych metod przetwarzania języka naturalnego i uczenia maszynowego w automatycznej ocenie podobieństwa długich tekstów z dziedziny prawa. Rozwiązanie wykorzystuje korpus publicznie dostępnych orzeczeń polskich sądów zebranych w ramach projektu SAOS. Podobieństwo semantyczne tekstów jest obliczane przy pomocy algorytmu doc2vec w pythonowej implementacji gensim. Drugim celem pracy było udostępnienie wyników użytkownikom portalu SAOS poprzez dodanie do jego struktury zewnętrznego modułu wyświetlającego listę najbardziej podobnych orzeczeń w ramce „Dodatkowe informacje”.