STRESZCZENIE

The present thesis is centred around the original dataset of unfair contract terms, constructed in the course of the thesis and based on the Polish Unfair Contract Terms Register maintained by the Polish Office of Competition and Consumer Protection. The dataset was labelled according to the 24 unfairness categories from the Polish Civil Code, and directly mirrors the categories attributed to clauses by the Office. The main experimentation task of the thesis is defined as a single label multi-class classification task, and consists in applying a comprehensive set of Machine Learning classes of methods in a series of 35 classifier tests focused on the use and comparison of 5 groups of methods: traditional, supervised Machine Learning (in SVM tests); Artificial Neural Networks and Deep Learning (in LSTM tests); ensemble classifiers (in combined SVM and representation learning tests); Representation Learning (in Skip-Gram and CBOW, and GloVe for Polish and English sentence- and word-level tests), and Transformer methods (in BERT tests). The selection of methods and the definition of the task were performed based on a linguistic and dataset analysis carried out in order to discover and explore legal language and dataset characteristics in terms of complex linguistic composition of the unfair clauses seen as an instance of legal texts, and as a domain-specific dataset with intrinsic severe class imbalance and absolute rarity classes.

The approach proposed in the thesis is an interdisciplinary, end-to-end approach to domain datasets, setting the work in domain context of legal technology, applying legal and linguistic domain knowledge to text analysis, data studies to dataset discovery, and Machine Learning knowledge and skills to benefit from its practical dimension of analysis and application in domain-specific automation tasks. The analyses, research and experiments performed both confirm the validity of the proposed approach, and thanks to their comparative quality and the extent of this comparison provide novel findings in multiple areas, including but not limited to: dataset class detectability and class coverage across multiple classifiers, semantic patterns in the dataset, representation of meaning and language representation in the dataset, class composition, classification methods and their optimisations to be applied to this dataset, metric choices and their interpretation, dataset-related model performance limits, and possible future efforts in dataset augmentation. The thesis emphasises the relevance of human-in-the-loop approaches in domain dataset construction, analysis and automation tasks, providing both the novel dataset and wide set of applicable findings as its outcome.

Praca powstała w oparciu o autorski zbiór danych utworzony na podstawie polskiego Rejestru Klauzul Niedozwolonych. Zbiór danych został oznakowany 24 kategoriami klauzul z polskiego Kodeksu Cywilnego, a etykietowanie to jest w pełni zgodne z kategorią klauzuli przypisaną danej klauzuli przez UOKiK. Główne zadanie w części eksperymentalnej zostało zdefiniowane jako jednoetykietowa klasyfikacja wieloklasowa oraz polegało na przeprowadzaniu 35 testów klasyfikatorów reprezentujących 5 głównych klas metod uczenia maszynowego. Metody uczenia ze wzmocnieniem zostały przetestowane przy pomocy maszyn wektorów nośnych, metody z grupy sztucznych sieci neuronowych oraz uczenia głębokiego przetestowano przy pomocy sieci LSTM, metody zagregowane przy pomocy łączonych testów maszyn wektorów nośnych oraz uczenia reprezentacji, metody uczenia reprezentacji – przy pomocy algorytmów Skip-Gram, CBOW oraz GloVe dla polskich oraz angielskich osadzeń dla słów oraz zdań, a metody typu Transformer – przy pomocy modeli BERT. Zarówno wybór metod oraz definicja zadania eksperymentalnego zostały przeprowadzone w oparciu o analizę z zakresu juryslingwistyki oraz analizę zbioru danych, których celem było poznanie oraz eksploracja języka prawniczego oraz charakterystyki zbioru w kategoriach złożoności językowej klauzul niedozwolonych jako przykładu tekstu prawniczego, oraz charakterystyki dziedzinowego zbioru danych jako zbioru niezrównoważonego, z inherentną znaczną nierównowagą klas oraz obecnością klas o krytycznie niskiej liczbie przykładów.

Podejście do zbiorów dziedzinowych proponowane w pracy jest podejściem interdyscyplinarnym i wielowymiarowym, na które składa się wiedza z zakresu lingwistyki i prawa stosowana do analizy tekstu dziedzinowego, nauka o danych stosowana do analizy zbiorów danych, wiedza i umiejętności z zakresu uczenia maszynowego wykorzystywane w praktycznych zadaniach automatyzacji, oraz umieszczenie podjętych działań w kontekście technologii dziedzinowej, czyli technologii prawniczej. Przeprowadzone analizy, badania i eksperymenty potwierdzają wartość proponowanego zintegrowanego podejścia, a dzięki zakresowi szerokiego działania porównawczego przynoszą cenne wnioski i obserwacje w wielu obszarach, w tym m.in. w zakresie wykrywalności poszczególnych klas w badanym zbiorze, wzorców semantycznych obecnych w zbiorze, reprezentacji znaczenia i języka, kompozycji klas, metod klasyfikacji oraz metod optymalizacji dla tego zbioru, selekcji miar oraz ich interpretacji, wynikających z charakterystyki zbioru ograniczeń w wynikach modeli, oraz ewentualnej augmentacji zbioru. Praca kładzie nacisk na wartość zaprezentowanych podejść z udziałem człowieka w konstruowaniu, analizie oraz wykonywaniu zadań automatyzacyjnych na dziedzinowych zbiorach danych, których efektem było nie tylko utworzenie nowatorskiego zbioru danych, ale również osiągnięcie stosowalnych w praktyce wniosków z wielu zakresów problemowych poruszonych w pracy.