STRESZCZENIE

Przedmiotem niniejszej pracy jest przedstawienie konwolucyjnych sieci neuronowych jako metody przetwarzania języka naturalnego (NLP) w obszarze języka prawniczego. Omówione są również rosnące zapotrzebowanie i potencjał zastosowań NLP, a także ograniczenia i wyzwania towarzyszące wdrażaniu rozwiązań NLP w różnych dziedzinach życia. Praca przybliża też koncepcję budowy sieci neuronowych, zasadę działania konwolucji oraz metodę zastosowania tych metod w przetwarzaniu języka naturalnego.

Na przykładzie wyników eksperymentu, którego celem było zastosowanie sztucznej inteligencji do wstępnej analizy wzorców umownych stosowanych przez przedsiębiorców w kontaktach z konsumentami pod kątem postanowień niedozwolonych, przeprowadzona jest analiza skuteczności użycia konwolucyjnej sieci neuronowej (CNN) w modelu klasyfikacyjnym do wykrywania klauzul abuzywnych. Ponadto, porównane zostały także różne warianty macierzy zanurzeń oraz ich wpływ na pracę modelu.

Dane wykorzystane do trenowania i testowania badanego modelu pochodzą z platformy konkursowej GovTech z roku 2021, które dodatkowo wzbogacono danymi z rejestru Urzędu Ochrony Konkurencji i Konsumenta.

W pracy porównano użycie różnych word embeddingów i ich wpływ na jakość predykcji w klasyfikatorze binarnym, wykrywającym klauzule abuzywne. Ponadto, przeanalizowano zdolność konwolucyjnych sieci do skutecznej klasyfikacji danych tekstowych w obszarze NLP.

Otrzymane wyniki wskazują na spory potencjał zastosowań CNN w obszarze przetwarzania języka naturalnego.

The subject of this thesis is to present convolutional neural networks as a method of natural language processing (NLP) in the field of legal language. It also discusses the growing demand and potential of NLP applications, as well as the limitations and challenges accompanying the implementation of NLP solutions in various aspects of life. The paper also introduces the concept of building neural networks, the principle of convolution and the method of applying these methods to natural language processing.

Using as an example the results of an experiment aimed at applying artificial intelligence to the preliminary analysis of contractual patterns used by businesses in their dealings with consumers for prohibited provisions, an analysis of the effectiveness of using a convolutional neural network (CNN) in a classification model to detect abusive clauses is carried out. In addition, different variants of the immersion matrix and their impact on the model’s performance are also compared.

The data used to train and test the model under study came from the 2021 GovTech competition platform, which was further enriched with data from the register of the Office of Competition and Consumer Protection.

The paper compares the use of different word embeddings and their impact on the quality of prediction in a binary classifier that detects abusive clauses. In addition, the ability of convolutional networks to effectively classify text data in the NLP domain was analyzed.

The results obtained indicate considerable potential for CNN applications in the area of natural language processing.