Techniki przetwarzania języka naturalnego (NLP), wykorzystujące duże modele językowe (LLM), rozwijane są obecnie w bardzo szybkim tempie. Tworzone są także dedykowane rozwiązania dziedzinowe, do zastosowań zawierających język specjalistyczny. Celem niniejszej pracy jest sprawdzenie możliwości wykorzystania modeli z rodziny BERT do analizy i przetwarzania tekstów prawniczych w języku polskim. Przygotowano zbiór treningowy, składający się z ponad 400 tysięcy orzeczeń polskich sądów różnych instancji. Następnie wytrenowano model językowy BERT dla polskiego języka prawniczego. Porównano trzy różne rozwiązania – wykorzystanie ogólnego modelu, pre-trening od zera i dalszy pre-trening na korpusie dziedzinowym. Dokonano fine-tuningu oraz walidacji modeli dla zadania klasyfikacji niedozwolonych klauzul w umowach konsumenckich. Przeprowadzone prace i uzyskane wyniki stanowią ważny krok w tworzeniu rozwiązań dla prawniczej sztucznej inteligencji.
Natural Language Processing (NLP) techniques leveraging Large Language Models (LLMs) are currently advancing at a rapid pace. Specialized solutions are also being developed for applications involving domain-specific languages. The aim of this study is to examine the possibilities of utilizing models from the BERT family for the analysis and processing of polish legal texts. A training dataset was prepared, consisting of over 400,000 judgments from various instances of Polish courts. Subsequently, a BERT language model for the Polish legal language was trained. Three different approaches were compared – using a general model, pre-training from scratch, and further pre-training on a domain-specific corpus. Fine-tuning and validation of the models were conducted for the task of classifying unfair clauses in consumer contracts. The conducted work and the obtained results represent a significant step in the development of solutions for legal artificial intelligence.