Książka powstała w wyniku badań lingwistyczno-informatycznych nad automatycznym dekodowaniem relacji referencyjnych w tekstach polskich.
Autor przedstawia propozycję taksonomii relacji tego rodzaju i wykorzystuje ją w procesie budowy reprezentatywnego, ręcznie anotowanego korpusu zależności referencyjnych, który powstał na bazie tekstów Narodowego Korpusu Języka Polskiego. Dane korpusu używane są do wytrenowania kilku systemów do wykrywania wzmianek i koreferencji reprezentujących różne metodologie algorytmiczne – regułową, statystyczną, algorytm sita, głębokie sieci neuronowe – oraz integrujących bogate zasoby lingwistyczne i z zakresu wiedzy ogólnej: rozszerzenia formalnej gramatyki języka polskiego, dane słownika walencyjnego czy bazę wyrażeń omownych.
Przetestowanych zostaje kilkaset cech wzmianek do wykrywania koreferencji oraz kilka konfiguracji sieci neuronowej. Powstaje także prototypowa konfiguracja metody wykrywania relacji agregacyjnych, kompozycyjnych i predykatywnych. Formalna ewaluacja powstałych systemów wykazuje wyniki porównywalne z systemami tego typu dla innych języków.
Author(s): Maciej Ogrodniczuk
Publisher: Wydawnictwa Uniwersytetu Warszawskiego
Year: 2019
Przedmowa
Informacja o finansowaniu prac
Podziękowania
Założenia badawcze
Referencja, koreferencja, anafora, asocjacja
Motywacja
Cele badawcze
Zakres badań
Metodologia
Od ujęć teoretycznych do dekodowania relacji referencyjnych
Pojęcie i zakres referencji
Klasyfikacje typów wzmianek i relacji referencyjnych
Klemensiewicz
Topolińska
Paduczewa
Clark i inne klasyfikacje zagraniczne
Cechy relacji referencyjnych
Projekty korpusowe
Komputerowe implementacje modelu referencji
Metody ewaluacji
Miara MUC
Miara B3
Miara CEAF
Miara BLANC
Model relacji referencyjnych
Świat tekstu i własność referencji
Typy i granice wzmianek
Relacje tekstowe i pozatekstowe
Typologia referencyjna
Koreferencja
Referencja pośrednia
Relacje wspierające
Relacje wykluczające
Aspekty
Korpus zależności referencyjnych
Wybór tekstów
Wybór strategii anotacyjnej
Liczba i profil anotatorów
Anotacja szeregowa a anotacja równoległa
Preanotacja
Superanotacja automatyczna
Prace anotacyjne
Faza rozpoznawcza
Anotacja koreferencji nominalnej
Anotacja ogólnych zależności referencyjnych
Narzędzia anotacyjne
Zgodność anotatorów
Wzmianki
Klastry koreferencyjne
Pozostałe relacje
Korekta błędów
Udostępnienie korpusu
Format SemEval/CoNLL
Format MMAX
Format TEI
Format narzędzia BRAT i wersja online korpusu
Wyszukiwarka korpusowa
Statystyki korpusowe
Własności tekstów
Własności wzmianek
Statystyka relacji referencyjnych
Implementacja
Wykrywanie wzmianek
System regułowy
System statystyczny
Wykrywanie koreferencji
System regułowy
System statystyczny
System sitowy
System neuronowy
System hybrydowy
Dekodowanie relacji pośrednich i pomocniczych
Ewaluacja szczegółowa
Wykrywanie wzmianek
Wykrywanie koreferencji
Wzmianki idealne
Wzmianki systemowe
Wykrywanie wybranych zależności pośrednich i pomocniczych
Analiza błędów
Błędy wykrywania wzmianek
Błędy wykrywania koreferencji
Analiza relacji pośrednich
Perspektywy badań
W stronę koreferencji uniwersalnej
Model Penn Discourse Treebank
Anotacja metatekstowa
Podsumowanie
English summary
Bibliografia
Skorowidz
Skorowidz terminów angielskich
Wykaz powstałych narzędzi i zasobów