Dziennik Gazeta Prawana logo

UE wspiera przetwarzanie języka polskiego

26 czerwca 2018

Skuteczność technologii przetwarzania języków w ogromnej mierze zależy od dostępności przydatnych i gotowych do użycia elektronicznych zasobów i narzędzi. Ich tworzenie dla języka polskiego i udostępnianie na zasadach open-source jest celem udziału Instytutu Podstaw Informatyki Polskiej Akademii Nauk w licznych projektach narodowych i europejskich.

Zespół Inżynierii Lingwistycznej IPI PAN od wielu lat rozwija narzędzia do komputerowego przetwarzania języka polskiego. Umożliwiają one zaawansowaną analizę tekstów w zakresie: składni zdań, wykrywania nazw własnych, odróżniania znaczeń słów wieloznacznych itp. Te własności można następnie wykorzystać w zastosowaniach naukowych i biznesowych, np. w: prezentacji nieoczywistych powiązań między tekstami, tłumaczeniu maszynowym, wyszukiwaniu wielojęzycznym czy do automatycznego podziału zbioru tekstów na kategorie tematyczne.

- Tworzenie tego typu narzędzi wymaga dostępności wiarygodnych danych o języku w postaci obszernej grupy tekstów opracowanych lingwistycznie i informatycznie. Najważniejszy taki zbiór dla polszczyzny stanowi Narodowy Korpus Języka Polskiego (www.nkjp.pl) powstały w ostatnich latach w ramach projektu koordynowanego przez IPI PAN i stanowiący przełomowy zasób dla badań nad współczesną polszczyzną oraz komputerowym przetwarzaniem języka polskiego - mówi dr hab. Adam Przepiórkowski - kierownik zespołu.

Temat udostępniania zasobów i narzędzi językowych IPI kontynuuje wraz z Uniwersytetem Łódzkim w projekcie CESAR (www.cesar-project.net), którego celem jest rozwój zbiorów własnych i stworzonych przez polskie ośrodki badawcze oraz ich udostępnianie w ramach ogólnoeuropejskiej inicjatywy META-NET. W zakresie działań projektowych, w listopadzie 2011 roku stworzono kilkanaście nowych zasobów i narzędzi dla polszczyzny. Wśród nich znalazły się: równoległe zbiory tekstów wielojęzycznych, słowniki odmiany wyrazów czy narzędzia do wykrywania nazw własnych.

- Powstałe narzędzia i zasoby znajdują praktyczne zastosowanie m.in. w projekcie ATLAS (www.atlasproject.eu)  rozwijającym nowoczesny system zarządzania treścią i wyposażony w zaawansowane mechanizmy lingwistyczne - wyjaśnia dr Maciej Ogrodniczuk - opiekun projektu. - Użytkownicy mogą dzięki nim korzystać ze specjalistycznych funkcji niedostępnych w innych systemach tego typu - automatycznego streszczania i klasyfikacji tekstów, automatycznej identyfikacji nazw, osób, instytucji, liczb i dat czy tłumaczenia maszynowego - podsumowuje.

- Projekty realizowane przez IPI PAN umożliwiają rozwój wielu zaawansowanych narzędzi z dziedziny lingwistyki informatycznej dla języka polskiego, a ich udostępnienie na swobodnych zasadach pozwala na wykorzystanie technologii językowej zarówno przez inne instytucje naukowe, jak i firmy komercyjne - dodaje prof. dr hab. inż. Jacek Koronacki - dyrektor instytutu.

@RY1@i02/2012/021/i02.2012.021.127.008c.101.jpg@RY2@

@RY1@i02/2012/021/i02.2012.021.127.008c.102.jpg@RY2@

@RY1@i02/2012/021/i02.2012.021.127.008c.103.jpg@RY2@

@RY1@i02/2012/021/i02.2012.021.127.008c.104.jpg@RY2@

@RY1@i02/2012/021/i02.2012.021.127.008c.105.jpg@RY2@

Łukasz Wilczek

Dziękujemy za przeczytanie artykułu!
Źródło: Dziennik Gazeta Prawna

Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone.

Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A. Kup licencję.