UE wspiera przetwarzanie języka polskiego
Skuteczność technologii przetwarzania języków w ogromnej mierze zależy od dostępności przydatnych i gotowych do użycia elektronicznych zasobów i narzędzi. Ich tworzenie dla języka polskiego i udostępnianie na zasadach open-source jest celem udziału Instytutu Podstaw Informatyki Polskiej Akademii Nauk w licznych projektach narodowych i europejskich.
Zespół Inżynierii Lingwistycznej IPI PAN od wielu lat rozwija narzędzia do komputerowego przetwarzania języka polskiego. Umożliwiają one zaawansowaną analizę tekstów w zakresie: składni zdań, wykrywania nazw własnych, odróżniania znaczeń słów wieloznacznych itp. Te własności można następnie wykorzystać w zastosowaniach naukowych i biznesowych, np. w: prezentacji nieoczywistych powiązań między tekstami, tłumaczeniu maszynowym, wyszukiwaniu wielojęzycznym czy do automatycznego podziału zbioru tekstów na kategorie tematyczne.
- Tworzenie tego typu narzędzi wymaga dostępności wiarygodnych danych o języku w postaci obszernej grupy tekstów opracowanych lingwistycznie i informatycznie. Najważniejszy taki zbiór dla polszczyzny stanowi Narodowy Korpus Języka Polskiego (www.nkjp.pl) powstały w ostatnich latach w ramach projektu koordynowanego przez IPI PAN i stanowiący przełomowy zasób dla badań nad współczesną polszczyzną oraz komputerowym przetwarzaniem języka polskiego - mówi dr hab. Adam Przepiórkowski - kierownik zespołu.
Temat udostępniania zasobów i narzędzi językowych IPI kontynuuje wraz z Uniwersytetem Łódzkim w projekcie CESAR (www.cesar-project.net), którego celem jest rozwój zbiorów własnych i stworzonych przez polskie ośrodki badawcze oraz ich udostępnianie w ramach ogólnoeuropejskiej inicjatywy META-NET. W zakresie działań projektowych, w listopadzie 2011 roku stworzono kilkanaście nowych zasobów i narzędzi dla polszczyzny. Wśród nich znalazły się: równoległe zbiory tekstów wielojęzycznych, słowniki odmiany wyrazów czy narzędzia do wykrywania nazw własnych.
- Powstałe narzędzia i zasoby znajdują praktyczne zastosowanie m.in. w projekcie ATLAS (www.atlasproject.eu) rozwijającym nowoczesny system zarządzania treścią i wyposażony w zaawansowane mechanizmy lingwistyczne - wyjaśnia dr Maciej Ogrodniczuk - opiekun projektu. - Użytkownicy mogą dzięki nim korzystać ze specjalistycznych funkcji niedostępnych w innych systemach tego typu - automatycznego streszczania i klasyfikacji tekstów, automatycznej identyfikacji nazw, osób, instytucji, liczb i dat czy tłumaczenia maszynowego - podsumowuje.
- Projekty realizowane przez IPI PAN umożliwiają rozwój wielu zaawansowanych narzędzi z dziedziny lingwistyki informatycznej dla języka polskiego, a ich udostępnienie na swobodnych zasadach pozwala na wykorzystanie technologii językowej zarówno przez inne instytucje naukowe, jak i firmy komercyjne - dodaje prof. dr hab. inż. Jacek Koronacki - dyrektor instytutu.
@RY1@i02/2012/021/i02.2012.021.127.008c.101.jpg@RY2@
@RY1@i02/2012/021/i02.2012.021.127.008c.102.jpg@RY2@
@RY1@i02/2012/021/i02.2012.021.127.008c.103.jpg@RY2@
@RY1@i02/2012/021/i02.2012.021.127.008c.104.jpg@RY2@
@RY1@i02/2012/021/i02.2012.021.127.008c.105.jpg@RY2@
Łukasz Wilczek
Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone.
Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A. Kup licencję.
Wpisz adres e-mail wybranej osoby, a my wyślemy jej bezpłatny dostęp do tego artykułu