wyszukiwanie zaawansowane  |  jak szukać?-->

Jak powstaje korpus?

this page in english

Nasz korpus składa się z tekstów książek, czasopism, druków ulotnych i akcydensowych (np. reklam, instrukcji obsługi, regulaminów, ulotek wyborczych), stron internetowych oraz tekstów mówionych. Teksty książek staramy się pozyskiwać od wydawców w wersji elektronicznej, pytając przy tym o zgodę autorów. Współczesne teksty prasowe przegrywamy z wydań internetowych lub otrzymujemy od redakcji. Starsze teksty prasowe, rzadko wznawiane książki oraz druki ulotne skanujemy. Teksty mówione nagrywamy bezpośrednio (za zgodą mówiących) lub z radia i telewizji, po czym przepisujemy. Stosujemy w nich tradycyjną ortografię (nie alfabet fonetyczny), ale zachowujemy wszystkie powtórzenia i przejęzyczenia.
Korpus tekstów musi być odpowiednio zrównoważony gatunkowo, chronologicznie, stylowo, terytorialnie i pod innymi względami, np. ze względu na wiek i płeć autorów. To właśnie założona uprzednio struktura oraz rodzaj wyszukiwarki (Jak szukać?) różni korpusy naukowe od innych wielkich zbiorów tekstów, choćby internetowych archiwów gazet codziennych bądź ogólnych zasobów sieci. Rodzaj zrównoważenia korpusu zależy od celów, jakim korpus służy; historyk będzie korzystać z tekstów z jednej epoki, a dialektolog - z jednego miejsca. Korpus słowników ogólnych powinien gromadzić teksty z różnych dziedzin tematycznych, stylów i źródeł.
Wszystkie uzyskane teksty, mające różną objętość, włączamy do podstawowego korpusu w całości (inaczej niż w próbce internetowej). O zrównoważenie tematyczne dbamy, dobierając teksty z odpowiednich dziedzin.
W porównaniu z innymi korpusami na świecie nasz zbiór zawiera dość dużo tekstów literackich. Postanowiliśmy bowiem uwzględnić szczególnie żywą w Polsce tradycję autorytetu kulturalnego jako kryterium poprawności językowej. Pierwszy trzon naszego korpusu stanowiło kilkadziesiąt pozycji dwudziestowiecznej klasyki literackiej: prozy, dramatu, a także poezji (choć teksty poetyckie są w innych korpusach często pomijane jako nienaturalne).
Zrównoważony tematycznie i gatunkowo Korpus Języka Polskiego PWN liczy obecnie 70 milionów słów. Cały korpus, włączając archiwa prasowe i klasykę literacką od średniowiecza, zawiera 100 milionów słów.

Uniwersalny słownik języka polskiego

Uniwersalny Słownik Języka Polskiego

Największe przedsięwzięcie leksykograficzne w Polsce od ponad 30 lat! Słownik ten jest ogniwem pośrednim między 11-tomowym Słownikiem języka polskiego pod redakcją Witolda Doroszewskiego a
3-tomowym Słownikiem języka polskiego pod redakcją Mieczysława Szymczaka. Zawiera blisko 100 000 haseł i 145 000 jednostek leksykalnych.

Copyright © 1997-2010 Wydawnictwo Naukowe PWN SA
infolinia: 0 801 33 33 88