KORPUS LINGVISTIKASI
Manzura Abjalova
~ 91 ~
3-Ilova. Mashhur korpuslarning lingvistik izohlanish holati
t/r
Korpus nomi
Elektron manzili
Lingvistik izohlanishi
Britan milliy korpusi
(British
National Corpus,
BNC)
http://www.natcorp.ox.ac.uk/;
http://corpus.byu.edu/bnc
XX asr oxiri – XXI asr boshlaridagi
matnlarni qamrab olgan ingliz tilidagi
og‘zaki va yozma matnlar korpusi.
So‘zshakl miqdori 100 mln. Morfologik
izohga ega.
Amerikancha
milliy
korpus
(American
National
Corpus, ANC)
http://www.anc.org/
XX asr oxiri – XXI
asr boshlariga tegishli
matnlarni qamrab olgan ingliz tilining
Amerika versiyasiga oid og‘zaki va yozma
matnlar korpusi. So‘z miqdori 22 mln.
Morfologik va qisman sintaktik izohga
ega.
Ispan
tili
korpusi
(Сorpus del español)
http://www.corpusdelespanol.org/
XIII-XX asr matnlarini o‘z ichiga oladi.
Taxminan 100 mln so‘zdan iborat. So‘z
turkumlari
teglari
va
metalingvistik
ma’lumotlar mavjud.
Zamonaviy ispan tili
korpusi
(Corpus
del
español
actual, CEA)
http://sfn.uab.es:8080/SFN/tools/
cea/english
Vikipediya matnlari va huquqiy hujjatlarga
tegishli (BMT
qarorlari va Yevropa
parlamenti hujjatlari) 540 mln.ga yaqin
lemmatizatsiyalangan hamda morfologik
izohli so‘zlarni o‘z ichiga oladi.
Italyan
tili
korpusi
(Corpus
di
Italiano
http://corpora.dslo.unibo.it
Taxminan 130 mln so‘zdan iborat bo‘lib,
zamonaviy yozma italyan matnlarini o‘z
Manzura Abjalova
~ 92 ~
Scritto)
ichiga oladi. So‘z turkumlari teglangan,
xolos.
Nemis
tili
korpusi
Cosmas II
(das Projekt COSMAS II)
http://www.ids-
mannheim.de/cosmas2/
Umumiy hajmi 8,7 milliard so‘zdan
ortiq
bo‘lgan 100 dan ortiq turli xil kichik
korpuslarni birlashtirgan Germaniya milliy
korpusining ikkinchi versiyasi. Morfologik
va sintaktik izohlarni o‘z ichiga oladi.
Fransuz tilining leksik
ma’lumotlari
bazasi
FRANTEXT
(le corpus Frantext)
http://artfl-project.uchicago.edu
Afsuski, fransuz tilining yaxshi milliy
korpusi mavjud emas.
Mazkur korpusning
umumiy hajmi 200 mln so‘zdan ortiq.
XVIII-XX asr matnlar to‘plangan, ammo
lingvistik izohlar berilmagan.
Yunon milliy korpusi
(Εθνικός
Θησαυρός
Ελληνικής Γλώσσας)
http://hnc.ilsp.gr/en
XX asrning ikkinchi yarmi va XXI asr
boshlariga oid turli janrdagi 47 milliondan
ortiq so‘zlardan iborat korpus. Lemmalar
izohi va so‘z turkumlari teglanishiga ega.
Xitoy tilining Lankaster
korpusi
(LCMC,
Lancaster
Corpus
of
Mandarin
Chinese)
www.lancaster.ac.uk/fass/projects/
corpus/ LCMC
Xitoy tilining
zamonaviy mandarin tilida
yozilgan
matnlardan
iborat
bo‘lib,
taxminan 1 mln LB mavjud. Matnlarga
meta-belgilar ko'rsatiladi, so‘z turkumi
teglari mavjud.