Hedef Derlem
Projede hedef derlem ODTÜ Türkçe Derlem’dir. Yaklaşık 2 milyon sözcük içeren ODTÜ Türkçe Derlem, metin türü, yazar gibi bilgi verici etiketler tutularak, <p> (paragraf) <list> (liste), <hi> (vurgu) gibi etiketlerden temizlenmiş ve böylece ham metin dosyaları elde edilmiştir; ayrıca karakter kodlaması da UTF-8’e çevrilmiştir. ODTÜ Türkçe Derlem, metin türleri dağılımı eşit tutularak, 4 alt-derleme ayrılmış ODTÜ-MEDİD, alt-derlem 1 üstündeki işaretlemelerden oluşmuştur. Aşağıdaki tablolarda ODTÜ Türkçe Derlem’deki metin türü dağılımını, her alt-derlemdeki metin türü dağılımını ve alt-derlemlere alınmayan metin türlerini gösterilmektedir.
ODTÜ Türkçe Derlemde metin türü dağılımı |
||
Metin türü etiketi |
Kategori Sayısı |
% |
Roman |
123 |
15.63 |
Öykü |
114 |
14.49 |
Araştırma-inceleme |
49 |
6.23 |
Makale |
38 |
4.83 |
Gezi |
19 |
2.41 |
Söyleşi |
7 |
0.89 |
Anı-Günce-Hatıra |
18 |
2.29 |
Haber |
419 |
53.24 |
TOPLAM |
787 |
100.00 |
ODTÜ Türkçe Derlemin 4 alt-derlemindeki metin türü dağılımı |
||||||||
|
I. |
|
II. |
|
III. |
|
IV. |
|
Metin Türü |
Dosya sayısı |
% |
Dosya Sayısı |
% |
Dosya Sayısı |
% |
Dosya Sayısı |
% |
Roman |
31 |
15.74 |
30 |
15.23 |
31 |
15.82 |
31 |
15.74 |
Öykü |
28 |
14.21 |
29 |
14.72 |
28 |
14.29 |
29 |
14.72 |
Araştır-ma-inceleme |
13 |
6.60 |
12 |
6.09 |
12 |
6.12 |
12 |
6.09 |
Makale |
9 |
4.57 |
10 |
5.08 |
9 |
4.59 |
10 |
5.08 |
Gezi |
5 |
2.54 |
5 |
2.54 |
4 |
2.04 |
5 |
2.54 |
Söyleşi |
2 |
1.02 |
2 |
1.02 |
2 |
1.02 |
1 |
0.51 |
Anı-Günce-Hatıra |
4 |
2.03 |
5 |
2.54 |
5 |
2.55 |
4 |
2.03 |
Haber |
105 |
53.30 |
104 |
52.79 |
105 |
53.57 |
105 |
53.30 |
Toplam |
197 |
|
197 |
|
196 |
|
197 |
|
Alt-derlemlere alınmayan metin dosya sayısı ve metin türleri |
|
Köşe Yazısı |
83 |
Deneme |
76 |
Toplam alınmayan |
159 |