Hedef Derlem

Projede hedef derlem ODTÜ Türkçe Derlem’dir. Yaklaşık 2 milyon sözcük içeren ODTÜ Türkçe Derlem, metin türü, yazar gibi bilgi verici etiketler tutularak, <p> (paragraf) <list> (liste), <hi> (vurgu) gibi etiketlerden temizlenmiş ve böylece ham metin dosyaları elde edilmiştir; ayrıca karakter kodlaması da UTF-8’e çevrilmiştir. ODTÜ Türkçe Derlem, metin türleri dağılımı eşit tutularak, 4 alt-derleme ayrılmış ODTÜ-MEDİD, alt-derlem 1 üstündeki işaretlemelerden oluşmuştur. Aşağıdaki tablolarda ODTÜ Türkçe Derlem’deki metin türü dağılımını, her alt-derlemdeki metin türü dağılımını ve alt-derlemlere alınmayan metin türlerini gösterilmektedir.

ODTÜ Türkçe Derlemde metin türü dağılımı

Metin türü etiketi

Kategori Sayısı

%

Roman

123

15.63

Öykü

114

14.49

Araştırma-inceleme

49

6.23

Makale

38

4.83

Gezi

19

2.41

Söyleşi

7

0.89

Anı-Günce-Hatıra

18

2.29

Haber

419

53.24

TOPLAM

787

100.00


 

ODTÜ Türkçe Derlemin 4 alt-derlemindeki metin türü dağılımı

 

I.

 

II.

 

III.

 

IV.

 

Metin Türü

Dosya sayısı

%

Dosya Sayısı

%

Dosya Sayısı

%

Dosya Sayısı

%

Roman

31

15.74

30

15.23

31

15.82

31

15.74

Öykü

28

14.21

29

14.72

28

14.29

29

14.72

Araştır-ma-inceleme

13

6.60

12

6.09

12

6.12

12

6.09

Makale

9

4.57

10

5.08

9

4.59

10

5.08

Gezi

5

2.54

5

2.54

4

2.04

5

2.54

Söyleşi

2

1.02

2

1.02

2

1.02

1

0.51

Anı-Günce-Hatıra

4

2.03

5

2.54

5

2.55

4

2.03

Haber

105

53.30

104

52.79

105

53.57

105

53.30

Toplam

197

 

197

 

196

 

197

 

 

Alt-derlemlere alınmayan metin  dosya sayısı ve metin türleri

Köşe Yazısı

83

Deneme

76

Toplam alınmayan

159