Hedef Derlem
Projede hedef derlem ODTÜ Türkçe Derlem’dir. Yaklaşık 2 milyon sözcük içeren ODTÜ Türkçe Derlem, metin türü, yazar gibi bilgi verici etiketler tutularak, <p> (paragraf) <list> (liste), <hi> (vurgu) gibi etiketlerden temizlenmiş ve böylece ham metin dosyaları elde edilmiştir; ayrıca karakter kodlaması da UTF-8’e çevrilmiştir. ODTÜ Türkçe Derlem, metin türleri dağılımı eşit tutularak, 4 alt-derleme ayrılmış ODTÜ-MEDİD, alt-derlem 1 üstündeki işaretlemelerden oluşmuştur. Aşağıdaki tablolarda ODTÜ Türkçe Derlem’deki metin türü dağılımını, her alt-derlemdeki metin türü dağılımını ve alt-derlemlere alınmayan metin türlerini gösterilmektedir.
| ODTÜ Türkçe Derlemde metin türü dağılımı | ||
| Metin türü etiketi | Kategori Sayısı | % | 
| Roman | 123 | 15.63 | 
| Öykü | 114 | 14.49 | 
| Araştırma-inceleme | 49 | 6.23 | 
| Makale | 38 | 4.83 | 
| Gezi | 19 | 2.41 | 
| Söyleşi | 7 | 0.89 | 
| Anı-Günce-Hatıra | 18 | 2.29 | 
| Haber | 419 | 53.24 | 
| TOPLAM | 787 | 100.00 | 
| ODTÜ Türkçe Derlemin 4 alt-derlemindeki metin türü dağılımı | ||||||||
| 
 | I. | 
 | II. | 
 | III. | 
 | IV. | 
 | 
| Metin Türü | Dosya sayısı | % | Dosya Sayısı | % | Dosya Sayısı | % | Dosya Sayısı | % | 
| Roman | 31 | 15.74 | 30 | 15.23 | 31 | 15.82 | 31 | 15.74 | 
| Öykü | 28 | 14.21 | 29 | 14.72 | 28 | 14.29 | 29 | 14.72 | 
| Araştır-ma-inceleme | 13 | 6.60 | 12 | 6.09 | 12 | 6.12 | 12 | 6.09 | 
| Makale | 9 | 4.57 | 10 | 5.08 | 9 | 4.59 | 10 | 5.08 | 
| Gezi | 5 | 2.54 | 5 | 2.54 | 4 | 2.04 | 5 | 2.54 | 
| Söyleşi | 2 | 1.02 | 2 | 1.02 | 2 | 1.02 | 1 | 0.51 | 
| Anı-Günce-Hatıra | 4 | 2.03 | 5 | 2.54 | 5 | 2.55 | 4 | 2.03 | 
| Haber | 105 | 53.30 | 104 | 52.79 | 105 | 53.57 | 105 | 53.30 | 
| Toplam | 197 | 
 | 197 | 
 | 196 | 
 | 197 | 
 | 
| Alt-derlemlere alınmayan metin dosya sayısı ve metin türleri | |
| Köşe Yazısı | 83 | 
| Deneme | 76 | 
| Toplam alınmayan | 159 |