Osmanlıca’da Doğal Dil İşleme: Fırsatlar ve Dezavantajlar

Ahmet Yusuf Yüksek
22 Tem 2022
3 dakikada okunur

Ahmet Yusuf Yüksek

New York Üniversitesi

Doktor Adayı

Doğal Dil İşleme (Natural Language Processing), konuşma tanımlamadan (speech recognition) makine çevirisine değin pek çok alanda etkisini ve popülerliğini günden güne arttırmaktadır. Başta dilbilimciler olmak üzere beşeri bilimciler ve araştırmacılar konu modelleme (topic modelling), metin madenciliği, duygu analizi, vb. gibi farklı amaçlar ve büyük ölçekli metin analizi için çeşitli bilgisayar teknolojilerinden faydalanıyorlar. Özellikle NLP yöntemlerindeki gelişmelerle birlikte, büyük ölçekli metin analiz etme kabiliyetimiz de 90’ların sonlarından bu yana önemli ölçüde değişti.

Ancak NLP araçlarının araştırmalarda günden güne artan rolüne rağmen, bu yöntemlerin kullanımı hala temel olarak batı dilleriyle ve büyük ölçüde İngilizce ile sınırlıdır. Bu blog yazısında Osmanlıca’da NLP'nin olanaklarını ve dezavantajlarını kısaca tartışmaya çalışıp ve ileriki projeler için birkaç tavsiyelerde bulunacağım.

Dijital Beşeri Bilimler (Digital Humanities) Osmanlı Çalışmaları'nda hala küçük bir akademisyen topluluğundan oluşan, gelişmekte olan bir alan. Günümüzde Lexiqamus gibi araçlar Osmanlı Türkçesi’nde araştırma yapmayı daha hızlı, kolay ve erişilebilir hale getirmeye yardımcı olmakta. Osmanlı arşivleri ve el yazması kütüphanelerindeki devasa belge külliyatı göz önüne alındığında, bu belgelerde bilgisayar tabanlı metin analizi yöntemlerine dayalı araştırma yapılması beklenmesi beklenmekte maalesef henüz büyük çaplı hiçbir proje bulunmamaktadır. Gerçekten de Osmanlı Türkçesi için NLP araç ve tekniklerine geniş kapsamlı yatırım, uzun vadede emek, zaman ve para tasarrufu sağlayacak ve büyük ölçekli metin analizini mümkün kılarak Osmanlı tarih ve dil araştırmalarındaki değişikliklere neden olacaktır.

Ancak iki önemli konu Osmanlıca’da NLP için büyük dezavantajlara neden olabilmektedir.

İlk zorluk dilin kendisiyle ilgili. Osmanlıca ve tabi Türkçe sondan eklemeli bir dil, yani eklerin deyim oluşumunda ve kelime çekiminde hayati bir rolü vardır. Bu nedenle, büyük ölçekli bir metin analizi yapmak için kök çıkarma (stemming ya da lemmatization) yani çekilmiş kelimeleri kelime köklerine indirgeme süreci gibi ek prosedürler gerekli. Modern Türkçe’de NLP'ye artan ilgiye ve mevcut açık kaynaklı araç ve kitaplıkların artan sayısına rağmen, mevcut NLP teknolojisi maalesef Osmanlı Türkçesi’nde yazılmış belgelere uyumlu değildir. Ayrıca Türkçe ve Batı dilleri arasındaki gramer ve sözdizimsel farklılıklar, yaygın olarak kullanılan TF-IDF (Terim Frekansı-Ters Belge Frekansı) ve konu modelleme (topic modelling) gibi NLP yöntemlerinin Osmanlıca metinlerde uygulanmasını daha da zorlaştırmaktadır. Bu nedenle Türkçe’nin kendi dilbilimsel farklılığı hasebiyle Osmanlıca’ya uygun olarak çalışan teknik araçların geliştirilmesi elzem ve büyük teknik yatırım gerektirmektedir.

İkinci olarak ve bana göre daha büyük problem ise Osmanlı tarihçiliğindeki birincil kaynak ile bilim yapma metoduyla alakalıdır. Arap harfleriyle yazılmış Osmanlıca evrakın transliterasyon ile modern Türkçe’ye uygun olarak çevrilmesi genel ve yaygın bir uygulama. Binlerce arşiv evrakı ve yazma eser çeşitli araştırmacılar tarafından günümüz Türkçe’sine daha çok aşina olan bizlerin kullanımına açılmıştır. Maalesef, bu transliterasyon sürecinde oturmuş genel geçer bir standart pratik mevcut değil. Osmanlıca kelime ve karakterler transliterasyon sırasında orijinal halinde yazıldığı formundan çok, günümüz Türkçesi’ndeki kullanımına göre çevrilmektedir. Bu da aynı sözcük için bile düzensizliklere neden olmaktadır.

Örneğin "ايوب" kelimesinin Eyüp, Eyüb, Eyyüb, Eyub gibi farklı formlarda çevrilmiş halini bulabilmek mümkündür. Bir araştırmacı bu varyasyonlar arasındaki benzerliği çok rahat fark edebilmektedir. Ancak bilgisayarlar maalesef böyle çalışmamakta; çeviriler her birini farklı birer kelime olarak algılamakta ve tanımlamaktadır. Benzer şekilde, Türkçe'deki "s, h, k, t, n" harflerinin Osmanlıca’da birden fazla karşılık gelen harflere sahip olması ve Osmanlıca transliterasyonlarında bu farklılıkların belirtilmemesi herhangi bir metin analizinde tutarsızlığa yol açacaktır. Bu sebeple, transliterasyon metinlere dayalı herhangi bir metin analizi çalışması yanlış ve tutarsız sonuçlara sahip olmaya mahkumdur. Nasıl Arapça, Farsça ve Süryanice’de yazılmış belgeleri araştırmacılar orijinal formunda çalışıyor ve Latin harflerine çevirmiyorsa, biz de bilgisayar destekli büyük ölçekli metin analizi gerçekleştirmek istiyorsak Osmanlıca belgeleri orijinal formunda kullanmalı ve ona göre teknik araçlarımızı geliştirmeliyiz.

Kısacası yukarıda bahsettiğim iki zorluğu düşünürsek Osmanlıca’da Doğal Dil İşleme ilgili olarak şu önerileri sunuyorum:

Sadece Osmanlı Arşivi’nde 100 milyon civarında belge bulunmaktadır. Bilgi teknolojilerine ve özellikle Doğal Dil Bilişimi’ne yapılacak büyük yatırımlarla Osmanlı araştırmalarında devrim yapacak araştırmalara kapı açılabilecektir.
Atılacak en önemli ilk adımlardan biri Osmanlı tarihçileri/dilbilimciler ile teknik olarak NLP uzmanlarını bir araya getirecek bir network oluşturulması ve Osmanlıcaya uygun metin işleme teknolojilerin geliştirilmesidir.
Kısa vadede ise Osmanlıca diline uygun ve bu dilin inceliklerine uyumlu açık kaynaklı bir kök ayırıcının (stemmer) geliştirilmesi önemli bir zorunluluktur.
Osmanlı çalışmaları orijinal formattaki Osmanlıca belgelerine daha fazla dayanmalıdır. Transliterasyon bu belgelerini Türkçe konuşanlar için daha okunaklı ve erişilebilir hale getirse de bilgisayar tabanlı araştırmalar için büyük kusurlara neden olmaktadır. Bu nedenle, Osmanlıca’da çalışabilen OCR (optik karakter tanıma) veya HTR (el yazısı metin tanıma) araçları geliştirilmesi gerekmektedir ve böylece bu metinler bilgisayar tarafından işlenmeye hazır hale gelecektir.

Osmanlıca’da Doğal Dil İşleme: Fırsatlar ve Dezavantajlar

Son Yazılar

Yorumlar