top of page
  • ederincan

TRANSKRIBUS ile Osmanlı Türkçesi'nin Dijitalleştirilmesi

Güncelleme tarihi: 25 Eki 2023

Yazar: Elif Derin Can, Doktora Öğrencisi, FSMV Üniversitesi Tarih Bölümü



Transkribus yapay zeka (AI) destekli olarak tarihi belgelerin metin tanıma işlemi (HTR), otomatik transkribe edilmesi ve tematik olarak metinlerin etiketlenmesi (tag) için kullanılan kapsamlı bir platformdur. 2013 yılında tranScriptorium adıyla Avrupa Birliği fonuyla başlayan proje, 2019 yılında bir kooperatif topluluğuna dönüşmüştür. READ COOP SCE adlı Avrupa merkezli kooperatif Transkribus platformunun sürdürülebilirliği ve güncellenmesinden sorumludur. Topluluk bugün 35 farklı ülkeden şahıs ve enstitü bazında 135 üyeye sahiptir ve yüz binden fazla kullanıcıya sahiptir. Böylece akademisyenlerin bireysel girişimleri için oldukça maliyetli olan yapay zeka altyapısı uluslararası bir topluluğun ve kurumların desteği ile sürdürülebilir bir ortamda geliştirilmektedir.


Yapay zeka destekli otomatik transkripsiyon imkanı sağlayan platform, bunun yanında belgelerin dijitalleştirilmesi, yapay zekanın eğitilmesi, veri toplanması, işlenmesi ve çalışmaların yayınlanması konularında da imkan sağlamaktadır. Dolayısıyla Transkribus platformunda el yazması ve matbu metinlerin otomatik transkripsiyonunu yapıp, farklı belgeler için transkripsiyon modeli eğitilebilir, bu belgelerde tarama yapılabilir, metinler yapısal ve içerik olarak etiketlenebilir, üretilen veriler (TEI, TXT, PDF, Word gibi) farklı formatlarda çıktı olarak alınabilir. Platformun önemli avantajlarından bazıları web tabanlı versiyonu sayesinde her zaman açık erişimli olarak online ortamda çalışılabilir olması ve ekip çalışmalarının da rahatlıkla yürütülebilmesidir.


Süphan Kırmızıaltın (NYU Abu Dhabi), Fatma Aladağ (Universität Leipzig) ve Elif Derin Can (FSMV Üniversitesi) Osmanlı Türkçesi için ilk matbu Osmanlıca otomatik transkripsiyon modeli (HTR) 2023 yılının Haziran ayında Transkribus platformunda açık erişimli olarak kullanıma sunmuşlardır. Bu HTR modeli ve diğer Osmanlı Türkçesi dijitalleştirme çalışmalarına dair detaylı bilgiler Digital Ottoman Corpora web sitesinde bir araya getirilmiştir. Bu yazıda matbu metinler için geliştirilmiş bahsi geçen HTR modelini nasıl kullanabileceğinizi en temel seviyede göstermeye çalışacağız.


Transkribus'ta Osmanlı Türkçesi için Bir Uygulama:


Çalışmaya öncelikle platforma kayıt olarak başlamanız gerekiyor. Platforma üyelik ücretsiz olmakla birlikte başlangıç için 500 kredi ücretsiz veriliyor. Bu kredilerin kullanımı matbu ve el yazması belgeler için değişiklik göstermektedir. Örneğin 1 kredi ile 1 sayfa el yazması belge transkribe edilirken, matbu modeller için bu oran 1 kredi ile 6 sayfa olarak değişmektedir. Otomatik transkripsiyon öncesinde ise sayfa analizi ya da kendi modelinizi oluşturmak için platformda yaptığınız diğer çalışmalar herhangi bir kredi gerektirmemektedir.



Register kısmına bilgilerinizi girerek üyelik oluşturduktan hemen sonra, sağ üstte bulunan Collections'a tıklayarak kendi koleksiyonunuzu oluşturabilirsiniz.



Oluşturduğunuz koleksiyona Transkribus otomatik olarak bir ID (referans) numarası atamaktadır. Bununla birlikte koleksiyonu oluştururken çalışmalarınızın ilerlemesiyle birlikte koleksiyonlarınızın artacağını da göz önünde bulundurarak ayırt edici isimler vermeniz işinizi kolaylaştıracaktır.


Koleksiyona isim verdikten sonra Create butonuna basarak koleksiyonu oluşturabilir, sonrasında dilediğiniz büyüklükte dosyayı yükleyebilirsiniz. Koleksiyona girdiğiniz zaman Upload Document ya da Upload Files butonlarını kullanarak belgelerinizi ekleyebilirsiniz. Belge yüklemeye başlarken dosyanızın türüne göre Image (.jpg uzantılı görüntü dosyaları) ya da PDF seçimini yaparak bilgisayarınızdan seçtiğiniz belge veya dosyayı Submit butonuyla koleksiyona ekleyebilirsiniz.



Belgelerinizi koleksiyona ekledikten sonra tek adımda otomatik transkripsiyonu yapma imkanına sahipsiniz. Ancak özellikle sayfa düzeni karışık olan belgeler için -çok sütunlu gazeteler gibi- önce Layout Analysis yaparak okuma bölgelerinin ve satırların düzgün belirlendiğinden emin olarak ardından otomatik transkripsiyon yaptırmak daha verimli bir sonuç sağlayacaktır. Her iki analiz işlemi içinde çalışmak istediğiniz koleksiyonun sol alt köşesinde bulunan "T" ikonuna tıklamanız yeterlidir.


"T" ikonu sizi analiz türünü seçeceğiniz sayfaya götürür. Eğer doğrudan transkripsiyon yapmak istiyorsanız Text Reconition'a, önce sayfa ve satır düzenini belirlemesini istiyorsanız Layout'a tıklayarak uygun modeli seçmeniz gereklidir. Bu kısımda belgenizdeki yazıların düzenine göre seçebileceğiniz pek çok farklı model bulunmaktadır. Eğer çok karışık olmayan bir sayfa düzenine sahipseniz Universal Lines modelini, çok sütunlu veya karışık düzende bir belgeye sahipseniz Mixed Line Orientation modelini seçebilirsiniz. Modeli seçtikten sonra sayfanın sağ üst köşesinde bulunan Start Recognition butonuna basmanız yeterli olacaktır.



Şayet önce Layout Analysis yaptıysanız satırların ve sütunların sırasını, çizgilerin bütünlüğünü ve tüm satırı kapsayıp kapsamadığını kontrol ettikten sonra yeniden "T" ikonuna ve Text Recognition'a tıklayarak otomatik transkripsiyona geçebilirsiniz. Text Recognition butonuna tıkladığınızda Transkribus platformu size kullanabileceğiniz genel kullanıma açık olan HTR modellerini listeler. Bu listeden OttomanTurkish_Print_1 modelini seçerek Start Recognition'a bir kez daha tıklayarak işlemi tamamlayabilirsiniz.




Platformda yaptığınız tüm işlerin ilerleyişini ana sayfada sağ üst köşede bulunan Jobs sekmesinden görüntüleyebilirsiniz. Layout Analysis oldukça kısa bir sürede gerçekleşirken Text Analysis ana bilgisayarın yoğunluk durumuna ve internet bağlantınıza göre biraz daha uzun sürebilmektedir. Çalışmanın statüsü Finished olarak göründüğünde belgenize geri dönerek otomatik transkripsiyonunuzu kontrol edebilirsiniz.



Otomatik transkripsiyon işlemi tamamlandıktan sonra, modelin %92,8 oranında doğruluğa sahip olduğunu göz önünde bulundurarak transkripsiyonu kontrol edebilir ve düzeltmelerinizi yapabilirsiniz. Aşağıdaki resimde görüldüğü gibi orjinal belgede silik olan kısımları manuel olarak düzeltebilir ya da ekleyebilirsiniz.



Platformda şu anda, giriş kısmında da bahsettiğimiz gibi, genel kullanıma açık tek bir Osmanlıca matbu HTR model bulunmaktadır. Şayet belgeleriniz model için kullanılan veri setinden (çok farklı bir içeriğe sahipse doğruluk oranı daha düşük olabilmektedir. Bu durumda modeli kendi belgeleriniz için bir başlangıç olarak kullanabilir, transkripsiyon üzerinde gerekli düzeltmeleri yaptıktan sonra kendi belgelerinize ve transkripsiyon özelliğinize göre modelinizi tekrar eğitebilirsiniz. Belgeleriniz söz konusu matbu modelden çok farklı ise, örneğin el yazmaları için, sıfırdan kendi modelinizi de eğitebilirsiniz. Bu da belgelerinizin Layout Analizini yaptıktan sonra manuel olarak transkripsiyonu girmenizi gerektiren biraz daha zaman alacak ancak uzun vadede işlerinizi kolaylaştıracak ve hızlandıracak bir süreçtir.

Transkripsiyonunuzu tamamladıktan sonra metinde içerik analizleri için kişi, olay, yer, tarih gibi tematik verilerin etiketleme (tag) işlemini yapabilir, farklı formatlarda transkripsiyonlarınızın çıktısını alabilir, bu verileri araştırma konunuza ve metodunuza göre metin analizini yapabilirsiniz. Ayrıca bu çıktıları NLP ve diğer metin madenciliği yöntemleri için veri seti olarak kullanabilirsiniz. Platformun sunduğu önemli imkanlardan bir diğerinin de belgelerinizi dijital olarak yayınlayabileceğiniz Read&Search adlı bir bölüme sahip olduğunu belirtmek gerekir. Transkribus ile hazırlanmış diğer dijital edisyon projelerine göz atabilir ve kendi Osmanlıca dijital edisyonlarını burada yayınlayabilirsiniz.




Comments


bottom of page