Digitalisasi arsip abad pertengahan telah maju pesat, tetapi transkripsi tetap menjadi hambatan besar.

Ribuan teks hasil pindaian tersedia secara daring, namun tidak terbaca oleh komputer dan sulit diakses peneliti.

in1

>>> Ilmuwan Ciptakan Obat Antikanker Kuat dari Ragi Biasa

Peneliti di Institut Nasional Riset Ilmu Digital dan Teknologi Perancis (Inria) berhasil mengatasi hambatan ini. Mereka menggunakan kecerdasan buatan yang mampu membaca aksara kuno dengan kecepatan luar biasa.

Korpus CoMMa: 3 Miliar Kata dari Abad ke-8 hingga ke-16

Thibault Clérice, peneliti humaniora komputasional di tim ALMAnaCH Inria Paris, memimpin proyek CoMMa (Corpus of Multilingual Medieval Archives).

Hasilnya adalah korpus unik dengan lebih dari 3 miliar kata.

Korpus ini terutama berasal dari manuskrip Latin (abad ke-9 hingga ke-16) dan dokumen Prancis Kuno (abad ke-12 hingga ke-16).

Untuk Prancis Kuno saja, ukuran korpus kini 40 kali lipat dari sebelumnya.

Mengapa tidak menggunakan ChatGPT atau Mistral? Model siap pakai tidak memadai karena ejaan Prancis Kuno tidak tetap.

Dua salinan teks yang sama oleh juru tulis berbeda bisa memiliki hingga 50% ejaan berbeda.

Dalam bahasa Latin abad ke-14, 35% hingga 40% kata disingkat. Model bahasa besar cenderung berhalusinasi saat tidak yakin, yang tidak ideal untuk akurasi sejarah.

Setelah dua tahun merancang dan melatih AI khusus, peneliti Perancis mentranskripsi dan menerjemahkan 32.000 manuskrip dalam bahasa Latin dan Prancis Kuno.

Mesin menyelesaikannya hanya dalam empat bulan.

>>> Jenny Mollen Bercanda Sebut Anaknya 'Predator' Usai Postingan Kontroversial

Tim memilih metode pengenalan grafis karakter per karakter menggunakan alat sumber terbuka Kraken dan eScriptorium. Aksen dianggap sebagai tanda tersendiri.