Kesalahan pengenalan lebih baik daripada menciptakan konten baru.

Aturan utamanya: jangan mengoreksi apa pun. Singkatan, kesalahan juru tulis, dan pembalikan huruf dibiarkan apa adanya.

in1

Tujuannya adalah sedekat mungkin dengan realitas dokumen asli.

Korpus pelatihan yang disusun dengan cermat memungkinkan tim mengkalibrasi algoritma untuk diterapkan secara massal pada koleksi digital dari Gallica, Perpustakaan Bodleian di Oxford, Perpustakaan Negara Bagian Bavaria di Munich, dan platform E-Codices Swiss.

AI Aeneas dari Google juga digunakan untuk menentukan tanggal dan lokasi teks Latin kuno serta memprediksi karakter yang hilang.

Transkripsi yang dihasilkan bersifat mentah, tanpa koreksi setelahnya. Dari 670 manuskrip yang dianalisis, tingkat kesalahan rata-rata adalah 9,7%.

Sebagian besar dokumen memiliki lebih dari 80% baris yang dikenali dengan benar.

Seluruh korpus CoMMa dapat diunduh secara gratis.

>>> Analis NFL ESPN Matt Miller Jalani Amputasi Lengan Setelah Kecelakaan Mobil

Bagi peneliti dan penggemar sejarah abad pertengahan, ini adalah tambang emas: akses langsung ke teks yang telah terpendam selama berabad-abad.