Google Rilis DiffusionGemma, Model AI Open Source dengan Generasi Teks 4x Lebih Cepat

Nova Anisa Kamis 11-06-2026 12:26 WIB

Ukuran Teks

Google resmi memperkenalkan DiffusionGemma, sebuah model kecerdasan buatan (AI) open-weight eksperimental yang menggunakan pendekatan difusi untuk menghasilkan teks.

Model dengan 26 miliar parameter dan arsitektur Mixture-of-Experts (MoE) ini dirilis di bawah lisensi Apache 2.0.

>>> Apindo Khawatirkan Monopsoni dalam Ekspor SDA Akibat PP No. 24/2026

Berbeda dengan model bahasa besar (LLM) autoregresif tradisional yang menghasilkan teks token demi token secara sekuensial, DiffusionGemma mampu menghasilkan dan menyempurnakan blok teks secara simultan.

Pendekatan Difusi untuk Generasi Teks Paralel

DiffusionGemma menggunakan metode difusi yang memulai proses dengan token placeholder acak, lalu secara bertahap memperbaikinya melalui beberapa langkah denoising hingga menghasilkan teks akhir.

Proses ini mirip dengan cara generator gambar berbasis difusi mengubah noise visual menjadi gambar jadi.

Karena semua token dapat saling berhubungan melalui perhatian dua arah (bi-directional attention), model ini sangat cocok untuk tugas seperti pengeditan inline, pengisian kode, grafik matematika, sekuens asam amino, dan beban kerja generasi teks non-linear lainnya.

Proses penyempurnaan iteratif memungkinkan model mengevaluasi seluruh blok teks sekaligus, membantu memperbaiki kesalahan selama generasi dan memungkinkan perilaku seperti menutup struktur markdown kompleks dengan benar serta menghasilkan kode secara near real-time.

Kinerja dan Kebutuhan Perangkat Keras

DiffusionGemma dibangun sebagai model MoE 26B yang hanya mengaktifkan 3,8 miliar parameter selama inferensi.

Ketika dikuantisasi, model ini dapat muat dalam sekitar 18GB VRAM, memungkinkannya berjalan di GPU konsumen kelas atas.

Google dan NVIDIA menyatakan bahwa model ini menggeser generasi teks dari hambatan bandwidth memori menjadi beban kerja komputasi intensif, memungkinkan pemanfaatan GPU modern, Tensor Cores, dan optimasi CUDA yang lebih baik.