Angka kinerja yang dibagikan Google dan NVIDIA mencakup lebih dari 1.000 token per detik pada satu GPU NVIDIA H100, lebih dari 700 token per detik pada NVIDIA GeForce RTX 5090, sekitar 150 token per detik pada NVIDIA DGX Spark, hingga 2.000 token per detik pada NVIDIA DGX Station.

Secara keseluruhan, model ini menawarkan generasi teks hingga 4 kali lebih cepat dibandingkan model autoregresif yang sebanding dalam skenario inferensi lokal.

Google mencatat bahwa keuntungan ini terutama dirancang untuk inferensi lokal dengan konkurensi rendah.

Di lingkungan cloud dengan QPS tinggi, model autoregresif dapat memanfaatkan perangkat keras secara efisien melalui batching, yang dapat mengurangi keunggulan decoding paralel berbasis difusi dan berpotensi meningkatkan biaya serving.

Keunggulan throughput paling kuat pada ukuran batch rendah hingga menengah di satu akselerator.

Fine-tuning dan Kasus Penggunaan

Google mengatakan DiffusionGemma dapat di-fine-tune untuk beban kerja domain spesifik.

>>> Trump Perketat Visa Suporter 9 Negara Jelang Piala Dunia 2026

Sebagai contoh, Unsloth melakukan fine-tuning model ini untuk memecahkan teka-teki Sudoku, tugas yang menantang bagi model autoregresif karena prediksi sering bergantung pada token masa depan.

Perusahaan mengharapkan model ini berguna untuk chat interaktif, asisten AI lokal, loop agen, asisten perangkat yang dapat merencanakan dan bertindak, iterasi konten cepat, pengeditan inline, dan aplikasi AI sensitif latensi lainnya.

Meskipun DiffusionGemma mengutamakan kecepatan dan generasi paralel, Google mencatat bahwa kualitas output keseluruhannya masih lebih rendah dibandingkan model Gemma 4 standar.

Untuk aplikasi yang membutuhkan output produksi berkualitas tertinggi, perusahaan merekomendasikan menggunakan model Gemma 4 standar.

Optimasi NVIDIA dan Dukungan Platform