Pertama, Xiaomi menerapkan arsitektur Mixture of Experts (MoE) dengan kuantisasi FP4 (4-bit floating point) khusus pada expert layers.

Teknik kuantisasi tersebut dipadukan dengan Quantization-Aware Training (QAT) untuk menjaga kemampuan model. Pendekatan ini berhasil memangkas ukuran model dan beban memori secara drastis tanpa mengurangi akurasi secara signifikan.

Inovasi kedua hadir melalui penggunaan DFlash yang menerapkan teknik speculative decoding untuk memprediksi blok token utuh dalam satu forward pass.

>>> Lintasarta Perluas Investasi GPU Nvidia untuk Infrastruktur AI

Pada tugas pemrograman, sistem ini mencatatkan rata-rata panjang penerimaan hingga 6,30 token per prediksi.

Lapisan ketiga disokong oleh TileRT Persistent-Core GPU Runtime yang mengoptimalkan kinerja perangkat keras. Runtime GPU khusus ini memanfaatkan inti persisten dan pipa heterogen untuk menghilangkan overhead switching operator.

Arsitektur tangguh tersebut memastikan unit pemroses grafis bekerja pada kapasitas penuh tanpa adanya siklus menganggur.

Seluruh rangkaian sistem ini terbukti dapat dioperasikan pada server 8-GPU standar seperti NVIDIA A100 atau H100.

Skema Komersial dan Akses Uji Coba Terbatas

Xiaomi menyediakan akses performa tinggi ini melalui UltraSpeed API dengan kebijakan komersial khusus.

Layanan UltraSpeed API ditawarkan dengan harga 3 kali lipat lebih tinggi dibandingkan tarif standar MiMo-V2.5-Pro.

Meskipun tarif per permintaan lebih mahal, biaya per token diklaim menjadi lebih rendah berkat throughput yang meningkat hingga 10 kali lipat.

Mekanisme ini menawarkan efisiensi biaya operasional yang signifikan bagi perusahaan dengan volume inferensi tinggi.

Fase uji coba terbatas dijadwalkan berlangsung mulai 9 hingga 23 Juni 2026 dengan sistem pengajuan berbasis aplikasi.

Prioritas akses akan diberikan kepada sektor korporasi dan pengembang profesional yang membutuhkan solusi AI real-time.