Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien

Pedoman standar untuk membangun model bahasa besar (LLMs) lebih fokus pada biaya pelatihan dan mengabaikan biaya inferensi. Ini jadi tantangan untuk aplikasi dunia nyata yang menggunakan teknik pengukuran skala waktu inferensi untuk meningkatkan akurasi respons model, seperti menarik beberapa contoh penalaran dari model saat digunakan.

Table of Content

Hukum skala yang bertentangan
Hukum skala Train-to-Test
Makna bagi pengembang

Untuk mengatasi kesenjangan ini, para peneliti dari Universitas Wisconsin-Madison dan Universitas Stanford memperkenalkan hukum skala Train-to-Test (T²), sebuah kerangka kerja yang mengoptimalkan ukuran parameter model, volume data pelatihan, dan jumlah sampel inferensi pada waktu pengujian.

Pada praktiknya, pendekatan mereka membuktikan bahwa lebih efisien untuk melatih model yang jauh lebih kecil dengan menggunakan data yang jauh lebih banyak daripada aturan tradisional. Selanjutnya, sisa overhead komputasi dapat digunakan untuk menghasilkan banyak sampel berulang pada saat inferensi.

Bagi para pengembang aplikasi AI perusahaan yang sedang melatih model mereka sendiri, riset ini memberikan panduan yang terbukti untuk memaksimalkan pengembalian investasi. Ini menunjukkan bahwa penalaran AI tidak selalu memerlukan pengeluaran besar untuk model-model terdepan. Sebaliknya, model yang lebih kecil dapat memberikan kinerja yang lebih baik pada tugas-tugas kompleks sambil menjaga biaya inferensi per kueri tetap terjangkau dalam anggaran penerapan dunia nyata.

Hukum skala yang bertentangan

Hukum skala menjadi bagian penting dalam mengembangkan model bahasa besar. Hukum skala pretraining mengatur cara terbaik untuk mengalokasikan komputasi selama pembuatan model, sedangkan hukum skala waktu pengujian membimbing pengalokasian komputasi saat penerapan, seperti membiarkan model “berpikir lebih lama” atau menghasilkan beberapa sampel penalaran untuk menyelesaikan masalah yang kompleks.

Masalahnya adalah bahwa hukum-hukum ini dikembangkan secara terpisah meskipun saling terkait. Ukuran parameter model dan durasi pelatihan langsung mempengaruhi kualitas dan biaya per kueri dari sampel inferensi. Saat ini, standar industri untuk pretraining adalah aturan Chinchilla, yang menyarankan rasio optimal komputasi sekitar 20 token pelatihan untuk setiap parameter model.

Akan tetapi, para pembuat model AI modern, seperti Llama, Gemma, dan Qwen, seringkali melanggar aturan ini dengan sengaja melatih model yang lebih kecil dengan data yang sangat banyak. Sebagaimana diungkapkan oleh Nicholas Roberts, co-author makalah tersebut, pendekatan tradisional kurang memadai ketika membangun alur kerja kompleks: “Menurut saya, tumpukan inferensi akan gagal ketika setiap panggilan inferensi mahal. Ini terjadi ketika model besar dan perlu melakukan banyak pengambilan sampel berulang.” Alih-alih bergantung pada model besar, para pengembang dapat memanfaatkan model ringkas yang dilatih secara berlebihan.

Namun, karena hukum skala pelatihan dan waktu pengujian sering dianalisis secara terpisah, belum ada kerangka kerja yang ketat untuk menghitung seberapa banyak model harus dilatih ulang berdasarkan seberapa banyak sampel penalaran yang perlu dihasilkan saat penerapan.

Sulitnya merumuskan kerangka kerja ini karena skala pretraining dan waktu pengujian berbicara dalam dua bahasa matematika yang berbeda. Selama pretraining, kinerja model diukur menggunakan “kerugian”, metrik halus yang melacak kesalahan prediksi saat model belajar.

Pada saat pengujian, pengembang menggunakan metrik real-world untuk mengevaluasi kemampuan penalaran model, seperti pass@k, yang mengukur probabilitas bahwa model akan menghasilkan setidaknya satu jawaban yang benar dari k percobaan yang independen dan berulang.

Hukum skala Train-to-Test

Untuk menyelesaikan kesenjangan antara pelatihan dan penerapan, para peneliti memperkenalkan hukum skala Train-to-Test (T²). Secara sederhana, kerangka ini memprediksi kinerja penalaran model dengan memperlakukan tiga variabel sebagai satu kesatuan: ukuran model (N), volume token pelatihan yang dipelajari (D), dan jumlah sampel penalaran yang dihasilkan saat inferensi (k).

T² menggabungkan anggaran pretraining dan inferensi menjadi satu rumus optimisasi yang memperhitungkan biaya dasar untuk melatih model (6ND) dan biaya yang semakin bertambah untuk mengajukan pertanyaan secara berulang saat inferensi (2Nk). Para peneliti mencoba berbagai pendekatan pemodelan: apakah memodelkan kerugian selama pretraining atau kinerja waktu pengujian (pass@k) sebagai fungsi dari N, D, dan k.

Pendekatan pertama mengambil persamaan matematika yang familiar untuk skala Chinchilla dan langsung memodifikasinya dengan menambahkan variabel baru yang memperhitungkan jumlah sampel pengujian berulang (k). Ini memungkinkan para pengembang melihat bagaimana peningkatan compute inferensi menurunkan tingkat kesalahan keseluruhan model.

Pendekatan kedua langsung memodelkan akurasi pass@k yang lebih lanjut. Ini memberi tahu para pengembang probabilitas bahwa aplikasi mereka akan menyelesaikan masalah dengan anggaran komputasi tertentu.

Namun, apakah perusahaan harus menggunakan kerangka ini untuk setiap aplikasi? Roberts menjelaskan bahwa pendekatan ini sangat khusus. “Saya membayangkan bahwa manfaatnya tidak akan terlihat banyak untuk aplikasi yang berbasis pengetahuan, seperti model chat,” ujarnya. Sebaliknya, “T² dirancang untuk aplikasi yang berat dalam penalaran seperti pengkodean, di mana biasanya Anda menggunakan pengambilan sampel berulang sebagai metode skala waktu pengujian.”

Makna bagi pengembang

Untuk memvalidasi hukum skala T², para peneliti membangun alternatif uji yang ekstensif dengan lebih dari 100 model bahasa, mulai dari 5 juta hingga 901 juta parameter. Mereka melatih 21 model baru dengan checkpoint berlebih dari awal untuk menguji apakah ramalan matematika mereka terbukti di dunia nyata. Kemudian, mereka membandingkan model-model tersebut di delapan tugas yang beragam, termasuk dataset dunia nyata seperti SciQ dan OpenBookQA, serta tugas sintetis yang dirancang untuk menguji aritmetika, penalaran spasial, dan ingatan.

Kedua model matematika mereka membuktikan bahwa batas komputasi optimal bergeser jauh dari skala Chinchilla standar. Untuk memaksimalkan kinerja dalam anggaran tetap, pilihan optimal adalah model yang jauh lebih kecil dan dilatih dengan jauh lebih banyak data dibandingkan aturan 20 token per parameter yang tradisional.

Dalam eksperimen mereka, model kecil yang dilatih secara berlebihan terus-menerus mengungguli model besar yang optimal Chinchilla dalam semua delapan tugas evaluasi ketika biaya pengambilan sampel waktu pengujian diperhitungkan.

Bagi para pengembang yang ingin menerapkan temuan ini, hambatan teknisnya terbilang rendah.

“Tidak ada yang rumit untuk melakukan skala waktu pengujian dengan model kami saat ini,” kata Roberts. “Pada penerapan, para pengembang dapat mengintegrasikan infrastruktur yang membuat proses pengambilan sampel lebih efisien (misalnya, caching KV jika Anda menggunakan transformer).”

Caching KV membantu dengan menyimpan konteks yang telah diproses sebelumnya sehingga model tidak perlu membaca ulang prompt awal dari awal untuk setiap sampel penalaran baru.

Akan tetapi, pelatihan yang berlebihan memiliki trade-off praktis. Meskipun model yang dilatih berlebihan dikenal sulit dan lebih keras untuk disetel, Roberts mencatat bahwa saat mereka menerapkan penyetelan halus yang terawasi, “meskipun efek ini ada, itu tidak cukup kuat untuk menarik model optimal kembali ke Chinchilla.” Strategi komputasi optimal tetap berpihak pada model ringkas.

Meski demikian, tim yang memaksimalkan ini hingga batas ekstrim harus waspada terhadap batas data fisik. “Satu sudut pandang adalah jika Anda menjalankan rekomendasi pelatihan ulang kami secara ekstrem, Anda mungkin akan kehabisan data pelatihan,” kata Roberts, merujuk pada “dinding data” yang mengancam di mana data internet berkualitas tinggi habis.

Eksperimen ini mengonfirmasi bahwa jika aplikasi bergantung pada menghasilkan beberapa sampel penalaran waktu pengujian, melatih model ringkas secara agresif adalah cara yang paling efektif secara praktis dan matematis untuk menghabiskan anggaran komputasi end-to-end.

Untuk membantu para pengembang memulai, tim riset berencana membuka sumber kode dan checkpoint mereka dalam waktu dekat, memungkinkan perusahaan untuk memasukkan data mereka sendiri dan segera menguji perilaku skala. Pada akhirnya, kerangka ini berfungsi sebagai kekuatan penyeimbang dalam industri AI.

Ini sangat penting, mengingat tingginya harga model-model terdepan dapat menjadi penghalang saat Anda mengembangkan aplikasi yang mengandalkan model penalaran.

“T² secara fundamental mengubah siapa yang dapat membangun model penalaran yang kuat,” tutup Roberts. “Anda mungkin tidak perlu anggaran komputasi yang besar untuk mencapai penalaran yang mutakhir. Sebaliknya, Anda hanya perlu data yang bagus dan pengalokasian anggaran pelatihan serta inferensi yang pintar.”