Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien
Bisnis

Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien

Keenan
Terakhir diperbarui: 18 April 2026 5:46 AM
Oleh
Keenan
9 Menit Baca
Bagikan
Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien
Bagikan

Pedoman standar untuk membangun model bahasa besar (LLMs) lebih fokus pada biaya pelatihan dan mengabaikan biaya inferensi. Ini jadi tantangan untuk aplikasi dunia nyata yang menggunakan teknik pengukuran skala waktu inferensi untuk meningkatkan akurasi respons model, seperti menarik beberapa contoh penalaran dari model saat digunakan.

Table of Content
  • Hukum skala yang bertentangan
  • Hukum skala Train-to-Test
  • Makna bagi pengembang

Untuk mengatasi kesenjangan ini, para peneliti dari Universitas Wisconsin-Madison dan Universitas Stanford memperkenalkan hukum skala Train-to-Test (T2), sebuah kerangka kerja yang mengoptimalkan ukuran parameter model, volume data pelatihan, dan jumlah sampel inferensi pada waktu pengujian.

Pada praktiknya, pendekatan mereka membuktikan bahwa lebih efisien untuk melatih model yang jauh lebih kecil dengan menggunakan data yang jauh lebih banyak daripada aturan tradisional. Selanjutnya, sisa overhead komputasi dapat digunakan untuk menghasilkan banyak sampel berulang pada saat inferensi.

Bagi para pengembang aplikasi AI perusahaan yang sedang melatih model mereka sendiri, riset ini memberikan panduan yang terbukti untuk memaksimalkan pengembalian investasi. Ini menunjukkan bahwa penalaran AI tidak selalu memerlukan pengeluaran besar untuk model-model terdepan. Sebaliknya, model yang lebih kecil dapat memberikan kinerja yang lebih baik pada tugas-tugas kompleks sambil menjaga biaya inferensi per kueri tetap terjangkau dalam anggaran penerapan dunia nyata.

Hukum skala yang bertentangan

Hukum skala menjadi bagian penting dalam mengembangkan model bahasa besar. Hukum skala pretraining mengatur cara terbaik untuk mengalokasikan komputasi selama pembuatan model, sedangkan hukum skala waktu pengujian membimbing pengalokasian komputasi saat penerapan, seperti membiarkan model “berpikir lebih lama” atau menghasilkan beberapa sampel penalaran untuk menyelesaikan masalah yang kompleks.

Masalahnya adalah bahwa hukum-hukum ini dikembangkan secara terpisah meskipun saling terkait. Ukuran parameter model dan durasi pelatihan langsung mempengaruhi kualitas dan biaya per kueri dari sampel inferensi. Saat ini, standar industri untuk pretraining adalah aturan Chinchilla, yang menyarankan rasio optimal komputasi sekitar 20 token pelatihan untuk setiap parameter model.

Read more  OCSF: Bahasa Data Bersama yang Dibutuhkan Tim Keamanan untuk Mengatasi Tantangan Modern

Akan tetapi, para pembuat model AI modern, seperti Llama, Gemma, dan Qwen, seringkali melanggar aturan ini dengan sengaja melatih model yang lebih kecil dengan data yang sangat banyak. Sebagaimana diungkapkan oleh Nicholas Roberts, co-author makalah tersebut, pendekatan tradisional kurang memadai ketika membangun alur kerja kompleks: “Menurut saya, tumpukan inferensi akan gagal ketika setiap panggilan inferensi mahal. Ini terjadi ketika model besar dan perlu melakukan banyak pengambilan sampel berulang.” Alih-alih bergantung pada model besar, para pengembang dapat memanfaatkan model ringkas yang dilatih secara berlebihan.

Namun, karena hukum skala pelatihan dan waktu pengujian sering dianalisis secara terpisah, belum ada kerangka kerja yang ketat untuk menghitung seberapa banyak model harus dilatih ulang berdasarkan seberapa banyak sampel penalaran yang perlu dihasilkan saat penerapan.

Sulitnya merumuskan kerangka kerja ini karena skala pretraining dan waktu pengujian berbicara dalam dua bahasa matematika yang berbeda. Selama pretraining, kinerja model diukur menggunakan “kerugian”, metrik halus yang melacak kesalahan prediksi saat model belajar.

Pada saat pengujian, pengembang menggunakan metrik real-world untuk mengevaluasi kemampuan penalaran model, seperti pass@k, yang mengukur probabilitas bahwa model akan menghasilkan setidaknya satu jawaban yang benar dari k percobaan yang independen dan berulang.

Hukum skala Train-to-Test

Untuk menyelesaikan kesenjangan antara pelatihan dan penerapan, para peneliti memperkenalkan hukum skala Train-to-Test (T2). Secara sederhana, kerangka ini memprediksi kinerja penalaran model dengan memperlakukan tiga variabel sebagai satu kesatuan: ukuran model (N), volume token pelatihan yang dipelajari (D), dan jumlah sampel penalaran yang dihasilkan saat inferensi (k).

T2 menggabungkan anggaran pretraining dan inferensi menjadi satu rumus optimisasi yang memperhitungkan biaya dasar untuk melatih model (6ND) dan biaya yang semakin bertambah untuk mengajukan pertanyaan secara berulang saat inferensi (2Nk). Para peneliti mencoba berbagai pendekatan pemodelan: apakah memodelkan kerugian selama pretraining atau kinerja waktu pengujian (pass@k) sebagai fungsi dari N, D, dan k.

Read more  Pembuat spyware Terkait Kasus Penipuan, Bryan Fleming, Terhindar dari Penjara Saat Dijatuhi Hukuman

Pendekatan pertama mengambil persamaan matematika yang familiar untuk skala Chinchilla dan langsung memodifikasinya dengan menambahkan variabel baru yang memperhitungkan jumlah sampel pengujian berulang (k). Ini memungkinkan para pengembang melihat bagaimana peningkatan compute inferensi menurunkan tingkat kesalahan keseluruhan model.

Pendekatan kedua langsung memodelkan akurasi pass@k yang lebih lanjut. Ini memberi tahu para pengembang probabilitas bahwa aplikasi mereka akan menyelesaikan masalah dengan anggaran komputasi tertentu.

Namun, apakah perusahaan harus menggunakan kerangka ini untuk setiap aplikasi? Roberts menjelaskan bahwa pendekatan ini sangat khusus. “Saya membayangkan bahwa manfaatnya tidak akan terlihat banyak untuk aplikasi yang berbasis pengetahuan, seperti model chat,” ujarnya. Sebaliknya, “T2 dirancang untuk aplikasi yang berat dalam penalaran seperti pengkodean, di mana biasanya Anda menggunakan pengambilan sampel berulang sebagai metode skala waktu pengujian.”

Makna bagi pengembang

Untuk memvalidasi hukum skala T2, para peneliti membangun alternatif uji yang ekstensif dengan lebih dari 100 model bahasa, mulai dari 5 juta hingga 901 juta parameter. Mereka melatih 21 model baru dengan checkpoint berlebih dari awal untuk menguji apakah ramalan matematika mereka terbukti di dunia nyata. Kemudian, mereka membandingkan model-model tersebut di delapan tugas yang beragam, termasuk dataset dunia nyata seperti SciQ dan OpenBookQA, serta tugas sintetis yang dirancang untuk menguji aritmetika, penalaran spasial, dan ingatan.

Kedua model matematika mereka membuktikan bahwa batas komputasi optimal bergeser jauh dari skala Chinchilla standar. Untuk memaksimalkan kinerja dalam anggaran tetap, pilihan optimal adalah model yang jauh lebih kecil dan dilatih dengan jauh lebih banyak data dibandingkan aturan 20 token per parameter yang tradisional.

Dalam eksperimen mereka, model kecil yang dilatih secara berlebihan terus-menerus mengungguli model besar yang optimal Chinchilla dalam semua delapan tugas evaluasi ketika biaya pengambilan sampel waktu pengujian diperhitungkan.

Bagi para pengembang yang ingin menerapkan temuan ini, hambatan teknisnya terbilang rendah.

“Tidak ada yang rumit untuk melakukan skala waktu pengujian dengan model kami saat ini,” kata Roberts. “Pada penerapan, para pengembang dapat mengintegrasikan infrastruktur yang membuat proses pengambilan sampel lebih efisien (misalnya, caching KV jika Anda menggunakan transformer).”

Read more  Kini Saya Fokus Membangun Tim Solutif dengan Aturan Tiga Pertanyaan

Caching KV membantu dengan menyimpan konteks yang telah diproses sebelumnya sehingga model tidak perlu membaca ulang prompt awal dari awal untuk setiap sampel penalaran baru.

Akan tetapi, pelatihan yang berlebihan memiliki trade-off praktis. Meskipun model yang dilatih berlebihan dikenal sulit dan lebih keras untuk disetel, Roberts mencatat bahwa saat mereka menerapkan penyetelan halus yang terawasi, “meskipun efek ini ada, itu tidak cukup kuat untuk menarik model optimal kembali ke Chinchilla.” Strategi komputasi optimal tetap berpihak pada model ringkas.

Meski demikian, tim yang memaksimalkan ini hingga batas ekstrim harus waspada terhadap batas data fisik. “Satu sudut pandang adalah jika Anda menjalankan rekomendasi pelatihan ulang kami secara ekstrem, Anda mungkin akan kehabisan data pelatihan,” kata Roberts, merujuk pada “dinding data” yang mengancam di mana data internet berkualitas tinggi habis.

Eksperimen ini mengonfirmasi bahwa jika aplikasi bergantung pada menghasilkan beberapa sampel penalaran waktu pengujian, melatih model ringkas secara agresif adalah cara yang paling efektif secara praktis dan matematis untuk menghabiskan anggaran komputasi end-to-end.

Untuk membantu para pengembang memulai, tim riset berencana membuka sumber kode dan checkpoint mereka dalam waktu dekat, memungkinkan perusahaan untuk memasukkan data mereka sendiri dan segera menguji perilaku skala. Pada akhirnya, kerangka ini berfungsi sebagai kekuatan penyeimbang dalam industri AI.

Ini sangat penting, mengingat tingginya harga model-model terdepan dapat menjadi penghalang saat Anda mengembangkan aplikasi yang mengandalkan model penalaran.

“T2 secara fundamental mengubah siapa yang dapat membangun model penalaran yang kuat,” tutup Roberts. “Anda mungkin tidak perlu anggaran komputasi yang besar untuk mencapai penalaran yang mutakhir. Sebaliknya, Anda hanya perlu data yang bagus dan pengalokasian anggaran pelatihan serta inferensi yang pintar.”

Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya PM Polandia Tuduh Ada Pengaruh Kripto Terkait Rusia dalam Kampanye Pilpres PM Polandia Tuduh Ada Pengaruh Kripto Terkait Rusia dalam Kampanye Pilpres
Artikel Berikutnya Filipina dan AS Siapkan Pusat Industri untuk Perkuat Keamanan Rantai Pasokan Filipina dan AS Siapkan Pusat Industri untuk Perkuat Keamanan Rantai Pasokan
- Advertisement -
Ad image

Don't Miss

Panduan CEO: Strategi Suksesi untuk Kelangsungan Bisnis yang Berkelanjutan
Panduan CEO: Strategi Suksesi untuk Kelangsungan Bisnis yang Berkelanjutan
Bisnis
CEO Ripple Dukung Ajakan Menkeu untuk Segera Meloloskan RUU CLARITY
CEO Ripple Dukung Ajakan Menkeu untuk Segera Meloloskan RUU CLARITY
Kripto
Saham Swedia Melemah di Penutupan Perdagangan; OMX Stockholm 30 Turun 0,90%
Saham Swedia Melemah di Penutupan Perdagangan; OMX Stockholm 30 Turun 0,90%
Market
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Intercom Luncurkan Fin Apex 1.0, Ungguli GPT-5.4 dan Claude Sonnet 4.6 dalam Menyelesaikan Masalah Layanan Pelanggan
Bisnis

Intercom Luncurkan Fin Apex 1.0, Ungguli GPT-5.4 dan Claude Sonnet 4.6 dalam Menyelesaikan Masalah Layanan Pelanggan

Keenan
27 Maret 2026
Ilusi Tata Kelola AI: Mengapa 72% Perusahaan Merasa Tak Memiliki Kontrol dan Keamanan yang Sesungguhnya?
Bisnis

Ilusi Tata Kelola AI: Mengapa 72% Perusahaan Merasa Tak Memiliki Kontrol dan Keamanan yang Sesungguhnya?

Keenan
22 April 2026
ChatGPT Luncurkan Paket Pro seharga $100/bulan: Siap Bawa Pengalaman Lebih Optimal!
Bisnis

ChatGPT Luncurkan Paket Pro seharga $100/bulan: Siap Bawa Pengalaman Lebih Optimal!

Keenan
10 April 2026
Hasil AEW Dynamite (22 April 2026): Aksi Seru Dari Portland!
Bisnis

Hasil AEW Dynamite (22 April 2026): Aksi Seru Dari Portland!

Keenan
23 April 2026
Platform DeFi Drift Hentikan Setoran dan Penarikan Usai Pembobolan Jutaan Dolar Crypto
Bisnis

Platform DeFi Drift Hentikan Setoran dan Penarikan Usai Pembobolan Jutaan Dolar Crypto

Keenan
2 April 2026
Vercel Mengungkapkan Serangan Siber: Data Pelanggan Terancam Hilang!
Bisnis

Vercel Mengungkapkan Serangan Siber: Data Pelanggan Terancam Hilang!

Keenan
20 April 2026
MassMutual dan Mass General Brigham Ubah Proyek AI Menjadi Hasil Produksi yang Nyata
Bisnis

MassMutual dan Mass General Brigham Ubah Proyek AI Menjadi Hasil Produksi yang Nyata

Keenan
7 April 2026
Duo Suami-Istri Raih Penjualan Produk Rp 15 Triliun pada 2025
Bisnis

Duo Suami-Istri Raih Penjualan Produk Rp 15 Triliun pada 2025

Keenan
14 April 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Kripto
  • News

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?