Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien
Bisnis

Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien

Keenan
Terakhir diperbarui: 18 April 2026 5:46 AM
Oleh
Keenan
9 Menit Baca
Bagikan
Optimalkan Anggaran Komputasi AI Anda: Panduan Skala Train-to-Test untuk Inference yang Efisien
Bagikan

Pedoman standar untuk membangun model bahasa besar (LLMs) lebih fokus pada biaya pelatihan dan mengabaikan biaya inferensi. Ini jadi tantangan untuk aplikasi dunia nyata yang menggunakan teknik pengukuran skala waktu inferensi untuk meningkatkan akurasi respons model, seperti menarik beberapa contoh penalaran dari model saat digunakan.

Table of Content
  • Hukum skala yang bertentangan
  • Hukum skala Train-to-Test
  • Makna bagi pengembang

Untuk mengatasi kesenjangan ini, para peneliti dari Universitas Wisconsin-Madison dan Universitas Stanford memperkenalkan hukum skala Train-to-Test (T2), sebuah kerangka kerja yang mengoptimalkan ukuran parameter model, volume data pelatihan, dan jumlah sampel inferensi pada waktu pengujian.

Pada praktiknya, pendekatan mereka membuktikan bahwa lebih efisien untuk melatih model yang jauh lebih kecil dengan menggunakan data yang jauh lebih banyak daripada aturan tradisional. Selanjutnya, sisa overhead komputasi dapat digunakan untuk menghasilkan banyak sampel berulang pada saat inferensi.

Bagi para pengembang aplikasi AI perusahaan yang sedang melatih model mereka sendiri, riset ini memberikan panduan yang terbukti untuk memaksimalkan pengembalian investasi. Ini menunjukkan bahwa penalaran AI tidak selalu memerlukan pengeluaran besar untuk model-model terdepan. Sebaliknya, model yang lebih kecil dapat memberikan kinerja yang lebih baik pada tugas-tugas kompleks sambil menjaga biaya inferensi per kueri tetap terjangkau dalam anggaran penerapan dunia nyata.

Hukum skala yang bertentangan

Hukum skala menjadi bagian penting dalam mengembangkan model bahasa besar. Hukum skala pretraining mengatur cara terbaik untuk mengalokasikan komputasi selama pembuatan model, sedangkan hukum skala waktu pengujian membimbing pengalokasian komputasi saat penerapan, seperti membiarkan model “berpikir lebih lama” atau menghasilkan beberapa sampel penalaran untuk menyelesaikan masalah yang kompleks.

Masalahnya adalah bahwa hukum-hukum ini dikembangkan secara terpisah meskipun saling terkait. Ukuran parameter model dan durasi pelatihan langsung mempengaruhi kualitas dan biaya per kueri dari sampel inferensi. Saat ini, standar industri untuk pretraining adalah aturan Chinchilla, yang menyarankan rasio optimal komputasi sekitar 20 token pelatihan untuk setiap parameter model.

Read more  Google Siap Masuk dalam Pertarungan Desain AI di IO 2026!

Akan tetapi, para pembuat model AI modern, seperti Llama, Gemma, dan Qwen, seringkali melanggar aturan ini dengan sengaja melatih model yang lebih kecil dengan data yang sangat banyak. Sebagaimana diungkapkan oleh Nicholas Roberts, co-author makalah tersebut, pendekatan tradisional kurang memadai ketika membangun alur kerja kompleks: “Menurut saya, tumpukan inferensi akan gagal ketika setiap panggilan inferensi mahal. Ini terjadi ketika model besar dan perlu melakukan banyak pengambilan sampel berulang.” Alih-alih bergantung pada model besar, para pengembang dapat memanfaatkan model ringkas yang dilatih secara berlebihan.

Namun, karena hukum skala pelatihan dan waktu pengujian sering dianalisis secara terpisah, belum ada kerangka kerja yang ketat untuk menghitung seberapa banyak model harus dilatih ulang berdasarkan seberapa banyak sampel penalaran yang perlu dihasilkan saat penerapan.

Sulitnya merumuskan kerangka kerja ini karena skala pretraining dan waktu pengujian berbicara dalam dua bahasa matematika yang berbeda. Selama pretraining, kinerja model diukur menggunakan “kerugian”, metrik halus yang melacak kesalahan prediksi saat model belajar.

Pada saat pengujian, pengembang menggunakan metrik real-world untuk mengevaluasi kemampuan penalaran model, seperti pass@k, yang mengukur probabilitas bahwa model akan menghasilkan setidaknya satu jawaban yang benar dari k percobaan yang independen dan berulang.

Hukum skala Train-to-Test

Untuk menyelesaikan kesenjangan antara pelatihan dan penerapan, para peneliti memperkenalkan hukum skala Train-to-Test (T2). Secara sederhana, kerangka ini memprediksi kinerja penalaran model dengan memperlakukan tiga variabel sebagai satu kesatuan: ukuran model (N), volume token pelatihan yang dipelajari (D), dan jumlah sampel penalaran yang dihasilkan saat inferensi (k).

T2 menggabungkan anggaran pretraining dan inferensi menjadi satu rumus optimisasi yang memperhitungkan biaya dasar untuk melatih model (6ND) dan biaya yang semakin bertambah untuk mengajukan pertanyaan secara berulang saat inferensi (2Nk). Para peneliti mencoba berbagai pendekatan pemodelan: apakah memodelkan kerugian selama pretraining atau kinerja waktu pengujian (pass@k) sebagai fungsi dari N, D, dan k.

Read more  Wirausaha Sibuk? Solusi AI Ini Membantu Anda Menghadirkan Buku Tanpa Ribet!

Pendekatan pertama mengambil persamaan matematika yang familiar untuk skala Chinchilla dan langsung memodifikasinya dengan menambahkan variabel baru yang memperhitungkan jumlah sampel pengujian berulang (k). Ini memungkinkan para pengembang melihat bagaimana peningkatan compute inferensi menurunkan tingkat kesalahan keseluruhan model.

Pendekatan kedua langsung memodelkan akurasi pass@k yang lebih lanjut. Ini memberi tahu para pengembang probabilitas bahwa aplikasi mereka akan menyelesaikan masalah dengan anggaran komputasi tertentu.

Namun, apakah perusahaan harus menggunakan kerangka ini untuk setiap aplikasi? Roberts menjelaskan bahwa pendekatan ini sangat khusus. “Saya membayangkan bahwa manfaatnya tidak akan terlihat banyak untuk aplikasi yang berbasis pengetahuan, seperti model chat,” ujarnya. Sebaliknya, “T2 dirancang untuk aplikasi yang berat dalam penalaran seperti pengkodean, di mana biasanya Anda menggunakan pengambilan sampel berulang sebagai metode skala waktu pengujian.”

Makna bagi pengembang

Untuk memvalidasi hukum skala T2, para peneliti membangun alternatif uji yang ekstensif dengan lebih dari 100 model bahasa, mulai dari 5 juta hingga 901 juta parameter. Mereka melatih 21 model baru dengan checkpoint berlebih dari awal untuk menguji apakah ramalan matematika mereka terbukti di dunia nyata. Kemudian, mereka membandingkan model-model tersebut di delapan tugas yang beragam, termasuk dataset dunia nyata seperti SciQ dan OpenBookQA, serta tugas sintetis yang dirancang untuk menguji aritmetika, penalaran spasial, dan ingatan.

Kedua model matematika mereka membuktikan bahwa batas komputasi optimal bergeser jauh dari skala Chinchilla standar. Untuk memaksimalkan kinerja dalam anggaran tetap, pilihan optimal adalah model yang jauh lebih kecil dan dilatih dengan jauh lebih banyak data dibandingkan aturan 20 token per parameter yang tradisional.

Dalam eksperimen mereka, model kecil yang dilatih secara berlebihan terus-menerus mengungguli model besar yang optimal Chinchilla dalam semua delapan tugas evaluasi ketika biaya pengambilan sampel waktu pengujian diperhitungkan.

Bagi para pengembang yang ingin menerapkan temuan ini, hambatan teknisnya terbilang rendah.

“Tidak ada yang rumit untuk melakukan skala waktu pengujian dengan model kami saat ini,” kata Roberts. “Pada penerapan, para pengembang dapat mengintegrasikan infrastruktur yang membuat proses pengambilan sampel lebih efisien (misalnya, caching KV jika Anda menggunakan transformer).”

Read more  Kevin Hartz Raih Kesuksesan Besar: A* Tutup Pendanaan Ketiga dengan $450 Juta!

Caching KV membantu dengan menyimpan konteks yang telah diproses sebelumnya sehingga model tidak perlu membaca ulang prompt awal dari awal untuk setiap sampel penalaran baru.

Akan tetapi, pelatihan yang berlebihan memiliki trade-off praktis. Meskipun model yang dilatih berlebihan dikenal sulit dan lebih keras untuk disetel, Roberts mencatat bahwa saat mereka menerapkan penyetelan halus yang terawasi, “meskipun efek ini ada, itu tidak cukup kuat untuk menarik model optimal kembali ke Chinchilla.” Strategi komputasi optimal tetap berpihak pada model ringkas.

Meski demikian, tim yang memaksimalkan ini hingga batas ekstrim harus waspada terhadap batas data fisik. “Satu sudut pandang adalah jika Anda menjalankan rekomendasi pelatihan ulang kami secara ekstrem, Anda mungkin akan kehabisan data pelatihan,” kata Roberts, merujuk pada “dinding data” yang mengancam di mana data internet berkualitas tinggi habis.

Eksperimen ini mengonfirmasi bahwa jika aplikasi bergantung pada menghasilkan beberapa sampel penalaran waktu pengujian, melatih model ringkas secara agresif adalah cara yang paling efektif secara praktis dan matematis untuk menghabiskan anggaran komputasi end-to-end.

Untuk membantu para pengembang memulai, tim riset berencana membuka sumber kode dan checkpoint mereka dalam waktu dekat, memungkinkan perusahaan untuk memasukkan data mereka sendiri dan segera menguji perilaku skala. Pada akhirnya, kerangka ini berfungsi sebagai kekuatan penyeimbang dalam industri AI.

Ini sangat penting, mengingat tingginya harga model-model terdepan dapat menjadi penghalang saat Anda mengembangkan aplikasi yang mengandalkan model penalaran.

“T2 secara fundamental mengubah siapa yang dapat membangun model penalaran yang kuat,” tutup Roberts. “Anda mungkin tidak perlu anggaran komputasi yang besar untuk mencapai penalaran yang mutakhir. Sebaliknya, Anda hanya perlu data yang bagus dan pengalokasian anggaran pelatihan serta inferensi yang pintar.”

Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya PM Polandia Tuduh Ada Pengaruh Kripto Terkait Rusia dalam Kampanye Pilpres PM Polandia Tuduh Ada Pengaruh Kripto Terkait Rusia dalam Kampanye Pilpres
Artikel Berikutnya Filipina dan AS Siapkan Pusat Industri untuk Perkuat Keamanan Rantai Pasokan Filipina dan AS Siapkan Pusat Industri untuk Perkuat Keamanan Rantai Pasokan
- Advertisement -
Ad image

Don't Miss

Pejabat Indonesia Janji Stabilkan Rupiah dan Tarik Investasi Baru
Pejabat Indonesia Janji Stabilkan Rupiah dan Tarik Investasi Baru
Market
Gelombang Panas Asia: Ancaman Ganda bagi Ekonomi di Tengah Kenaikan Harga Minyak
Gelombang Panas Asia: Ancaman Ganda bagi Ekonomi di Tengah Kenaikan Harga Minyak
Market
KL dan JB Siap Memenuhi Keramaian Mal di Malaysia!
KL dan JB Siap Memeriahkan Pusat Perbelanjaan Malaysia yang Padat!
Market
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Dua CVE Palo Alto Diberi Skor Manageable oleh CVSS, Namun Menyatukan Keduanya Memberikan Akses Root ke 13.000 Perangkat.
Bisnis

Dua CVE Palo Alto Diberi Skor Manageable oleh CVSS, Namun Menyatukan Keduanya Memberikan Akses Root ke 13.000 Perangkat.

Keenan
25 April 2026
AI Mengubah Mobil Terkoneksi Menjadi "Detektor" Pothole yang Canggih
Bisnis

AI Mengubah Mobil Terkoneksi Menjadi “Detektor” Pothole yang Canggih

Keenan
12 Mei 2026
Kiat Eva Longoria untuk Entrepreneur yang Terjebak dalam Kebuntuan
Bisnis

Kiat Eva Longoria untuk Entrepreneur yang Terjebak dalam Kebuntuan

Keenan
8 April 2026
Perombakan Siri Apple: Fitur Baru Bisa Hapus Chat Secara Otomatis!
Bisnis

Perombakan Siri Apple: Fitur Baru Bisa Hapus Chat Secara Otomatis!

Keenan
18 Mei 2026
Tips dan Jawaban Wordle #1768 untuk Rabu, 22 April: Siapkan Strategi Cerdas!
Bisnis

Petunjuk dan Jawaban Wordle #1772 untuk Hari Minggu, 26 April!

Keenan
26 April 2026
Tips dan Jawaban Wordle #1768 untuk Rabu, 22 April: Siapkan Strategi Cerdas!
Bisnis

Tebak Wordle #1801: Petunjuk dan Jawaban untuk Senin, 25 Mei

Keenan
25 Mei 2026
Siapa yang Menentukan Apa yang Diberitahukan AI? Campbell Brown, Mantan Kepala Berita Meta, Berbagi Pandangannya
Bisnis

Siapa yang Menentukan Apa yang Diberitahukan AI? Campbell Brown, Mantan Kepala Berita Meta, Berbagi Pandangannya

Keenan
14 Mei 2026
Anthropic Luncurkan Claude Design: Alat AI yang Ubah Ide Menjadi Prototipe dan Tantang Figma
Bisnis

Anthropic Luncurkan Claude Design: Alat AI yang Ubah Ide Menjadi Prototipe dan Tantang Figma

Keenan
19 April 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?