Peneliti Ciptakan Otomatisasi Desain Strategi Pemikiran LLM yang Hemat 69,5% Penggunaan Token

Test-time scaling (TTS) kini jadi metode yang terbukti ampuh untuk meningkatkan performa model bahasa besar dalam aplikasi nyata dengan memberikan lebih banyak siklus komputasi saat inferensi. Meski demikian, strategi TTS sebelumnya seringkali dibuat secara manual, bergantung pada intuisi manusia untuk menentukan aturan berpikir model.

Table of Content

Kendala manual dalam test-time scaling
Automatisasi penemuan strategi dengan AutoTTS
Di balik pengendali yang dirancang AI
Penghematan biaya dan peningkatan akurasi dalam benchmark dunia nyata

Untuk mengatasi kendala ini, peneliti dari Meta, Google, dan beberapa universitas telah meluncurkan AutoTTS, sebuah framework yang secara otomatis menemukan strategi TTS terbaik. Pendekatan otomatis ini memungkinkan organisasi besar untuk mengoptimalkan alokasi komputasi tanpa perlu mengatur heuristik secara manual.

Dengan menerapkan strategi optimal yang ditemukan oleh AutoTTS, organisasi dapat menurunkan penggunaan token dan biaya operasional dalam menerapkan model pemikiran canggih di lingkungan produksi. Dalam percobaan, AutoTTS berhasil mengelola anggaran inferensi secara efisien, mengurangi konsumsi token hingga 69,5% tanpa mengorbankan akurasi.

Kendala manual dalam test-time scaling

Test-time scaling meningkatkan LLM dengan memberikan komputasi tambahan saat menghasilkan jawaban. Tambahan komputasi ini memungkinkan model untuk menghasilkan berbagai jalur pemikiran atau mengevaluasi langkah-langkah sementara sebelum menuju jawaban akhir.

Tantangan utama dalam merancang strategi TTS adalah menentukan cara mengalokasikan komputasi tambahan ini dengan optimal. Selama ini, peneliti merancang strategi ini secara manual, mengandalkan perkiraan untuk membangun heuristik yang kaku. Para insinyur perlu menghypotesis aturan dan ambang batas kapan sebuah model sebaiknya memperluas jalur pemikiran, menggali lebih dalam ke jalur yang ada, memangkas cabang yang tidak menjanjikan, atau bahkan berhenti berpikir sama sekali.

Kendalanya adalah proses penyetelan manual ini dibatasi oleh intuisi manusia, sehingga banyak kemungkinan pendekatan yang tidak terjelajahi. Hal ini seringkali menghasilkan kompromi yang suboptimal antara akurasi model dan biaya komputasi.

Algoritma TTS saat ini dapat dipetakan ke dalam ruang kontrol lebar-dalam â€” “lebar” adalah jumlah cabang pemikiran yang dieksplorasi, sedangkan “dalam” adalah sejauh mana masing-masing berkembang. Self-consistency (SC) mengambil sampel sejumlah trajektori tetap dan memberikan suara mayoritas untuk mendapatkan jawaban. Adaptive-consistency (ASC) menghemat komputasi dengan menghentikan lebih awal setelah mencapai ambang kepercayaan. Parallel-probe mengambil pendekatan yang lebih mendetail, memangkas cabang yang tidak menjanjikan sambil memperdalam cabang lainnya. Ketiga metode ini dirancang secara manual, dan itu lah yang ingin dipecahkan oleh AutoTTS.

Sementara beberapa metode yang lebih canggih menggunakan struktur yang lebih kaya seperti pencarian pohon atau verifikator eksternal, semuanya memiliki satu karakteristik utama: mereka dirancang dengan hati-hati. Pendekatan manual ini membatasi ruang lingkup penemuan strategi, meninggalkan sebagian besar potensi ruang alokasi sumber daya yang belum dimanfaatkan.

Automatisasi penemuan strategi dengan AutoTTS

AutoTTS mengubah cara TTS dioptimalkan. Alih-alih memperlakukan desain strategi sebagai tugas manusia, AutoTTS mendekatinya sebagai masalah pencarian algoritmik dalam lingkungan yang terkontrol.

Framework ini mendefinisikan ulang peran insinyur manusia dan model AI. Bukannya merancang aturan spesifik untuk kapan LLM sebaiknya memperluas, memangkas, atau berhenti berpikir, peran insinyur beralih ke pembangunan lingkungan penemuan. Manusia mendefinisikan batasan, termasuk ruang kontrol status dan tindakan, tujuan optimasi yang seimbang antara akurasi dan biaya, serta mekanisme umpan balik spesifik.

Sebuah LLM penjelajah, seperti Claude Code, merancang strateginya. Penjelajah ini berfungsi sebagai agen otonom yang secara iteratif mengusulkan â€œpengendaliâ€ TTS. Pengendali ini adalah kebijakan atau algoritma yang didefinisikan dalam kode yang menunjukkan bagaimana model AI mengalokasikan anggaran komputasinya selama inferensi. Penjelajah menguji dan menyempurnakan pengendali ini berdasarkan umpan balik hingga menemukan kebijakan alokasi sumber daya yang optimal.

Untuk menjaga pencarian otomatis ini terjangkau secara komputasi, AutoTTS mengandalkan â€œlingkungan replay offline.â€ Jika LLM penjelajah harus memanggil model pemikiran dasar untuk menghasilkan token baru setiap kali mengetes strategi baru, biayanya akan sangat tinggi. Sebagai gantinya, ia menggunakan ribuan trajektori pemikiran yang telah dikumpulkan sebelumnya dari LLM dasar. Trajektori ini termasuk â€œsinyal probe,â€ yang merupakan jawaban sementara yang membantu pengendali mengevaluasi kemajuan di berbagai cabang pemikiran.

Selama loop penemuan, agen penjelajah mengusulkan suatu pengendali dan mengevaluasinya terhadap data offline ini. Agen mengamati jejak eksekusi dari pengendali yang diusulkan, menunjukkan bagaimana ia mengalokasikan komputasi dari waktu ke waktu. Dengan menganalisis jejak ini, agen dapat mendiagnosis mode kegagalan tertentu, seperti mencatat jika suatu pengendali memangkas cabang terlalu agresif dalam situasi tertentu. Hal ini memberikan keuntungan dibandingkan sekadar melihat hasil akhir. Agen kemudian menulis ulang kodenya secara iteratif untuk meningkatkan tradeoff akurasi-biaya.

Di balik pengendali yang dirancang AI

Karena agen penjelajah tidak dibatasi oleh intuisi manusia, ia dapat menemukan aturan yang sangat terkoordinasi dan kompleks yang mungkin tidak akan pernah bisa dirancang oleh seorang insinyur manusia. Salah satu pengendali optimal yang ditemukan oleh AutoTTS, yang disebut Balance Controller, memanfaatkan beberapa mekanisme yang tidak jelas untuk mengelola komputasi:

Berhenti berbasis tren: Strategi yang dirancang manual sering kali menginstruksikan model untuk berhenti berpikir setelah mencapai ambang kepercayaan tertentu. Namun, agen AutoTTS menemukan bahwa kepercayaan sesaat bisa menyesatkan karena lonjakan sementara. Alih-alih, pengendali melacak rata-rata bergerak eksponensial (EMA) dari kepercayaan dan hanya berhenti jika tingkat kepercayaan keseluruhan tinggi dan tren tidak sedang menurun.
Kontrol lebar-dalam terhubung: Algoritma yang dirancang secara manual biasanya memperlakukan â€œpelebaranâ€ jalur pemikiran baru dan â€œpendalamanâ€ jalur yang sedang ada sebagai keputusan terpisah. AutoTTS menemukan umpan balik tertutup di mana kedua tindakan ini saling terkait. Jika kepercayaan cabang saat ini macet atau mundur, pengendali secara otomatis memicu pembentukan cabang baru.
Alokasi dalam memperhatikan keselarasan: Alih-alih memberikan semua cabang pemikiran aktif anggaran komputasi yang sama, pengendali secara dinamis mengidentifikasi cabang mana yang setuju dengan jawaban utama saat ini. Kemudian, cabang-cabang tersebut mendapatkan â€œledakanâ€ komputasi tambahan. Ini memusatkan anggaran komputasi pada konsensus yang muncul untuk segera memverifikasi apakah itu benar.

Penghematan biaya dan peningkatan akurasi dalam benchmark dunia nyata

Untuk menguji apakah AI bisa secara otonom menemukan strategi TTS yang lebih baik, para peneliti menyiapkan kerangka evaluasi yang ketat. Eksperimen inti dilakukan pada model Qwen3 dengan parameter antara 0.6B hingga 8B. Peneliti juga menguji kemampuan sistem untuk menggeneralisasi pada versi distilasi 8B dari model DeepSeek-R1.

Agen penjelajah AI awalnya ditugaskan untuk menemukan strategi optimal menggunakan benchmark pemikiran matematis AIME24. Strategi yang ditemukan ini kemudian diuji pada dua benchmark matematis lainnya, AIME25 dan HMMT25, serta benchmark pemikiran umum tingkat pascasarjana GPQA-Diamond.

Pengendali yang ditemukan oleh AutoTTS dibandingkan dengan empat algoritma TTS yang dirancang manual di industri. Baseline ini termasuk Self-Consistency dengan 64 jalur pemikiran paralel (SC@64), Adaptive-Consistency (ASC), Parallel-Probe, dan Early-Stopping Self-Consistency (ESC). ESC adalah pendekatan hibrida yang menghasilkan trajektori secara paralel dan berhenti lebih awal ketika jawaban tampak stabil.

Ketika diatur dalam mode seimbang yang memperhatikan biaya, pengendali yang ditemukan oleh AutoTTS mengurangi total konsumsi token sekitar 69,5% dibandingkan dengan SC@64. Sementara itu, pengendali ini mempertahankan akurasi rata-rata yang sama di empat model Qwen. Ketika anggaran inferensi meningkat, AutoTTS mendorong akurasi puncak melampaui semua baseline buatan manusia dalam lima dari delapan kasus pengujian.

Keefisienan ini juga berdampak pada tugas lain. Di benchmark GPQA-Diamond, varian AutoTTS yang seimbang mengurangi biaya token inferensi dari 510K token menjadi hanya 151K token, sambil sedikit meningkatkan akurasi keseluruhan. Di model DeepSeek, AutoTTS mencapai akurasi tertinggi di benchmark HMMT25 sambil menghemat hampir setengah dari pengeluaran token.

Bagi praktisi yang membangun aplikasi AI di perusahaan, eksperimen ini menggarisbawahi dua manfaat operasional utama:

Meningkatkan performa puncak: AutoTTS tidak hanya menghemat biaya konsumsi token. Ia secara aktif meningkatkan performa puncak yang dapat dicapai oleh model dasar. Pengendali yang dirancang AI sangat baik dalam mendeteksi cabang pemikiran yang berisik atau tidak produktif secara langsung dan terus-menerus mengarahkan anggaran computenya ke cabang yang menghasilkan sinyal pemikiran yang paling berguna.
Pembangunan kustom yang hemat biaya: Karena framework ini bergantung pada lingkungan replay offline, keseluruhan proses penemuan hanya memakan biaya $39,90 dan berlangsung selama 160 menit. Bagi tim perusahaan, ini berarti strategi pemikiran yang dioptimalkan yang disesuaikan dengan model dan tugas internal kini sudah terjangkau tanpa perlu anggaran riset yang besar.

Baik framework AutoTTS maupun Confidence Momentum Controller sudah tersedia di GitHub; CMC dapat digunakan sebagai pengganti langsung untuk pengendali TTS lainnya.