Membangun model LLM dari awal itu bikin pusing dan menguras dompet, mengingat biayanya bisa menjangkau jutaan dolar serta memerlukan data dalam skala internet. Oleh karena itu, banyak perusahaan yang memilih untuk tidak terjun ke hal ini. Tapi, Sapient muncul dengan solusi yang lebih terjangkau.
Untuk mengatasi cara pengembangan yang rumit ini, para peneliti di Sapient merancang HRM-Text yang menggantikan Transformer standar dengan Hierarchical Recurrent Model (HRM) yang jauh lebih efisien. Ini adalah arsitektur yang diperkenalkan tahun lalu dan kini siap untuk mengubah permainan.
HRM memisahkan perhitungan ke dalam dua lapisan: satu lambat untuk strategi dan satu lagi cepat untuk eksekusi. Alih-alih memprediksi token secara otomatis pada teks mentah, HRM-Text dilatih secara eksklusif berdasarkan pasangan instruksi-respons. Ini mendekati pengaturan dunia nyata di mana pengguna biasanya menginginkan jawaban yang spesifik dan terarah dalam menyelesaikan tugas tertentu.
Para peneliti berhasil melatih model HRM-Text dengan parameter satu miliar dari nol dengan biaya dan jumlah token yang jauh lebih sedikit dibandingkan LLM lainnya. Model ini menunjukkan performa yang bersaing dengan model-model besar lainnya pada tolok ukur industri penting.
Hambatan dalam pelatihan
Saat melatih LLM, kita tidak peduli jika model tersebut menghafal urutan kata dari thread acak di Reddit tahun 2014. Yang kita inginkan adalah model tersebut mengembangkan pemahaman mendalam tentang bahasa manusia, logika, fakta, dan penalaran.
Metode yang ada saat ini sangat memakan biaya: mencakar internet, menjalankan prediksi token berikutnya dalam skala triliunan, dan berharap model tersebut mengembangkan model internal yang dapat berfungsi dengan baik. Semua ini berujung pada pengeluaran jutaan dolar untuk kekuatan komputasi demi memaksa model menghafal semua informasi yang terkumpul.
Sebaliknya, industri perlu melihat ini bukan hanya sebagai hambatan komputasi, tetapi sebagai batasan bisnis yang serius. Guan Wang, CEO Sapient Intelligence, menyebut ini sebagai masalah “ekonomi iterasi.”
“Perusahaan saat ini menghadapi tiga masalah besar: pelatihan yang mahal, infrastruktur yang berat, dan siklus eksperimen yang terlalu lambat,” kata Wang. “Ketergantungan industri pada skala hanya mendorong: ‘Jika model gagal, buatlah lebih besar. Tambahkan data. Tambahkan GPU.’ Meskipun itu berhasil, sudah saatnya kita mencapai titik di mana hasil yang didapat mulai menyusut.” Wang berpendapat bahwa lebih banyak skala sering berarti lebih banyak penghafalan, lebih banyak latensi, lebih banyak infrastruktur, dan lebih banyak ketergantungan pada vendor. Ini tidak selalu menghasilkan mesin penalaran yang lebih baik untuk perusahaan.
Memikirkan kembali arsitektur dengan HRM-Text
HRM, yang diperkenalkan pada tahun 2025, merupakan langkah besar dari model Transformer tradisional. Untuk membangun mesin yang lebih efisien, HRM memisahkan perhitungan menjadi lapisan strategis yang lambat dan eksekusi yang cepat. L-module yang cepat melakukan penyempurnaan lokal, sementara H-module yang lambat menjaga konteks semantik yang stabil. Proses pengolahan mencakup dua siklus yang saling bertautan, di mana setiap siklus melibatkan tiga pembaruan L-module cepat diikuti oleh satu pembaruan H-module yang lambat.
Selama pengujian, para peneliti menemukan bahwa arsitektur berbagi parameter standar, seperti TRM dari Samsung, kadang-kadang mampu menangani teka-teki logika kecil. Namun, mereka menjadi sangat tidak stabil saat diperluas menjadi satu miliar parameter untuk tugas bahasa. Pemisahan antara H-module yang lambat dan L-module yang cepat adalah hal yang diperlukan, bukan sekadar pilihan estetika. Wang menjelaskan bahwa “Untuk grid logika, kita bisa menggunakan mekanisme rekursif kecil karena dunia itu bersih dan terjaga. Tapi bahasa tidak seperti itu. Bahasa memerlukan penyempurnaan lokal yang cepat dan stabilitas semantik yang lambat.”
Walaupun HRM terbukti efektif untuk masalah penalaran simbolis yang terkontrol, para peneliti menemui dinding saat menerapkannya pada kompleksitas bahasa yang besar dan terbuka. Meskipun loop HRM membuatnya efisien dalam berpikir, loop tersebut juga membuatnya rentan terhadap fluktuasi matematis yang drastis saat dilatih pada kekacauan bahasa manusia, seperti gradien yang meledak atau menghilang.
HRM-Text di lapangan
Para peneliti membangun model HRM-Text dengan parameter satu miliar yang sangat kompak. Alih-alih menggunakan jalur multi-tahap standar yang memerlukan pemrosesan triliunan kata dari teks mentah internet, mereka melatih model ini dari nol menggunakan dataset terkurasi yang hanya berisi 40 miliar token. Data pelatihan hanya terdiri dari pasangan instruksi-respons di berbagai bidang, termasuk instruksi umum, matematika, logika simbolis, dan latihan buku teks.
Model ini diuji pada berbagai tolok ukur AI dasar, sangat menekankan pengetahuan, penalaran, logika, matematika, dan pemahaman. Hasilnya menunjukkan pergeseran signifikan dalam batas komputasi terhadap performa. Model HRM-Text dengan satu miliar parameter mencapai 60.7% di MMLU, 84.5% di GSM8K, dan 56.2% di MATH. Skor ini sangat bersaing dengan model dasar berkisar antara dua miliar hingga tujuh miliar parameter lainnya.
Poin terpenting bagi audiens perusahaan adalah efisiensi dan implikasi praktis dari model ini. Melatih model fondasi dari nol biasanya memerlukan investasi jutaan dolar yang hanya bisa dilakukan oleh raksasa teknologi. Namun, HRM-Text bisa dilatih hanya dalam 1.9 hari menggunakan kluster 16 GPU dengan biaya komputasi sekitar $1,500, menghabiskan 100 hingga 900 kali lebih sedikit token pelatihan serta 96 hingga 432 kali lebih sedikit komputasi dibandingkan model lain seperti Qwen, Gemma, dan Llama.
Secara keseluruhan, HRM-Text memperlihatkan bahwa model tidak perlu menghafal seluruh internet untuk menjadi mesin penalaran yang cerdas. Para peneliti juga melaksanakan uji kontaminasi ketat untuk memastikan model ini tidak sekadar menghafal jawaban tolok ukur. Pada tolok ukur DROP, meskipun menunjukkan sinyal kontaminasi marginal, HRM-Text masih berhasil mendapatkan skor 81.1% pada subset yang benar-benar bersih.
Penerapan praktis dan masa depan AI perusahaan
Walaupun skor tolok ukur dan efisiensi biaya sangat mencolok, Sapient mengingatkan pada batasan yang ada pada model saat ini. Rilis awal ini sebaiknya dilihat sebagai bukti konsep, mirip dengan rilis awal GPT, yang dirancang untuk menunjukkan keunggulan arsitektur ini.
“Sejujurnya, HRM-Text belum dapat digunakan sebagai pengganti ChatGPT langsung,” kata Wang. “Ini adalah model penalaran bahasa dasar yang kompak. Bagi tim teknik perusahaan, pekerjaan operasional akan berfokus pada template, pemilihan mode, masking perhatian, dan penyelarasan.”
Bagi tim teknik AI yang ingin bereksperimen, memulai memerlukan disiplin tekstual tertentu. Model ini mendukung pustaka Transformers (memerlukan transformers >= 5.9.0), dan jalur penggunaan untuk vLLM serta SGLang sedang dikembangkan. Tugas utama tekniknya melibatkan pengelolaan desain PrefixLM: aplikasi chat multi-turn produksi memerlukan logika cache KV yang cermat agar prompt pengguna mendapat perhatian timbal balik penuh.
“Ketika biaya pelatihan model penalaran yang mampu turun hingga sekitar $1,500, AI bukan lagi sekadar masalah infrastruktur dan menjadi pertanyaan strategi,” kata Wang. “Perusahaan Fortune 500 tak lagi bertanya, ‘Bisakah kita membeli model dasar?’ tetapi mulai bertanya, ‘Apa yang harus diketahui model kita tentang bisnis kita, dan jenis penalaran apa yang harus dioptimalkan?'”

