Finware
  • Beranda
  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Pemberitahuan
FinwareFinware
  • News
  • Market
  • Bisnis
  • Kripto
  • Tech
Search
  • Quick Access
    • Beranda
    • Contact Us
    • Riwayat
    • Disimpan
    • Topik Pilihan
    • Feed
  • Categories
    • News
    • Market
    • Bisnis
    • Kripto
    • Tech

Artikel Populer

Jangan lewatkan artikel menarik lainnya
Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Indonesia Terancam Tertinggal dalam Euforia EV, Sebagian Besar Nikel Dialihkan ke Baja Tahan Karat, Temuan Riset Mengungkap

Reihan
19 April 2026
Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Aksi Saham Terbesar Siang Ini: META, BBY, APP, SMG Siap Mengguncang Pasar!

Dirga
27 Maret 2026
Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Warren Buffett Akui Terlambat Jual Saham Apple: Siap Tambah, Tapi Tunggu Pasar Lebih Baik!

Dirga
31 Maret 2026
© 2026 Finware Media. All Right Reserved.
Finware > Bisnis > Peneliti Berhasil Latih Model Dasar dari Awal dengan Biaya Hanya $1.500
Bisnis

Peneliti Berhasil Latih Model Dasar dari Awal dengan Biaya Hanya $1.500

Keenan
Terakhir diperbarui: 11 Juni 2026 5:37 PM
Oleh
Keenan
8 Menit Baca
Bagikan
Peneliti Berhasil Latih Model Dasar dari Awal dengan Biaya Hanya $1.500
Bagikan

Membangun model LLM dari awal itu bikin pusing dan menguras dompet, mengingat biayanya bisa menjangkau jutaan dolar serta memerlukan data dalam skala internet. Oleh karena itu, banyak perusahaan yang memilih untuk tidak terjun ke hal ini. Tapi, Sapient muncul dengan solusi yang lebih terjangkau.

Table of Content
  • Hambatan dalam pelatihan
  • Memikirkan kembali arsitektur dengan HRM-Text
  • HRM-Text di lapangan
  • Penerapan praktis dan masa depan AI perusahaan

Untuk mengatasi cara pengembangan yang rumit ini, para peneliti di Sapient merancang HRM-Text yang menggantikan Transformer standar dengan Hierarchical Recurrent Model (HRM) yang jauh lebih efisien. Ini adalah arsitektur yang diperkenalkan tahun lalu dan kini siap untuk mengubah permainan.

HRM memisahkan perhitungan ke dalam dua lapisan: satu lambat untuk strategi dan satu lagi cepat untuk eksekusi. Alih-alih memprediksi token secara otomatis pada teks mentah, HRM-Text dilatih secara eksklusif berdasarkan pasangan instruksi-respons. Ini mendekati pengaturan dunia nyata di mana pengguna biasanya menginginkan jawaban yang spesifik dan terarah dalam menyelesaikan tugas tertentu.

Para peneliti berhasil melatih model HRM-Text dengan parameter satu miliar dari nol dengan biaya dan jumlah token yang jauh lebih sedikit dibandingkan LLM lainnya. Model ini menunjukkan performa yang bersaing dengan model-model besar lainnya pada tolok ukur industri penting.

Hambatan dalam pelatihan

Saat melatih LLM, kita tidak peduli jika model tersebut menghafal urutan kata dari thread acak di Reddit tahun 2014. Yang kita inginkan adalah model tersebut mengembangkan pemahaman mendalam tentang bahasa manusia, logika, fakta, dan penalaran.

Metode yang ada saat ini sangat memakan biaya: mencakar internet, menjalankan prediksi token berikutnya dalam skala triliunan, dan berharap model tersebut mengembangkan model internal yang dapat berfungsi dengan baik. Semua ini berujung pada pengeluaran jutaan dolar untuk kekuatan komputasi demi memaksa model menghafal semua informasi yang terkumpul.

Read more  Lima Tanda Data Drift yang Mengancam Model Keamanan Anda

Sebaliknya, industri perlu melihat ini bukan hanya sebagai hambatan komputasi, tetapi sebagai batasan bisnis yang serius. Guan Wang, CEO Sapient Intelligence, menyebut ini sebagai masalah “ekonomi iterasi.”

“Perusahaan saat ini menghadapi tiga masalah besar: pelatihan yang mahal, infrastruktur yang berat, dan siklus eksperimen yang terlalu lambat,” kata Wang. “Ketergantungan industri pada skala hanya mendorong: ‘Jika model gagal, buatlah lebih besar. Tambahkan data. Tambahkan GPU.’ Meskipun itu berhasil, sudah saatnya kita mencapai titik di mana hasil yang didapat mulai menyusut.” Wang berpendapat bahwa lebih banyak skala sering berarti lebih banyak penghafalan, lebih banyak latensi, lebih banyak infrastruktur, dan lebih banyak ketergantungan pada vendor. Ini tidak selalu menghasilkan mesin penalaran yang lebih baik untuk perusahaan.

Memikirkan kembali arsitektur dengan HRM-Text

HRM, yang diperkenalkan pada tahun 2025, merupakan langkah besar dari model Transformer tradisional. Untuk membangun mesin yang lebih efisien, HRM memisahkan perhitungan menjadi lapisan strategis yang lambat dan eksekusi yang cepat. L-module yang cepat melakukan penyempurnaan lokal, sementara H-module yang lambat menjaga konteks semantik yang stabil. Proses pengolahan mencakup dua siklus yang saling bertautan, di mana setiap siklus melibatkan tiga pembaruan L-module cepat diikuti oleh satu pembaruan H-module yang lambat.

Selama pengujian, para peneliti menemukan bahwa arsitektur berbagi parameter standar, seperti TRM dari Samsung, kadang-kadang mampu menangani teka-teki logika kecil. Namun, mereka menjadi sangat tidak stabil saat diperluas menjadi satu miliar parameter untuk tugas bahasa. Pemisahan antara H-module yang lambat dan L-module yang cepat adalah hal yang diperlukan, bukan sekadar pilihan estetika. Wang menjelaskan bahwa “Untuk grid logika, kita bisa menggunakan mekanisme rekursif kecil karena dunia itu bersih dan terjaga. Tapi bahasa tidak seperti itu. Bahasa memerlukan penyempurnaan lokal yang cepat dan stabilitas semantik yang lambat.”

Read more  CEO OpenAI Minta Maaf kepada Komunitas Tumbler Ridge

Walaupun HRM terbukti efektif untuk masalah penalaran simbolis yang terkontrol, para peneliti menemui dinding saat menerapkannya pada kompleksitas bahasa yang besar dan terbuka. Meskipun loop HRM membuatnya efisien dalam berpikir, loop tersebut juga membuatnya rentan terhadap fluktuasi matematis yang drastis saat dilatih pada kekacauan bahasa manusia, seperti gradien yang meledak atau menghilang.

HRM-Text di lapangan

Para peneliti membangun model HRM-Text dengan parameter satu miliar yang sangat kompak. Alih-alih menggunakan jalur multi-tahap standar yang memerlukan pemrosesan triliunan kata dari teks mentah internet, mereka melatih model ini dari nol menggunakan dataset terkurasi yang hanya berisi 40 miliar token. Data pelatihan hanya terdiri dari pasangan instruksi-respons di berbagai bidang, termasuk instruksi umum, matematika, logika simbolis, dan latihan buku teks.

Model ini diuji pada berbagai tolok ukur AI dasar, sangat menekankan pengetahuan, penalaran, logika, matematika, dan pemahaman. Hasilnya menunjukkan pergeseran signifikan dalam batas komputasi terhadap performa. Model HRM-Text dengan satu miliar parameter mencapai 60.7% di MMLU, 84.5% di GSM8K, dan 56.2% di MATH. Skor ini sangat bersaing dengan model dasar berkisar antara dua miliar hingga tujuh miliar parameter lainnya.

Poin terpenting bagi audiens perusahaan adalah efisiensi dan implikasi praktis dari model ini. Melatih model fondasi dari nol biasanya memerlukan investasi jutaan dolar yang hanya bisa dilakukan oleh raksasa teknologi. Namun, HRM-Text bisa dilatih hanya dalam 1.9 hari menggunakan kluster 16 GPU dengan biaya komputasi sekitar $1,500, menghabiskan 100 hingga 900 kali lebih sedikit token pelatihan serta 96 hingga 432 kali lebih sedikit komputasi dibandingkan model lain seperti Qwen, Gemma, dan Llama.

Secara keseluruhan, HRM-Text memperlihatkan bahwa model tidak perlu menghafal seluruh internet untuk menjadi mesin penalaran yang cerdas. Para peneliti juga melaksanakan uji kontaminasi ketat untuk memastikan model ini tidak sekadar menghafal jawaban tolok ukur. Pada tolok ukur DROP, meskipun menunjukkan sinyal kontaminasi marginal, HRM-Text masih berhasil mendapatkan skor 81.1% pada subset yang benar-benar bersih.

Read more  Keluarnya Opendoor dari India Memicu Diskusi Besar seputar AI dan Outsourcing

Penerapan praktis dan masa depan AI perusahaan

Walaupun skor tolok ukur dan efisiensi biaya sangat mencolok, Sapient mengingatkan pada batasan yang ada pada model saat ini. Rilis awal ini sebaiknya dilihat sebagai bukti konsep, mirip dengan rilis awal GPT, yang dirancang untuk menunjukkan keunggulan arsitektur ini.

“Sejujurnya, HRM-Text belum dapat digunakan sebagai pengganti ChatGPT langsung,” kata Wang. “Ini adalah model penalaran bahasa dasar yang kompak. Bagi tim teknik perusahaan, pekerjaan operasional akan berfokus pada template, pemilihan mode, masking perhatian, dan penyelarasan.”

Bagi tim teknik AI yang ingin bereksperimen, memulai memerlukan disiplin tekstual tertentu. Model ini mendukung pustaka Transformers (memerlukan transformers >= 5.9.0), dan jalur penggunaan untuk vLLM serta SGLang sedang dikembangkan. Tugas utama tekniknya melibatkan pengelolaan desain PrefixLM: aplikasi chat multi-turn produksi memerlukan logika cache KV yang cermat agar prompt pengguna mendapat perhatian timbal balik penuh.

“Ketika biaya pelatihan model penalaran yang mampu turun hingga sekitar $1,500, AI bukan lagi sekadar masalah infrastruktur dan menjadi pertanyaan strategi,” kata Wang. “Perusahaan Fortune 500 tak lagi bertanya, ‘Bisakah kita membeli model dasar?’ tetapi mulai bertanya, ‘Apa yang harus diketahui model kita tentang bisnis kita, dan jenis penalaran apa yang harus dioptimalkan?'”

Bagikan Artikel Ini
Facebook Whatsapp Whatsapp LinkedIn Telegram Threads Salin Tautan
Avatar photo
OlehKeenan
Artikel eksklusif dari Keenan Prawira seputar tren bisnis terbaru, pendanaan startup, dan aksi korporasi. Insight esensial untuk para pemimpin bisnis modern.
Artikel Sebelumnya Pengalaman Menggunakan Siri AI di iPhone, Mac, dan iPad: Mengapa Asisten Generasi Selanjutnya dari Apple Ini Bakal Menjadi Favorit Anda! Pengalaman Menggunakan Siri AI di iPhone, Mac, dan iPad: Mengapa Asisten Generasi Selanjutnya dari Apple Ini Bakal Menjadi Favorit Anda!
Artikel Berikutnya AirAsia X Tunda Rute Penerbangan ke Bahrain karena Konflik Regional AirAsia X Tunda Rute Penerbangan ke Bahrain karena Konflik Regional
- Advertisement -
Ad image

Don't Miss

Bitcoin Berpotensi Masuk Fase Penurunan Kritis di Bawah Level Ini
Bitcoin Berpotensi Masuk Fase Penurunan Kritis di Bawah Level Ini
Kripto
Saham Rusia Turun di Penutupan Perdagangan; Indeks MOEX Rusia Tetap Stabil
Saham Rusia Turun di Penutupan Perdagangan; Indeks MOEX Rusia Tetap Stabil
Market
Menutup Kesenjangan Literasi AI: Kunci Kesetaraan Gender di Dunia Teknologi
Menutup Kesenjangan Literasi AI: Kunci Kesetaraan Gender di Dunia Teknologi
Tech
- Advertisement -
Ad image

Baca Juga

Jelajahi insight lain yang sejalan dengan artikel ini!
Startup AI Terkenal LiteLLM Tinggalkan Delve yang Kontroversial
Bisnis

Startup AI Terkenal LiteLLM Tinggalkan Delve yang Kontroversial

Keenan
31 Maret 2026
Ascend Elements, Perusahaan Daur Ulang Baterai, Mengajukan Permohonan Kebangkrutan
Bisnis

Ascend Elements, Perusahaan Daur Ulang Baterai, Mengajukan Permohonan Kebangkrutan

Keenan
11 April 2026
Subsidi Dollar yang Lemah: Kunci Kekuatan yang Tak Terpisahkan bagi Industri Minyak AS
Bisnis

Subsidi Dollar yang Lemah: Kunci Kekuatan yang Tak Terpisahkan bagi Industri Minyak AS

Keenan
28 Mei 2026
Intercom, kini bernama Fin, luncurkan agen AI yang tugasnya hanya mengelola agen AI lainnya
Bisnis

Intercom, kini bernama Fin, luncurkan agen AI yang tugasnya hanya mengelola agen AI lainnya

Keenan
17 Mei 2026
Faktor Kunci yang Menghambat Konversi Pemasaran Anda
Bisnis

Faktor Kunci yang Menghambat Konversi Pemasaran Anda

Keenan
30 Mei 2026
Dua Film Terbesar Akhir Pekan Ini Disutradarai oleh YouTuber!
Bisnis

Dua Film Terbesar Akhir Pekan Ini Disutradarai oleh YouTuber!

Keenan
1 Juni 2026
Porsche Siapkan Cayenne Coupe All-Electric Sebagai Penambahan Terbaru di Lineup Mereka
Bisnis

Porsche Siapkan Cayenne Coupe All-Electric Sebagai Penambahan Terbaru di Lineup Mereka

Keenan
24 April 2026
Erin Brockovich Menyoroti Kehilangan Transparansi pada Data Center
Bisnis

Erin Brockovich Menyoroti Kehilangan Transparansi pada Data Center

Keenan
1 Juni 2026
Tampilkan Lebih Banyak
- Advertisement -
Ad image
- Advertisement -
Ad image
Finware

Baca berita keuangan global real-time, insight market APAC, tren bisnis, dan crypto paling komprehensif. Curi start sebelum market bergerak.

  • Kanal:
  • Bisnis
  • Market
  • Tech
  • Kripto

Personal

  • Riwayat
  • Disimpan
  • Feed
  • Topik Pilihan

Tentang Kami

  • Beranda
  • Hubungi Kami

© 2026 Finware Media. All Right Reserved.

Welcome Back!

Sign in to your account

Nama Pengguna atau Alamat Email
Kata Sandi

Lupa kata sandi Anda?