Baidu Perkenalkan Unlimited-OCR, Bisa Baca 40 Halaman Sekaligus
Optical Character Recognition (OCR) adalah teknologi yang mampu mengubah teks dari gambar atau dokumen fisik menjadi data digital. Fitur ini sudah jadi bagian penting dalam dunia pendidikan maupun pekerjaan. Pelajar dan mahasiswa memanfaatkannya untuk menyalin catatan atau materi dari buku dengan cepat, sementara di dunia kerja OCR banyak digunakan untuk mempercepat pengarsipan, pencarian data, hingga digitalisasi dokumen.
Kini, Baidu memperkenalkan teknologi OCR berbasis AI terbaru bernama Unlimited-OCR. Berbeda dari OCR konvensional, teknologi ini dirancang untuk memproses dokumen dalam jumlah besar sekaligus tanpa mengorbankan kecepatan maupun akurasi. Kehadirannya pun langsung mencuri perhatian komunitas teknologi dengan meraih lebih dari 4.000 bintang di GitHub hanya dalam waktu dua hari.

Keunggulan Unlimited-OCR dari Baidu
Unlimited-OCR dikembangkan untuk mengatasi kelemahan OCR tradisional yang biasanya mulai kewalahan saat menangani dokumen dengan banyak halaman. Berkat pendekatan Reference Sliding Window Attention (R-SWA), sistem dapat membaca dokumen panjang secara utuh tanpa perlu menggabungkan hasil dari setiap halaman secara manual.
Secara teknis, model ini hanya mengacu pada gambar penuh dan 128 token terakhir saat menghasilkan teks. Pendekatan tersebut membuat penggunaan memori tetap efisien, sekaligus menjaga kecepatan pemrosesan tetap stabil meski ukuran dokumen terus bertambah.
Baca Juga: Mac Studio Baru akan Dapat Upgrade Signifikan di Tahun 2028 • Jagat Review
Model ini menggunakan 500 juta parameter dari total 3 miliar parameter, dimana Unlimited-OCR dapat memproses lebih dari 40 halaman sekaligus. Kombinasi ini membuatnya menjadi salah satu solusi OCR yang efisien untuk menangani dokumen berukuran besar.
Keunggulan lainnya ada pada konsistensi performa. Banyak sistem OCR mengalami penurunan akurasi maupun kecepatan ketika harus memproses dokumen yang semakin panjang.
Sementara itu, Unlimited-OCR mampu mempertahankan kualitas hasil berkat teknologi R-SWA. Karena itu, teknologi ini tidak hanya menarik untuk kebutuhan pendidikan, tetapi juga berpotensi dimanfaatkan di berbagai sektor profesional seperti hukum, riset, hingga administrasi yang sehari-hari berhadapan dengan dokumen kompleks.













