Ekstrak teks dari gambar dan file PDF dengan perangkat lunak OCR terbaik

3 9 minutes read

Saat ini, hampir semuanya (misalnya, foto, musik, video) telah menjadi digital, dan itu masuk akal, karena konten digital dapat dikelola dengan mudah. Jadi bagaimana dokumen teks bisa ditinggalkan? Berkat uang muka Pengenalan Karakter Optik (OCR) Secara teknik, sekarang lebih mudah untuk mendigitalkan teks yang dicetak atau tulisan tangan. Untuk melakukan itu, Anda memerlukan beberapa aplikasi perangkat lunak OCR yang sangat bagus, dan itulah tepatnya artikel ini. Perangkat lunak ini dapat membeli font dari perangkat pemindaian, atau Anda dapat memasukkan gambar atau file PDF Anda sendiri untuk mengubahnya menjadi teks yang dapat diedit. Penasaran? Kalau begitu mari kita tidak pergi melalui semak-semak dan mendapatkan 8 Perangkat Lunak OCR Terbaik yang Harus Anda Gunakan pada tahun 2020.

Perangkat lunak OCR terbaik untuk Windows, macOS dan Linux

1. ABBYY FineReader

Ketika datang ke pengenalan karakter optik, hampir tidak ada yang mendekati ABBYY FineReader. Diisi penuh dengan fitur luar biasa yang luar biasa, ABBYY FineReader membuat penggalian teks dari semua jenis gambar menjadi mudah.

Terlepas dari daftar fitur yang lengkap dan ekstensif, ABBYY FineReader sangat mudah digunakan. Anda dapat mengekstrak teks dari hampir semua jenis populer Format gambar, seperti PNG, JPG, BMP, dan TIFF. Dan itu belum semuanya. ABBYY FineReader juga dapat mengekstraksi teks dari file PDF dan DJVU. Setelah file sumber atau gambar dimuat (yang sebaiknya memiliki resolusi minimal 300 dpi, untuk pemindaian optimal), program secara otomatis menganalisis dan menentukan bagian-bagian berbeda dari file yang memiliki teks yang dapat dilepas. Anda dapat mengekstrak semua teks atau hanya memilih beberapa bagian tertentu. Setelah itu, yang perlu Anda lakukan adalah menggunakan opsi Simpan untuk memilih format output, dan ABBYY FineReader akan mengurus sisanya. Banyak format output yang didukung, seperti TXT, PDF, RTF, dan bahkan EPUB.

Teks keluaran dapat diedit dengan sempurna, dan teks bahkan dari sebagian besar dokumen konten (misalnya, yang memiliki banyak kolom dan tata letak yang rumit) diekstraksi dengan mulus. Fitur lain termasuk dukungan bahasa yang luas, berbagai gaya font / ukuran dan alat koreksi gambar untuk file dari pemindai dan kamera.

Setelah mengatakan semua itu, yang membedakan ABBYY FineReader dari program lainnya adalah ketepatannya yang nyaris sempurna. Dengan pembaruan Finereader 15 baru, sekarang perangkat lunak gunakan AI untuk meningkatkan pengenalan karakter. AI terutama digunakan ketika mengekstraksi teks dari dokumen yang ditulis dalam bahasa Jepang, Korea, dan Cina. Sederhananya, jika Anda menginginkan perangkat lunak OCR terbaik, dengan fitur-fitur canggih, format input / output yang luas, dan dukungan pemrosesan, pilih ABBYY FineReader.

Ketersediaan platform: Windows dan macOS

Harga: Versi berbayar mulai dari $ 199, uji coba gratis 30 hari tersedia

Unduh

2. Tesseract

Tesseract mungkin adalah perangkat lunak OCR paling canggih dan kuat dalam daftar ini dan saya akan memberi tahu Anda alasannya. Pertama, sedikit sejarah. Ini dikembangkan oleh HP pada tahun 1994, tetapi segera perusahaan merilisnya di bawah lisensi Apache untuk pengembangan open source. Pada tahun 2006, Google mengambil alih proyek dan mensponsori pengembang untuk mengerjakan Tesseract. Maju cepat sekarang dan Tesseract telah menjadi yang paling kuat Mesin OCR yang menggunakan Deep Learning untuk mengekstraksi teks dari gambar (BMP, PNG, JPEG, TIFF, dll.) Dan file PDF. Ada banyak layanan online yang menggunakan Tesseract OCR API untuk mengenali dan mengonversi ekstensi besar gambar dan file PDF. Dan bagian terbaiknya adalah itu tersedia untuk semua sistem operasi utama, termasuk Windows, macOS dan Linux. Belum lagi, tidak seperti ABBYY dan Adobe, Tesseract adalah sepenuhnya gratis Dan Anda dapat menggunakannya untuk mengonversi ribuan gambar menjadi teks tanpa membayar sepeser pun.

Namun, ada masalah kecil. Tesseract tidak menawarkan antarmuka GUI. Anda harus menggunakan mesin OCR pada baris perintah, yang bukan merupakan cangkir teh setiap orang. Jadi untuk mengatasi masalah ini, pengembang telah membangun klien GUI menggunakan kode sumber Tesseract untuk berbagai sistem operasi. Saya mencoba beberapa dari mereka dan memberi peringkat klien GUI terbaik Tesseract untuk berbagai sistem operasi. Jika Anda ingin dengan cepat mengkonversi gambar atau file PDF ke teks yang dapat diedit, gunakan OCR Space (tautan di bawah) di browser web. Ini sangat cepat dan melakukan pekerjaan dengan baik. Jika Anda masuk Windows lalu gunakan gImageReader; untuk Linux, gunakan OCRFeeder dan untuk macOS, gunakan PDF OCR X. Itu saja, tetapi jika Anda ingin mencoba lebih banyak klien GUI sendiri, buka ini tautan. Selain itu, jika Anda memiliki pengalaman, maka tentu saja Anda dapat menggunakan Tesseract di baris perintah.

Ketersediaan platform: Web, Windows, macOS dan Linux

Harga: Gratis

Unduh: Browser web, Windows, OS Mac, Linux, Baris perintah

3. Kofax OmniPage Ultimate

OmniPage Ultimate adalah perangkat lunak tingkat profesional untuk mengonversi gambar Anda (JPG dan PNG), dokumen, dan PDF ke file digital. Jika Anda memiliki perusahaan besar dan memerlukan perangkat lunak OCR yang andal, saya sangat merekomendasikan Kofax's OmniPage Ultimate. Namun, bagi orang-orang, perangkat lunak ini akan terlalu mahal. Adapun fitur, OmniPage bisa Digitalisasi gambar dan dokumen secara akurat sembari membuatnya dapat diedit dan dicari. Ini juga mendukung daftar panjang format gambar, jadi terlepas dari ekstensi file, Anda dapat dengan mudah mengubahnya ke format file yang diinginkan. Dalam hal fitur, saya akan mengatakan itu sangat dekat dengan ABBYY FineReader.

4. Kofax OmniPage Ultimate OCR Software Terbaik

Selain itu, OmniPage Ultimate menggunakan teknologi miliknya untuk mendeteksi desain gambar dan secara otomatis memutar dokumen dalam orientasi yang benar. Selain itu, Anda dapat menjadwalkan volume besar file PDF untuk pemrosesan batch menggunakan alat otomasi Anda. Belum lagi itu dapat mendeteksi lebih dari 120 bahasa dan dapat memproses gambar dan dokumen yang sesuai. Adapun format file output, mendukung PDF, DOC, EXCL, PPT, CDR, HTML, ePUB dan banyak lagi. Semua hal dipertimbangkan, OmniPage Ultimate sepertinya solusi OCR yang solid untuk pengguna bisnis.

Ketersediaan platform: Windows

Harga: Uji coba 15 hari gratis, versi berbayar seharga $ 183

Unduh

4. Readiris

Mencari perangkat lunak OCR yang sangat kuat yang memiliki banyak fitur, tetapi tidak benar-benar membutuhkan banyak usaha untuk memulai? Lihatlah Readiris karena mungkin itu yang Anda butuhkan.

Aplikasi tingkat profesional, Readiris memiliki serangkaian fitur komprehensif yang sebagian besar identik dengan ABBYY FineReader yang dibahas di atas. Dari BMP ke PNG dan dari PCX ke TIFF, Readiris mendukung beberapa format gambar. Selain itu, File PDF dan DJVU juga dapat diproses. Gambar dapat diperoleh dari perangkat pemindai, dan aplikasi ini juga memungkinkan Anda untuk mengatur parameter render khusus untuk file sumber / gambar, seperti perataan dan penyesuaian DPI, sebelum diuraikan. Meskipun Readiris dapat memproses gambar resolusi rendah dengan sangat baik, resolusi optimal harus setidaknya 300 dpi.

Setelah analisis selesai, Readiris menentukan bagian teks (atau zona), dan teks bisa diekstraksi dari area tertentu atau seluruh file. Teks yang diekstraksi dapat diedit dan dicari dan dapat disimpan dalam berbagai format seperti PDF, DOCX, TXT, CSV dan HTM.

5. Readiris

Juga, fitur penyimpanan cloud Readiris Pros memungkinkan Anda untuk secara langsung menyimpan teks yang diekstraksi ke berbagai layanan penyimpanan cloud seperti Dropbox, OneDrive, Google Drive dan banyak lagi. Ada cukup banyak fitur pengolah kata / pengeditan juga, dan Anda bahkan dapat memindai barcode.

Secara umum Anda harus menggunakan Readiris jika Anda mau Fitur ekstraksi / pengeditan teks yang kuat dalam satu paket yang mudah digunakan, lengkap dengan dukungan format input / output yang luas. Namun, Readiris sedikit goyah ketika harus memproses dokumen dengan tata letak yang rumit seperti beberapa kolom, tabel, dll.

Ketersediaan platform: Windows dan macOS

Harga: Versi berbayar mulai dari $ 49, tersedia uji coba gratis 10 hari

Unduh

5. Adobe Acrobat Pro DC

Jika Anda mencari perangkat lunak OCR yang kuat untuk penggunaan profesional maka saya tidak bisa merekomendasikan Adobe Acrobat Pro DC dengan cukup tinggi. Seperti halnya Adobe, pencipta PDF dan berbagai standar dokumen, perusahaan juga memilikinya Mengembangkan mesin OCR yang kuat untuk mengekstraksi teks secara akurat dari file PDF dengan gambar yang dipindai. Meskipun tidak memiliki banyak fitur seperti ABBYY FineReader, Adobe Acrobat pasti unggul di tingkat ekstraksi. Misalnya, Anda dapat dengan mudah mengimpor file PDF berbasis teks ke Adobe Acrobat, dan kemudian menggunakan teknologi OCR untuk mengonversi file menjadi teks yang dapat diedit. Namun, jika Anda ingin memilih gambar, Anda harus terlebih dahulu membuat file PDF dari gambar tersebut, dan kemudian Anda hanya dapat mengimpornya. Ada beberapa batasan pada bagian depan ini, tetapi selain itu, Adobe Acrobat adalah perangkat lunak OCR yang jauh lebih mampu.

2. Adobe Acrobat Pro DC Software OCR Terbaik

Semua yang dikatakan, bagian terbaik dari perangkat lunak ini adalah bahwa ia menjaga sumber dokumen asli menggunakan metode pembuatan font kustom. Karena Adobe memiliki gudang besar desain dan font berpemilik biasa, secara otomatis cocok dengan gaya font dokumen asli, dan kemudian mengonversi PDF ke font tertentu. Dan jika tidak ada sumber yang tersedia, maka menghasilkan font khusus dengan jenis huruf yang mirip. Ini adalah jenis fitur yang hanya dapat digunakan oleh Adobe. Jadi jika Anda ingin mengkonversi ribuan halaman gambar yang dipindai ke dalam file PDF (seperti buku) maka Adobe Acrobat Pro DC adalah perangkat lunak OCR terbaik yang dapat Anda pilih.

Ketersediaan platform: Windows dan macOS

Harga: Uji coba 7 hari gratis, versi berbayar mulai dari $ 12,99 / bln

Unduh

6. Microsoft OneNote

OneNote adalah aplikasi pencatat kaya fitur yang mengesankan yang juga mudah digunakan. Namun, mencatat bukanlah satu-satunya hal yang baik. Jika Anda menggunakan OneNote sebagai bagian dari alur kerja Anda, Anda bisa menggunakannya untuk melakukannya ekstraksi teks dasar, terima kasih atas kebaikan OCR yang ada di dalamnya.

6. Perangkat lunak OCR terbaik dari Microsoft OneNote

Menggunakan OneNote untuk mengekstraksi teks dari gambar sangat sederhana. Jika Anda menggunakan aplikasi desktop, yang harus Anda lakukan adalah menggunakanMasukkan pilihan untuk menambahkan gambar di salah satu buku catatan atau bagian. Setelah selesai, cukup klik kanan pada gambar dan pilih Salin teks gambaropsi. Semua konten tekstual dari gambar akan disalin ke clipboard dan dapat ditempelkan (dan karenanya diedit) di mana saja, sesuai kebutuhan. Baik itu PNG, JPG, BMP, atau TIFF, OneNote mendukung hampir semua format gambar utama.

Namun, kemampuan ekstraksi teks OneNotes sangat terbatas, dan Anda tidak bisa berurusan dengan gambar yang memiliki tata letak konten tekstual yang kompleks seperti tabel dan subbagian. Itu adalah sesuatu yang harus Anda waspadai.

Ketersediaan platform: Windows dan macOS

Harga:Gratis

Unduh

7. Amazon Textract

Tahun 2019 Amazon meluncurkan perangkat lunak OCR yang disebut Textract yang memiliki model pembelajaran mesin dan telah dilatih menggunakan jutaan dokumen. Secara otomatis dapat mendeteksi teks yang dicetak dari gambar (JPG dan PNG) dan file PDF dan membuatnya secara digital dengan presisi yang hampir sempurna. Meskipun Textract terutama tersedia di browser web, Anda juga dapat mengunduhnya dan menggunakan layanan melalui baris perintah. Selain itu, Textract tampaknya seperti perangkat lunak OCR yang cukup kuat Anda tidak hanya dapat mengekstrak teks, tetapi juga tabel, bidang, angka, dan nilai kunci. Saya sangat suka mengekstraksi tabel dari gambar yang dipindai karena dapat mempermudah dalam mengedit teks. Textract menyimpan data dalam tabel menggunakan skema yang telah ditentukan di mana ia mengekstrak semua data dalam bentuk baris dan kolom.

8. Amazon Textract Software OCR Terbaik

Setelah mengatakan semua itu, Amazon Textract menawarkan layanannya untuk individu dan perusahaan. Sebagai pengguna rumahan, Anda dapat mendaftar untuk akun AWS tier gratis dan menggunakan layanan ini, tetapi perhatikan bahwa Anda hanya dapat mengonversi 1.000 halaman dalam sebulan. Secara umum, Amazon Textract adalah perangkat lunak OCR yang sangat baik dan dapat digunakan oleh pengguna umum dan perusahaan.

Ketersediaan platform: Web, Windows, macOS, Linux

Harga: Gratis untuk 3 bulan pertama, paket Premium mulai dari $ 1,50 per 1000 halaman

Unduh

8. Google Documents

Tidak banyak orang tahu bahwa Google Documents memiliki fungsi OCR tersembunyi. Ya, Anda membacanya dengan benar dan Anda tidak memerlukan akun G Suite untuk menggunakan fitur ini. Tentu, ini bukan pendekatan yang paling langsung, tetapi Untuk pengguna umum yang ingin mengonversi file PDF ke teks yang dapat diedit secara gratis jadi Google Documents adalah yang terbaik, tanpa kecuali. Yang harus Anda lakukan adalah mengunggah file PDF ke Google Drive. Setelah itu, klik kanan padanya dan pergi ke opsi "Buka dengan". Terakhir, klik Google Documents dan Anda selesai. Sekarang file PDF akan terbuka di Google Documents dan secara otomatis mengonversinya menjadi teks yang dapat diedit dalam hitungan detik. Seberapa keren itu?

Google Documents

Sekarang Anda dapat mengedit semua teks, mencarinya, mengeditnya dan akhirnya menyimpan file dalam berbagai format file yang didukung oleh Google Documents. Dalam pengujian saya ini bekerja cukup baik untuk file PDF yang dibuat menggunakan pengolah kata. Namun, harap dicatat bahwa Anda tidak dapat mengonversi gambar atau memindai gambar ke file PDF. Jadi, jika Anda ingin alat OCR gratis dan sederhana untuk mengonversi file PDF ke teks yang dapat diedit, Google Documents telah Anda liput.

Ketersediaan platform: Web, Windows, macOS, Linux

Harga: Gratis

Kunjungi: Google Drive / /Google Documents

Semuanya siap untuk mengonversi gambar dan file PDF ke teks?

Mendigitalkan konten teks yang dicetak dan tulisan tangan sangat berguna karena membuat penyimpanan, pengeditan, dan berbagi menjadi sangat mudah. Dan perangkat lunak OCR yang disebutkan di atas melakukan pekerjaan cepat, tidak peduli seberapa dasar atau canggih kebutuhan ekstraksi teks Anda. Perlu fitur ekstraksi teks tingkat profesional dengan alat post-processing terbaik? Pilih ABBYY FineReader, Tesseract, atau OmniPage. Apakah Anda lebih suka perangkat lunak OCR sederhana yang hanya dasar-dasarnya? Gunakan OneNote atau Google Documents. Cobalah dan lihat bagaimana mereka bekerja untuk Anda. Apakah Anda tahu ada perangkat lunak OCR lain yang bisa dimasukkan dalam daftar di atas? Berteriak dalam komentar di bawah ini.

Name	Domain	Purpose	Expiry	Type
wpl_user_preference	apsachieveonline.org	WP GDPR Cookie Consent Preferences	1 year	HTTP
YSC	youtube.com	YouTube session cookie.	Session	HTTP
AWSALB	api.intentiq.com	Amazon Web Services Load Balancer cookie.	7 days	HTTP

Name	Domain	Purpose	Expiry	Type
VISITOR_INFO1_LIVE	youtube.com	YouTube cookie.	Session	HTTP
GPS	youtube.com	Google advertising domain	Session	HTTP

Name	Domain	Purpose	Expiry	Type
uid	tynt.com	Generic AddThis tracking cookie.	1 year	HTTP
bkdc	bluekai.com	BlueKai tracking cookie.	Session	HTTP
bku	bluekai.com	BlueKai tracking cookie.	Session	HTTP
IDE	doubleclick.net	Google advertising cookie used for user tracking and ad targeting purposes.	1 day	HTTP
_cc_dc	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_id	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_cc	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
_cc_aud	crwdcntrl.net	Lotame tracking cookie.	6 months	HTTP
vuid	vimeo.com	Vimeo tracking cookie	2 years	HTTP

Name	Domain	Purpose	Expiry	Type
CountUid	histats.com	---	1 year	---
HstCfa4342789	apsachieveonline.org	---	1 year	---
HstCmu4342789	apsachieveonline.org	---	1 year	---
HstCnv4342789	apsachieveonline.org	---	1 year	---
HstCns4342789	apsachieveonline.org	---	1 year	---
m	dtscout.com	---	Session	---
df	dtscout.com	---	3 months	---
l	dtscout.com	---	3 months	---
__stid	sharethis.com	---	1 year	---
__dtsu	apsachieveonline.org	---	3 months	---
33x_ps	33across.com	---	1 year	---
__cfduid	apsachieveonline.org	Generic CloudFlare functional cookie.	1 year	HTTP
HstCla4342789	apsachieveonline.org	---	1 year	---
HstPn4342789	apsachieveonline.org	---	1 year	---
HstPt4342789	apsachieveonline.org	---	1 year	---
b	dtscout.com	---	Session	---
st	dtscout.com	---	Session	---
pxcelPage_c010_C	t.sharethis.com	---	14 days	---
pids	tynt.com	---	3 months	---
pxcelBcnLcy	t.sharethis.com	---	51 years	---
ab	agkn.com	---	1 year	---
IQver	intentiq.com	---	2 years	---
intentIQ	intentiq.com	---	2 years	---
intentIQCDate	intentiq.com	---	2 years	---
AWSALBCORS	api.intentiq.com	---	7 days	---
bkpa	bluekai.com	---	6 months	---

Perangkat lunak OCR terbaik untuk Windows, macOS dan Linux

1. ABBYY FineReader

2. Tesseract

3. Kofax OmniPage Ultimate

4. Readiris

5. Adobe Acrobat Pro DC

6. Microsoft OneNote

7. Amazon Textract

8. Google Documents

Semuanya siap untuk mengonversi gambar dan file PDF ke teks?

Pos terkait

Xiaomi mengintip data ponsel cerdas Anda: F-Secure

12 Cara Untuk Membuat Konten Membosankan Menarik

Benchmark iPhone 11 pertama telah bocor, menunjukkan peningkatan sederhana

Trik Android: Menjadi ahli dengan tip dan tip rahasia ini – Daftar 2019