Cho dù đó là biên nhận một tập tin giấy cũ, hoặc một
file PDF, khi bạn đã có một tài liệu mà bạn cần phải chuyển đổi vào một tập tin
văn bản, bạn cần OCR
Giấy không bỏ đi. Bạn đã có
thể nhận thấy rằng ngay cả trong thời đại kỹ thuật số bạn vẫn còn có ngăn xếp của
các bản in bản sao cứng, sách, tạp chí, bài báo, hóa đơn, và giấy tờ khác mà bạn
phải tìm kiếm thông qua bằng tay, mỗi trang tại một thời điểm. Hoặc bạn cần phải
nhận được một bài luận cũ mà bạn đánh máy hoặc in năm trước sang định dạng kỹ
thuật số, và bạn đang sợ hãi gõ lại nó. Đây là nơi OCR (Optical Character
Reading) phần mềm càng trở nên một điều cần thiết hơn là sang trọng. OCR tạo ra
tìm kiếm, chỉnh sửa văn bản từ các tài liệu được in và cũng từ các bức ảnh của
các tài liệu in, hoặc các file PDF quét từ sách và giấy tờ cũ. Càng có nhiều
tài liệu giấy tờ, bạn càng cần OCR.
Khi
sử dụng OCR
Bạn sử dụng OCR cho hai chức
năng cơ bản: lưu trữ tài liệu hoặc đặt lại mục tiêu tài liệu. Để lưu trữ, bạn sẽ
thường cho tài liệu của bạn (biên lai, danh thiếp, tờ rơi, hoặc bất cứ điều gì
khác) vào máy quét của bạn và để cho phần mềm OCR của bạn tạo ra các file PDF
mà hiển thị một hình ảnh quét của tài liệu gốc mà còn chứa ẩn bên dưới quét
hình ảnh văn bản mà bạn có thể sao chép từ PDF và dán vào các ứng dụng khác, hoặc
bạn có thể tìm kiếm khi bạn cần phải tìm bản gốc.
Để đặt lại mục tiêu, OCR thường
chuyển đổi một bảng in vào một bảng tính Excel, hoặc một cuốn sách cũ hoặc
thành một file PDF với tìm kiếm văn bản ẩn dưới hình ảnh trang hoặc vào một tài
liệu xử lý văn bản mà bạn có thể chỉnh sửa và sử dụng lại. Phần mềm OCR cao cấp
cũng có thể chuyển đổi văn bản in vào tập tin HTML mà bất cứ ai có thể xem
trong trình duyệt.
Lựa
chọn phần mềm OCR
Khi bạn chọn một ứng dụng
OCR, bạn sẽ muốn quyết định xem bạn muốn nó chạy tự động, tương tác, hoặc kết hợp
cả hai. Khi một ứng dụng OCR chạy tự động, tất cả những gì cần làm là bấm vào một
nút, đi bộ, và quay trở lại để tìm tập tin đầu ra của bạn đã được tạo ra.
Khi
nó chạy tương tác, bạn thường sử dụng các công cụ hình ảnh nâng cao để làm thẳng
hoặc làm sắc nét hình ảnh, công cụ bố trí để ngăn chặn các phần của một trang
mà bạn không muốn đưa ra, và sau đó một công cụ soát lỗi để sửa bất kỳ lỗi đọc
nào bởi phần mềm . Với hầu hết các ứng dụng, bạn có thể lựa chọn giữa tự động
hóa và tương tác bằng cách cho bạn một bộ công cụ tương tác và cho phép bạn quyết
định những người sử dụng. Nhưng đọc hay đánh giá để xem có bao nhiêu tự do lựa
chọn bạn nhận được với từng ứng dụng riêng lẻ.
Phía
sau giao diện
Đằng sau giao diện của
tất cả các ứng dụng OCR được xây dựng trên một công cụ nhận dạng tính chất làm công việc chuyển đổi từ hình ảnh sang văn
bản. Giao diện đặc biệt nhất không thể bù đắp cho những hạn chế của một công cụ
nhận dạng luôn không chính xác và không phải ngẫu nhiên mà các sản phẩm lựa chọn
của các biên tập viên của chúng tôi có các công cụ nhận dạng mạnh nhất hiện có. |