Optiskā rakstzīmju atpazīšana (OCR), izmantojot (Py)Tesseract: 1. daļa

Izmēģiniet Mūsu Instrumentu Problēmu Novēršanai

Python-tesseract ir optiskās rakstzīmju atpazīšanas (OCR) rīks Python. Tas ir, tas atpazīs un izlasīs attēlos iegulto tekstu.

Python-tesseract ir Google Tesseract-OCR Engine iesaiņojums. Tas ir noderīgs arī kā atsevišķs izsaukšanas skripts tesseraktam, jo ​​tas var lasīt visus attēlu veidus, ko atbalsta Pillow un Leptonica attēlveidošanas bibliotēkas, tostarp jpeg, png, gif, BMP, tiff un citus. Turklāt, ja to izmanto kā skriptu, Python-tesseract izdrukās atpazīto tekstu, nevis ierakstīs to failā.

Mēs sāksim eksperimentēt ar tesseraktu, izmantojot vienkāršu, tīra teksta attēlu.



Ļauj vispirms importēt attēlu no PIL un parādīt attēlu text.png.

|_+_|

Attēls ziņai

Lieliski, mums ir liela skaidra teksta pamata attēls

numpy kvadrāts katrs elements

Importēsim pytesseract un izmantosim funkciju dir(), lai iegūtu priekšstatu par to, ar kurām var spēlēt dažas interesantas funkcijas.

|_+_|

['Izvade',

“TSVNotSupported”,

“TesseractError”,

“TesseractNotFoundError”,

' iebūvētās ierīces ',

' kešatmiņā ',

' doc ',

' failu ',

' iekrāvējs ',

' nosaukums ',

' iepakojums ',

' ceļš ',

' spec ',

“get_tesseract_version”,

'image_to_boxes',

'image_to_data',

'image_to_osd',

'image_to_pdf_or_hocr',

'image_to_string',

cox kabeļa mini kastes aktivizēšana

“pytesseract”, “run_and_get_output”]

Šķiet, ka ir tikai dažas interesantas funkcijas, un es domāju, ka image_to_string, iespējams, ir mūsu labākā izvēle. Izmantosim funkciju help(), lai to nedaudz vairāk izjautātu

|_+_|

Palīdzība par funkciju image_to_string modulī pytesseract.pytesseract: image_to_string(image, lang=None, config=’’, nice=0, output_type=’string’) Atgriež Tesseract OCR palaišanas rezultātu norādītajā attēlā virknē.

Labi, mēģināsim palaist tesseraktu šim attēlam

|_+_|

Skatiet OCR izmantošanas burvību

pitessaract. mēs varēsim

izlasiet attēla saturu un

pārvērst to tekstā.

Iepriekšējā piemērā konvertēšanai izmantojām skaidru, nepārprotamu attēlu. Dažreiz attēlos, kurus vēlaties veikt OCR, būs troksnis, kas apgrūtinās teksta izvilkšanu. Par laimi, ir paņēmieni, ko varam izmantot, lai palielinātu OCR efektivitāti ar pytesseract un Pillow.

Šoreiz izmantosim citu attēlu ar tādu pašu tekstu kā iepriekš, bet ar pievienotu troksni attēlā.

medium.com

Optiskā rakstzīmju atpazīšana (OCR), izmantojot (Py)Tesseract: 1. daļa

Python-tesseract ir optiskās rakstzīmju atpazīšanas (OCR) rīks Python. Tas ir, tas atpazīs un nolasīs attēlos iegulto tekstu.>

Skatīt Arī: