Ciència

Què és ocr? »La seva definició i significat

Anonim

OCR són les de optical character recognition o també conegut en espanyol com a reconeixement òptic de caràcters. L'OCR és un programari que possibilita el reconeixement de el text, produint una imatge d'aquest per transformar-la en una successió de caràcters, per després guardar-los en un dau format, que pugui ser utilitzat en aquells programes d'edició de text. És a dir que gràcies a aquesta nova tecnologia es pot convertir qualsevol tipus de text o document, que abasta arxius PDF, papers escanejats o fins a imatges preses des de càmeres digitals, en dades per així tenir la possibilitat de ser editats.

Aquest programari funciona de la següent manera, primer analitza cada part de la imatge de el document en qüestió; distribueix la pàgina en peces com taules, imatges, blocs de text entre altres; després les línies estan distribuïdes en paraules per després passar a ser caràcters; i ja que els caràcters ja van ser assenyalats, el programari fa la comparació amb un grup d'imatges de el patró. Aquest avança segons la sèrie d'hipòtesis sobre que és cada caràcter; i basant-se en aquestes hipòtesis va analitzant les diferents variants de ruptura de línies en paraules i de paraules en caràcters. I és després d'un gran nombre d'anàlisi i processament de les hipòtesis, que finalment el programa presenta el text ja reconegut i transformat amb un nou format.

Cal destacar que avui en dies hi ha una sèrie de programes que el mercat informàtic ofereix basats en l'OCR com ara OmniPage, ABBYY Fine Reader o Readiris. YY que posseeixen la capacitat, no només d'analitzar i reconèixer un text com a tal, sinó que a més reconeix el format i estil, però amb certes limitacions, necessitant així que el text, després de ser analitzat, sigui editat per fer-li els ajustos que es requereixin.