Industrija softvera

Kako uvjeriti računalo da pročita pisani tekst?

lako sve intenzivnije korištenje elektroničkog poslovanja između poslovnih subjekata smanjuje ukupnu količinu papirologije, svijetom još uvijek kola ogromna količina dokumentacije koju na kraju, vrlo često, ipak treba pohraniti u računalo.

Jednostavniji oblik prijenosa dokumenata iz papirnatog oblika u elektronski svodi se na spremanje dokumenata u računalu u obliku slike uz dodatak atributa za naknadno pojednostavljivanje pronalaženja potrebnog dokumenta. Napredniji oblik elektronske pohrane dokumenata obuhvaća ponovno pretvaranje slike u tekst njegovim prepoznavanjem od strane računala. Ključne tehnologije obuhvaćene drugim postupkom označavaju se skraćenicama: OMR, OCR, ICR i NHR.

  • OMR - Optical Mark Read

Najjednostavniji oblik prepoznavanja teksta - na dokumentu se u stvari ni ne prepoznaje tekst nego samo posebne oznake na točno određenim mjestima obrascu (na primjer, oznake odgovora na postavljena anketna pitanja). Najbrža tehnologija prepoznavanja, ali uz brojna ograničenja.

  • OCR - Optical Character Recognition

Mehanički tiskana slova (npr. na pisaču) prepoznaju se na slici dokumenta i pretvaraju u tekst koji se spremaju u računalo. Pouzdana i brza tehnologija prepoznavanja uz bitno manja ograničenja u primjeni od OMR tehnologije.

  • ICR - Intelligent Character Recognition

Prepoznavanje rukom pisanog teksta karakterizira bitno manja pouzdanost od prethodne dvije tehnologije te određena ograničenja u načinu pisanja teksta (svako pisano slovo mora se napisati razdvojeno, a ne u nizu) što je dosta neugodno u praksi.

  • NHR - Natural Handwriting Recognition

Unaprijeđena tehnologija prepoznavanja rukopisa bez ograničenja u pisanju i povećane pouzdanosti prepoznavanja teksta. Napredak u prepoznavanja pisanog teksta postignut je dodavanjem rječnika za određeni jezik te algoritama za razumijevanje pisanog teksta. Na taj način se mogu automatski ispraviti "sumnjivi" znakovi te samim tim postići bitno veća pouzdanost prepoznavanja od ICR tehnologije.

Kvaliteta NHR tehnologije dokazana je istraživanjem NIST-a (National Institute of Standards and Technology's) na uzorku od 500 pisanih tekstova različitog rukopisa. Postotak pogrešno prepoznatih dijelova teksta pomoću NHR tehnologije iznosio je svega 2%. Kad se to usporedi s drugim istraživanjem koje je pokazalo da prosječni ljudski operater na poslovima razvrstavanja pošte (što uključuje prepoznavanje pisanog teksta) ima 0,7 -1.0 % pogrešaka, i činjenicom da je računalu za isti posao trebalo 58 minuta, a ljudskom operateru 32 sata, postaje jasno zašto je korištenje NHR tehnologije sasvim opravdano u praksi.

Četvrtak, 19.01.2012. / Nenad Crnko, Croatiabiz