Programska oprema OCR za skenirane dokumente

 

Prepoznavanje besedila, indeksiranje dokumentov in zajemanje podatkov, integrirano s programsko opremo ShakeSpeare.

Podjetja se pogosto odločijo za digitalizacijo svojih arhivov dokumentov ter skeniranje in uničenje velikih količin dokumentov. Danes je običajna praksa, da se za digitalno arhiviranje dokumentov in podatkov najame specializirano podjetje z dovoljenjem za uničenje izvirne fizične dokumentacije.

Kaj se zgodi po tem, ko organizacija doseže fazo digitalnega arhiviranja, in kaj še obstaja na področju tehnologije OCR, ki lahko uporabnikom in rešitvam pomaga pri iskanju velikih količin podatkov, obdelavi teh podatkov in njihovem učinkovitem upravljanju.

ShakeSpeare je že od samega začetka tesno povezan s tehnologijo OCR, saj je skeniranje dokumentov v ShakeSpeare® DMS in uporaba podatkov iz teh dokumentov v ShakeSpeare® BPM-Engine podjetja uporabljajo od leta 2001.

Z napredkom in zahtevami trga je prišlo do številnih novosti na področju tehnologije OCR in zajemanja podatkov, pri čemer so nekatere že pripravljene za industrijsko uporabo. Številne druge nove tehnične aplikacije omogočajo napredno strojno učenje, prepoznavanje besedila z umetno inteligenco, branje pravnih dokumentov in s pomočjo mehanizma delovnega toka avtomatizirano ustvarjanje dokumentov za odzivanje na te dokumente.

Sodelujemo z dvema podjetjema za zajem podatkov/obdelavo dokumentov na različnih trgih in se povezujemo z njihovimi tehnološkimi centri ali centri za obdelavo ter imamo sklenjene partnerske sporazume za dostop do najnovejših posodobitev o tehnološkem napredku in izboljšavah.

ShakeSpeare je pogosto integriran v samostojno rešitev ABBYY. V 95 % primerov integriramo rešitev ABBYY Flexicapture (generacije 10 in višje) in ABBYY Fine Reader Server (generacije 12 in višje). V Nemčiji in regiji D-A-CH smo povezani s podjetjem za obdelavo računov GINI, ki je specializirano za branje podatkov z računov na nemškem trgu.

Podjetje GINI ima v Münchnu posebej razvit center za strojno učenje in podatkovni center, v katerem se obdeluje vse več računov iz Nemčije in okoliških držav. Kakovost odčitanih informacij je neverjetna in omogoča visoko stopnjo avtomatizacije obdelave računov.

Če želite izvedeti več o primerih uporabe za prepoznavanje besedila (OCR) ter zajemanje in obdelavo podatkov s programom ShakeSpeare in o povezavah s ponudniki OCR/zajemanja podatkov, se obrnite na nas in z veseljem vam bomo svetovali ter predstavili tehnične možnosti za vaš primer uporabe.

Reference

Če želite prebrati več o upravljanju dokumentov na splošno in različnih primerih uporabe, kliknite tukaj.

 

Prepoznavanje besedila je znano že od prvih optičnih bralnikov, podjetja, kot je ABBYY, pa so to tehnologijo začela razvijati že v osemdesetih letih prejšnjega stoletja. Predpostavka pridobivanja podatkov iz tiskanih in fizičnih dokumentov ni nova, dodana vrednost samodejne obdelave, ki preprečuje ponovno vnašanje podatkov, indeksiranje dokumentov za iskanje ter samodejno pridobivanje in obdelavo podatkov, pa je ogromna. Tehnologija OCR danes koristi več sto tisoč podjetjem, bodisi z učinkovitejšim iskanjem po arhivih, shranjevanjem podatkov tako, da jih je mogoče najti, bodisi s preprostim prihrankom časa pri kopiranju/pripenjanju podatkov iz skeniranih dokumentov. Rešitev ali modul za optično prepoznavanje znakov (OCR) je na voljo v večini programske opreme in rešitev za skeniranje. Uporaba tehnologije, ki ni primerna za vaš primer uporabe, ima pomanjkljivosti in izzive – to lahko privede do razočaranja in precej višjih stroškov, kot ste prvotno predvideli.

Pri načrtovanju uvedbe tehnologije OCR in zajemanja podatkov (s strojnim učenjem ali rešitvijo umetne inteligence ali brez njiju, kar se pogosto spodbuja v zadnjih dveh letih) je treba upoštevati več točk. Tudi za nas kot strokovnjake na področju avtomatizacije dokumentov, elektronskega arhiviranja, obdelave in zajemanja podatkov obstaja nekaj kritičnih točk, ki jih moramo dobro razumeti, preden se skupaj z vami lotimo projekta OCR/zajemanja podatkov:

a) Kakšne dokumente želite obdelati – ali gre za enostranske, daljše, ročno napisane, delno ročno napisane dokumente ali samo za tiskane kopije, morda celo za dokumente PDF, ki so že ustvarjeni v elektronski obliki, vendar so zaščiteni pred spremembami?
b) Od kod prihajajo ti dokumenti – ali lahko nadzirate kakovost skeniranja (za najboljše rezultate je zaželeno črno-bele skeniranje v ločljivosti 300 dpi)?
c) Ali lahko nadzorujete velikost datotek? Velike datoteke (ki jih običajno ustvarijo fotoaparati mobilnih telefonov) običajno zelo obremenjujejo sistem za obdelavo slik, saj OCR razmišlja v pikslih in ne črkah.
d) Ali je treba digitalizirati tudi slike ali samo besedilo (tehnološke posledice).
e) Obdelovalna zmogljivost in infrastruktura, ki jo boste potrebovali za obdelavo dokumentov, sta v veliki meri odvisni od količine dokumentov, ki jih je treba obdelati.

Hitro iskanje v digitalnih dokumentih

S skenerjem in obdelavo podatkov z našo profesionalno rešitvijo OCR so fizični dokumenti digitalizirani in jih je mogoče preprosto najti v digitalni obliki prek pametnega iskanja ShakeSpeare®.

Arhiv digitalnih dokumentov

Dokumenti so na voljo v stisnjeni obliki PDF, ki prihrani prostor za shranjevanje in jo je mogoče obdelati v digitalni ali fizični obliki.

Razpoložljivost informacij v digitalni obliki za samodejno ali ročno obdelavo

Z rešitvijo OCR lahko programska oprema prebere določene informacije in jih prenese v druge podatkovne tabele. Različne aplikacije in podatkovne tabele so izpolnjene brez človeškega posredovanja in brez napak.

Programska oprema za samodejno odčitavanje in sprejemanje podatkov