|
|
FineReader
Engine 9.0 SDK (Windows verzió)
Komplex
SDK szövegfelismerő (OCR) és PDF átalakító rendszerek létrehozásához
A
FineReader Engine egy komplex szoftverfejlesztő készlet (SDK),
amellyel szövegfelismerő, PDF átalakítós és adatbeviteli rendszerek
hozhatók létre. Megtalálható benne minden olyan technológia, amely
szükséges a legkifinomultabb intelligens dokumentum-felismeréshez,
dokumentum konverzióhoz és adatbevitelhez. Az OCR, ICR, OMR és
vonalkód felismerési technológiák mellett további technológia
elemekkel is rendelkezik, úgy mint a képelőkészítés és finomítás,
dokumentum formátum-elemzés, fejlett PDF konverziós és tömörítő
technológia, amely utóbbi többféle PDF formátumot is támogat,
beleértve még a PDF/A-t is. Emellett teljes adatmező, ill.
blokkszintű felismerési képességekkel rendelkezik, amellyel kulcs
szavak szerinti osztályozás, kulcsszó indexelés és űrlapfeldolgozás
készíthető.
A
FineReader Engine 9.0 elődjéhez képest néhány forradalmian új eszközt
is kínál:
- Adaptív
Dokumentum Felismerési Technológia (ADRT) amellyel az eredeti dokumentum logikai szerkezete és formai elemei
(fejléc, lábléc, oldalszám, stb.) tökéletesen reprodukálható.
- Több
magos CPU rendszerek kihasználása,
amellyel jelentősen növelhető a teljesítmény
- Kínai,
japán és koreai nyelveknél jelentősen megnövelt felismerési
pontosság
A
szoftver mintegy 200 OCR és 110 ICR felismerési nyelvet támogat.
FUNKCIÓK:
Kép
átalakítás és előkészítés
A
FineReader Engine a 3 féle forrásból tud képet fogadni: szkennerből
TWAIN interfészen keresztül (beleértve a lapadagolós szkennereket
is), közvetlenül a memóriából, vagy egy fájl megnyitása útján. Az
összes fontosabb képformátumot támogatja: multipage
TIFF, JPEG2000, és
alkalmazható fekete-fehér, szürke, vagy színes kép egyaránt. A PDF
fájlokat is megynitja és
feldolgozza, amihez az Adobe PDF Library technológiáját alkalmazza.
Az
Engine a szkennelés paramétereit állítani tudja: fényesség, szín,
felbontás, kép méret, duplex, szünet az oldalak szkennelése között.
Az
Engine mind a forrás képet mind a módosítottat számos formában tudja
menteni. Lásd. a technikai jellemzőknél.
A
beérkező képeket az Engine az alábbi előkészítéseknek tudja alávetni,
amelyekkel a felismerés minősége jelentősen javítható:
Automatikus
kiegyenesítés
Dupla
könyvoldalak kettévágása
Folt
és képzaj mentesítés
Háttérzaj
szűrése és a fényerő adaptív állítása
Az
oldal elforgatásának automatikus érzékelése és állítása (90,180,270
fokkal)
Szöveg
szín manipuláció
ABBYY
digitális fényképezőgép OCR
Zónán
belüli szelektív foltmentesítés
Adatkinyerés
különböző mezőkből
Dokumentum
analízis
A
dokumentum analízis funkcióhoz kapcsolódó Engine API felelős az
automatikus dokumentum konverzióért, az eredeti dokumentum formátum
megtartásáért, a zónázásért, stb.. A következő funkciók tartoznak
ide:
- A
kép elforgatás automatikus detektálása
- Az
egyes (text, kép, vonalkód, táblázat) blokkok automatikus
azonosítása
- A
cellában levő függőleges szöveg észlelése
- A
manuális zóna beállítások lehetővé tétele
A
dokumentum analízis speciális funkciói a következők:
Számla
dokumentum analízis
Ez
egy speciális funkciója az Engine-nek, amely arra hívatott, hogy ún.
részben strukturált dokumentumokat, mint a számla, fizetési
meghagyás, csekk, átutalási megbízás, szerződés, egészségbiztosítási
nyomtatvány, stb. előkészítsen konverzióra. Ennek során megpróbál
ezekből a dokumentumokból az Engine minél több szöveges részt
kinyerni, beleértve az önálló karaktereket vagy számokat is - még
olyan esetben is ha azok mondjuk egy pecsétben, képben, lógóban vagy
apró kis szöveges részben találhatók.
Ellentétben
a „full-page” dokumentum analízissel, ez a speciális
funkció minden nyomtatott részt úgy kezel, mintha szöveg lenne. Azt
is biztosítja, nehogy fontos szöveges információk grafikai elemként
kerüljenek feldolgozásra. Ennek eredményeképpen a maximálisan
kinyerhető szöveg, beleértve annak koordinátáit is előkészítésre
kerül a a mezőnkénti adatfeldolgozáshoz, amit majd egy másik rendszer
végez.
A
számla dokumentum analízis funkciót a FlexiCapture rendszerek
használják, ahol a félig strukturált dokumentumok kerülhetnek
feldolgozásra, amelynek az a célja, hogy a hasonló adatokat
tartalmazó, de eltérő kinézetű dokumentumokból is az adatokat
kinyerhessük. Evvel kapcsolatban további információ a FlexiCapture
-nél található.
Full-text
dokumentum analízis
Ebben
az üzemmódban a rendszer az összes szöveges részt felismeri, még azt
is ami esetleg egy képben vagy táblázatban van. S a programozó
döntheti el, hogy ezt a teljes szöveg index létrehozásához
felhasználja, ami szükséges lehet egy DMS, CMS rendszerben vagy egy
archívumban.
Mező
vagy zóna szintű szövegfelismerés
A
FineReader Engine 9.0 mező vagy zóna szintű szövegfelismerésre képes,
amelynek segítségével támogatja az űrlapfeldolgozást, a kulcsszavas
csoportosítást, ill. indexelést. A hatékony kép-előkészítési
technológiának köszönhetően az Engine még a legkisebb zónákban is
képes elkülönülten dolgozni és tökéletesen „kibogozni” a
szöveget. Pl. aláhúzott szövegnél, vagy gyűrött papír esetén. Az
eljárások során az Engine a többnyelvű OCR technológiát is
alkalmazza, valamint az ICR, OMR és a vonalkód felismerést. Ezáltal
az alábbi területeken javítja a mezőkből való információ kinyerést:
- Különféle
keretekbe írt szövegeknél
- A
mezőtartalmak meghatározásánál
- A
pontos mezőn belüli „space-ek” detektálásához
- Az
intelligens blokkon belüli szövegfelismeréshez
- A
szöveg „zaj-szűréséhez”
Szöveg-felismerési
eljárások
OCR
- 195
nyelv felismerése nyomtatott szövegben
- 47
nyelvhez beépített szótár és nyelvtan
- Vegyes
nyelvű dokumentumok feldolgozása
- Mátrix
nyomtatóval készült szöveg feldolgozása
- Írógéppel
készült szöveg felismerés
- Kínai,
japán és koreai karakterek felismerése
- Thai
és héber OCR
- OCR-A,
OCR-B, MICR (E13B) és CMC7
- FineReader
XIX: régi betűtípusokkal (pl. gót betű) készült dokumentumok
felismerése
ICR
- 110
nyelven, beleértve a nyomtatott betűs kézírást is
- 30
nyelven beépített helyesírás-ellenőrzés, köztük latin,
görög és cirill betűs nyelvekkel
- 85
latin karaktert használó nyelv, szótár nélkül
- Vezető
sorban elhelyezett kézírásos karakterek felismerése
- Többnyelvű
ICR. Akár több nyelv is
szerepelhet egyszerre, a szoftver külön-külön felismeri azokat. Az
sem gond, ha vegyesen van kis és nagybetű.
- 22
helyi kézírás-stílus figyelembe vétele (ahogy ez országonként
eltérő)
- Támogatja
az indiai ICR számokat, ahogy ezt az arab országok használják.
OMR,
Vonalkód
- 1D
vonalkód.
Az Engine
támogatja az összes ismertebb formátumot. Code 39, Checked Code 39,
Interleaved 25, Checked Interleaved 25, EAN 8, EAN13, EAN 13
supplemental, Code 128, CODABAR (without checksum), UCC Code
128,Code 2 of 5 (Industrial, IATA, Matrix), Code 93, UPC-A, UPC-E,
and Postnet barcodes
- 2D
vonalkód (PDF417)
- Gyors
vonalkód megtalálás.
Bárhol
legyen a dokumentumban eldugva az Engine automatikusan és gyorsan
megtalálja
- OMR
(Optical Mark Recognition)
- Gyors
felismerési mód
Ott
alkalmazható ahol a sebesség az elsődleges szempont. 200-250%-os
gyorsulás érhető el. Különösen előnyösen alkalmazható
dokumentumkezelő és archiváló rendszereknél.
- Kiegyensúlyozott
felismerési mód
Optimális
egyensúlyt teremt a felismerés sebessége és minősége között.
Felhasználó
által definiált nyelvek
Álljon
itt két alkalmazási példa erre.
A
kézzel kitöltendő űrlapoknál a beírandó adatok sokszor egy adott
specifikus körbe tartoznak; város vagy ország nevek, termék kódok,
stb. Ha definiáljuk a beírható információkat, az jelentősen növeli az
ICR minőségét.
Ha
beírandó szövegnek van egy sajátos szerkezete, pl. telefonszámoknál,
vagy útlevél, stb., akkor ezek előre definiálása javítja a
feldolgozás hatékonyságát.
Az
Engine tartalmaz egy olyan API-t amely lehetővé teszi a felhasználó
által definiált nyelvek létrehozását.
Minta
szerinti tanítás
Erre
az esetek nagy részében nincs szükség. De speciális színes vagy
grafikailag díszített betűk esetén, vagy rossz minőséggel nyomatott
dokumentumoknál szükséges lehet. Az Engine lehetőséget nyújt arra,
hogy felhasználói mintákat készítsünk, vagy akár ilyeneket
importáljunk az ABBYY FineReader desktop alkalmazásából.
PDF
konverzió
PDF
Input
Intelligens
PDF feldolgozás. Az
Engine analizálja az input PDF fájl belső szerkezetét és megtalálja
benne a meta-adatokat, szöveg objektumokat, font tartalmakat s ennek
eredményeképpen a PDF feldolgozás hatékonysága és pontossága
jelentősen megnő. Ha beágyazott szöveget talál, akkor megvizsgálja a
szöveg réteg integritását, s ennek alapján eldönti, hogy kivegye-e a
szöveget, vagy nem, ill. hogy OCR technológiával blokkonként
megvizsgálja.
Belső
PDF információk kinyerése. Megtalálja az internetes és PDF linkeket és felismeri az olyan
dokumentum tulajdonságokat, mint; tárgy, szerző, cím és kulcsszavak.
PDF
Output
PDF
jelszóvédelem:
A
9.0 verzió számos PDF biztonsági megoldást támogat, amely fontos a
kormányzati munkánál, ill. érzékeny adatokkal foglalkozó irodákban.
- Fájlmegnyitás
védelme jelszóval
- Bizonyos
műveletek pl. nyomtatás védelme jelszóval
- Támogatja
a legújabb biztonsági szabványokat
Tagged
PDF output támogatása
Oldalméretezés
lehetősége
Internetes
linkek megtartása a szövegben
PDF/A
export támogatása
PDF/A
MRC tömörített PDF
Kínai,
japán és koreai szövegek támogatása
PDF
konverzió minősége és sebesség. Számos eszköz áll rendelkezésre, amivel a minőség és a sebesség
optimalizálható
Speciális
fejlesztői eszközök
Voting
API támogatás.
A
felismerési folyamat menet közbeni tuningolása.
Az
általános feladatokhoz előre gyártott kód minták.
A
felismert szöveg fogadása és exportálása
A
FineReader Engine API számos lehetőséget kínál a felismert szöveg
exportjára, beleértve különféle szintű dokumentum rekonstrukciót is.
- Különféle
szintű a dokumentum formátum megtartást célzó funkció.
- Részletes
információ a felismert karakterekről.
- Exportálás
előtti utóeditálás.
- A
dokumentum formájának teljes megtartása.
- Bizonytalan
karakterek helyettesítése.
- A
képek és a szöveg szín teljes megtartása.
Visual
komponensek
Az
Active-X alapú vizuális komponensek segítségével könnyen
integrálhatók felhasználó felületek az alkalmazásokba. A fejlesztő
így közvetlen, de mégis kontrollált hozzáférést tud adni a
végfelhasználónak a dokumentum ellenőrzési folyamatában. 5 vizuális
komponens van.
- Scanner
interfész
A
felhasználó beállíthatja a szkenner paramétereit.
- Dokumentumnézegető
Lehetőséget
ad különféle nézetben a dokumentum megtekintésére
- Képnézegető
A
képek manipulációját teszi lehetővé
- Szöveg
editor
A bizonytalan
karakterek kijavíthatók
- Szöveg
ellenőrző
Könnyen
kezelhető varázslós felület a bizonytalan karakterek ellenőrzéséhez.
Használja a beépített helyesírás ellenőrzőt is.
Többmagos
CPU támogatás
Az
új rendszer teljesen kihasználja a többmagos architektúrákat a
többoldalas dokumentumok feldolgozása során.
Újdonságok
az ABBYY FineReader Engine 9.0-ban
Az
új 9.00 verzió binárisan nem kompatibilis a korábbiakkal (8.1, 8.0,
7.1 stb.). A kompatibilissé tételhez bizonyos beállítások
kellenek.
Az űrlap feldolgozási funkciókat leszámítva a 9.0
tartalmazza mindazt amit a korábbi 8.1
Adaptive
Document Recognition Technology (ADRT)
Új
innovatív technológia, amely a dokumentum elemzésén alapul és amely
felépíti a dokumentum szerkezetének hű mását.
Több
oldalas dokumentum feldolgozás egy egységben egy speciális API-val
Az
oldalakat többé nem külön-külön dolgozza fel, hanem egységes
dokumentumként.
Több
magos CPU rendszer/ felismerési architektúra
Az
össze processzor mag intelligensen kihasználásra kerül
Új
kép előkészítési funkciók
- Elfordult
kép (20 fokig) észlelése
- A
fekete vízszintes és függőleges csíkok kiegyenesítése
- Vízszintes
és függőleges vonalak kiegyenesítése
- Vízszintes
és függőleges szövegeke kiegyenesítése
Visual
komponensek
Az
Active-X alapú visual komponensek segítségével könnyen integrálhatók
felhasználó felületek az alkalmazásokba. A fejlesztő így közvetlen,
de mégis kontrollált hozzáférést tud adni a végfelhasználónak a
dokumentum ellenőrzési folyamatában. 5 visual komponens van.
- Scanner
interfész
A
felhasználó beállíthatja a szkenner paramétereit.
- Dokumentumnézegető
Lehetőséget
ad különféle nézetben a dokumentum megtekintésére
- Képnézegető
A
képek manipulációját teszi lehetővé
- Szöveg
editor
A bizonytalan
karakterek kijavíthatók
- Szöveg
ellenőrző
Könnyen
kezelhető varázslós felület a bizonytalan karakterek ellenőrzéséhez.
Használja a beépített helyesírás ellenőrzőt is.
Ázsiai
nyelvek támogatása
Új
technológia lett bevezetve a kínai és a japán nyelvnél, amely
jelentősen javítja a gyorsaságot és a pontosságot.
Új
export formátumok
- XML
alapú Office 2007
- MRC
tömörítés a PDF és PDF/A formátumoknál
Új
licencelési opciók
- A
többmagos CPU támogatása alapból
- CPU
mag alapú licencelés is van
Licencelés
és szolgáltatások
Fejlesztő
licenc
USB kulcsos
védelemmel ellátott végtelen licenc, amely korlátlan számú
fejlesztést tesz lehetővé a fejlesztők részére. Egyszerre 3 gépen
folyhat a fejlesztési munka.
Runtime
licenc (RTL)
Az RTL az
elkészült alkalmazás kliens oldali futtatásához szükséges. Sok
fajtája van, s alapvetően a felhasznált funkcióktól és a
feldolgozandó lapmennyiségtől függ. Emellett attól függően, hogy
önállóan vagy hálózatban kerül alkalmazásra 4 féle opció választható.
- standalone
(önálló)
- hálózatos
állomás licenc
- hálózatos
aggregált állomás licenc (közös a számláló az össze állomáshoz)
- hálózatos
aggregált konkurens licenc (itt
is közös a számláló, de a bekapcsolható állomások száma nem
korlátozott)
CPU
használat alapján 2 féle licenc lehetséges.
- Korlátlan
CPU, de korlátozott oldalszám
- Korlátlan
oldalszám, de korlátozott CPU szám
Az
RTL lehet (USB) hardverkulcsos, vagy aktiválást igénylő
szoftverkulcsos.
Upgrade
A
korábbi verziókról, attól függően, hogy az melyik lehet upgradelni.
Részletekért
forduljon a Licencia Ker. Kft-hez
Próbaverzió
60
napos próbaverzió igénylésére van mód. Ehhez egy kipróbálási
licencszerződést kell aláírni. Ez ügyben forduljon a Licencia Ker.
Kft.-hez
Műszaki
jellemzők
Fejlesztői
környezetek
- MS
Visual Studio NET (VB, NET, C#)
- Visual
Basic 5.0 6.0
- MS
Visual C++ 4.x és jobb
- VB
Script és más scripting nyelv
- Borland
Delphi 2.0 és jobb
- Minden
olyan eszköz, amely korrekten támogatja a COM és ActiveX
objektumokat
Rendszerkövetelmények
- PC
Intel/AMD min. 200 MHZ
- 32
és 64 bites Vista, Windows Server 2003, XP, valamint Windows 2000
- 128
MB RAM + 110MB minden felismerési folyamathoz
- HDD
350 MB a telepítéshez és 70MB a működéshez
- 100%
Twain kompatibilis scanner, digitális fényképezőgép vagy faxmodem
- VGA
kártya és monitor (800x600)
- Egér
billentyűzet.
- A
felhasználónak írási/olvasási jogokkal kel rendelkeznie az alábbi
registry részekben:
- HKEY_CLASSES_ROOT
– full control access
- HKEY_LOCAL_MACHINE\Software\ABBYY
– full control access
- HKEY_CURRENT_USER\Software\ABBYY
– full control access
- HKEY_CLASSES_ROOT\CLSID
– full control access
- HKEY_CLASSES_ROOT\TypeLib
– full control access for installation and activation only
Input/Output
formátumok:
Input:
- PDF
- BMP
- PCX,
DCX
- JPEG
- TIFF
- GIF
- PNG
- DjVu
Output:
- DOC
- RTF
- XML
- DOCX
- XLSX
- PPTX
- PDF
- PDF/A
- PPT
- TXT
- XLS
- DBF
Támogatott
nyelvek:
OCR: 195 nyelv.
- 37
fő nyelv: latin,
cirill, görög és örmény karakterekkel. Ezeknél van szótártámogatás
is. A magyar nyelv ezek
között van.
- 4
ázsiai nyelv: Kínai
(hagyományos, egyszerűsített), japán, koreai.
- Thai
- Héber szótárral.
- 5
féle antik FineReader XIX nyelv
- 133
további nyelv
- 4
mesterséges nyel: pl.
eszperantó
- 6
programozási nyelv
- egyszerű
kémiai képletek
- számok
- saját
nyelv definiálása
ICR: 113 nyelv
- 29
nyelv szótártámogatással (magyar is)
- 84
nyelv szótártámogatás nélkül
- 22
írásstílus támogatása: mint
pl. európai, amerikai, orosz, japán, arab, thai
Vonalkód:
Opcionális
modulok:
- Visual
Components: ActiveX
alapú vizuális eszköz amely a felhasználói felület gyors és könnyű
integrálását hivatott megoldani. A következő elemekből áll:
szkennelő interfész, dokumentumnézegető, képnézegető,
szövegszerkesztő, szöveg ellenörző.
- Document
Analysis for Invoices
- Document
Analysis for Full Text Indexing
- PDF
megnyitás és felismerés
- PDF
Export
- PDF/A
Export
- PDF
MRC tömörítés
- XML
Export
- Kínai,
japán, koreai OCR
- Héber
OCR
- 2D
vonalkód
- ICR
- OMR
|