Fejlesztőknek SDK
FineReader Engine 9.0
FlexiCapture Engine 8.0

Webtartalom
Webdesign
 

FineReader Engine 9.0 SDK (Windows verzió)

Komplex SDK szövegfelismerő (OCR) és PDF átalakító rendszerek létrehozásához

A FineReader Engine egy komplex szoftverfejlesztő készlet (SDK), amellyel szövegfelismerő, PDF átalakítós és adatbeviteli rendszerek hozhatók létre. Megtalálható benne minden olyan technológia, amely szükséges a legkifinomultabb intelligens dokumentum-felismeréshez, dokumentum konverzióhoz és adatbevitelhez. Az OCR, ICR, OMR és vonalkód felismerési technológiák mellett további technológia elemekkel is rendelkezik, úgy mint a képelőkészítés és finomítás, dokumentum formátum-elemzés, fejlett PDF konverziós és tömörítő technológia, amely utóbbi többféle PDF formátumot is támogat, beleértve még a PDF/A-t is. Emellett teljes adatmező, ill. blokkszintű felismerési képességekkel rendelkezik, amellyel kulcs szavak szerinti osztályozás, kulcsszó indexelés és űrlapfeldolgozás készíthető.

A FineReader Engine 9.0 elődjéhez képest néhány forradalmian új eszközt is kínál:

  • Adaptív Dokumentum Felismerési Technológia (ADRT) amellyel az eredeti dokumentum logikai szerkezete és formai elemei (fejléc, lábléc, oldalszám, stb.) tökéletesen reprodukálható.
  • Több magos CPU rendszerek kihasználása, amellyel jelentősen növelhető a teljesítmény
  • Kínai, japán és koreai nyelveknél jelentősen megnövelt felismerési pontosság

A szoftver mintegy 200 OCR és 110 ICR felismerési nyelvet támogat.

FUNKCIÓK:

Kép átalakítás és előkészítés

A FineReader Engine a 3 féle forrásból tud képet fogadni: szkennerből TWAIN interfészen keresztül (beleértve a lapadagolós szkennereket is), közvetlenül a memóriából, vagy egy fájl megnyitása útján. Az összes fontosabb képformátumot támogatja: multipage TIFF, JPEG2000, és alkalmazható fekete-fehér, szürke, vagy színes kép egyaránt. A PDF fájlokat is megynitja és feldolgozza, amihez az Adobe PDF Library technológiáját alkalmazza.

Az Engine a szkennelés paramétereit állítani tudja: fényesség, szín, felbontás, kép méret, duplex, szünet az oldalak szkennelése között.

Az Engine mind a forrás képet mind a módosítottat számos formában tudja menteni. Lásd. a technikai jellemzőknél.

A beérkező képeket az Engine az alábbi előkészítéseknek tudja alávetni, amelyekkel a felismerés minősége jelentősen javítható:

Automatikus kiegyenesítés
Dupla könyvoldalak kettévágása
Folt és képzaj mentesítés
Háttérzaj szűrése és a fényerő adaptív állítása
Az oldal elforgatásának automatikus érzékelése és állítása (90,180,270 fokkal)
Szöveg szín manipuláció
ABBYY digitális fényképezőgép OCR
Zónán belüli szelektív foltmentesítés
Adatkinyerés különböző mezőkből

Dokumentum analízis

A dokumentum analízis funkcióhoz kapcsolódó Engine API felelős az automatikus dokumentum konverzióért, az eredeti dokumentum formátum megtartásáért, a zónázásért, stb.. A következő funkciók tartoznak ide:

  • A kép elforgatás automatikus detektálása
  • Az egyes (text, kép, vonalkód, táblázat) blokkok automatikus azonosítása
  • A cellában levő függőleges szöveg észlelése
  • A manuális zóna beállítások lehetővé tétele

A dokumentum analízis speciális funkciói a következők:

Számla dokumentum analízis

Ez egy speciális funkciója az Engine-nek, amely arra hívatott, hogy ún. részben strukturált dokumentumokat, mint a számla, fizetési meghagyás, csekk, átutalási megbízás, szerződés, egészségbiztosítási nyomtatvány, stb. előkészítsen konverzióra. Ennek során megpróbál ezekből a dokumentumokból az Engine minél több szöveges részt kinyerni, beleértve az önálló karaktereket vagy számokat is - még olyan esetben is ha azok mondjuk egy pecsétben, képben, lógóban vagy apró kis szöveges részben találhatók.

Ellentétben a „full-page” dokumentum analízissel, ez a speciális funkció minden nyomtatott részt úgy kezel, mintha szöveg lenne. Azt is biztosítja, nehogy fontos szöveges információk grafikai elemként kerüljenek feldolgozásra. Ennek eredményeképpen a maximálisan kinyerhető szöveg, beleértve annak koordinátáit is előkészítésre kerül a a mezőnkénti adatfeldolgozáshoz, amit majd egy másik rendszer végez.

A számla dokumentum analízis funkciót a FlexiCapture rendszerek használják, ahol a félig strukturált dokumentumok kerülhetnek feldolgozásra, amelynek az a célja, hogy a hasonló adatokat tartalmazó, de eltérő kinézetű dokumentumokból is az adatokat kinyerhessük. Evvel kapcsolatban további információ a FlexiCapture -nél található.

Full-text dokumentum analízis

Ebben az üzemmódban a rendszer az összes szöveges részt felismeri, még azt is ami esetleg egy képben vagy táblázatban van. S a programozó döntheti el, hogy ezt a teljes szöveg index létrehozásához felhasználja, ami szükséges lehet egy DMS, CMS rendszerben vagy egy archívumban.

Mező vagy zóna szintű szövegfelismerés

A FineReader Engine 9.0 mező vagy zóna szintű szövegfelismerésre képes, amelynek segítségével támogatja az űrlapfeldolgozást, a kulcsszavas csoportosítást, ill. indexelést. A hatékony kép-előkészítési technológiának köszönhetően az Engine még a legkisebb zónákban is képes elkülönülten dolgozni és tökéletesen „kibogozni” a szöveget. Pl. aláhúzott szövegnél, vagy gyűrött papír esetén. Az eljárások során az Engine a többnyelvű OCR technológiát is alkalmazza, valamint az ICR, OMR és a vonalkód felismerést. Ezáltal az alábbi területeken javítja a mezőkből való információ kinyerést:

  • Különféle keretekbe írt szövegeknél
  • A mezőtartalmak meghatározásánál
  • A pontos mezőn belüli „space-ek” detektálásához
  • Az intelligens blokkon belüli szövegfelismeréshez
  • A szöveg „zaj-szűréséhez”

Szöveg-felismerési eljárások

OCR

  • 195 nyelv felismerése nyomtatott szövegben
  • 47 nyelvhez beépített szótár és nyelvtan
  • Vegyes nyelvű dokumentumok feldolgozása
  • Mátrix nyomtatóval készült szöveg feldolgozása
  • Írógéppel készült szöveg felismerés
  • Kínai, japán és koreai karakterek felismerése
  • Thai és héber OCR
  • OCR-A, OCR-B, MICR (E13B) és CMC7
  • FineReader XIX: régi betűtípusokkal (pl. gót betű) készült dokumentumok felismerése

ICR

  • 110 nyelven, beleértve a nyomtatott betűs kézírást is
  • 30 nyelven beépített helyesírás-ellenőrzés, köztük latin, görög és cirill betűs nyelvekkel
  • 85 latin karaktert használó nyelv, szótár nélkül
  • Vezető sorban elhelyezett kézírásos karakterek felismerése
  • Többnyelvű ICR. Akár több nyelv is szerepelhet egyszerre, a szoftver külön-külön felismeri azokat. Az sem gond, ha vegyesen van kis és nagybetű.
  • 22 helyi kézírás-stílus figyelembe vétele (ahogy ez országonként eltérő)
  • Támogatja az indiai ICR számokat, ahogy ezt az arab országok használják.

OMR, Vonalkód

  • 1D vonalkód.
    Az Engine támogatja az összes ismertebb formátumot. Code 39, Checked Code 39, Interleaved 25, Checked Interleaved 25, EAN 8, EAN13, EAN 13 supplemental, Code 128, CODABAR (without checksum), UCC Code 128,Code 2 of 5 (Industrial, IATA, Matrix), Code 93, UPC-A, UPC-E, and Postnet barcodes
  • 2D vonalkód (PDF417)
  • Gyors vonalkód megtalálás.
    Bárhol legyen a dokumentumban eldugva az Engine automatikusan és gyorsan megtalálja
  • OMR (Optical Mark Recognition)
  • Gyors felismerési mód
    Ott alkalmazható ahol a sebesség az elsődleges szempont. 200-250%-os gyorsulás érhető el. Különösen előnyösen alkalmazható dokumentumkezelő és archiváló rendszereknél.
  • Kiegyensúlyozott felismerési mód
    Optimális egyensúlyt teremt a felismerés sebessége és minősége között.

Felhasználó által definiált nyelvek

Álljon itt két alkalmazási példa erre.

A kézzel kitöltendő űrlapoknál a beírandó adatok sokszor egy adott specifikus körbe tartoznak; város vagy ország nevek, termék kódok, stb. Ha definiáljuk a beírható információkat, az jelentősen növeli az ICR minőségét.

Ha beírandó szövegnek van egy sajátos szerkezete, pl. telefonszámoknál, vagy útlevél, stb., akkor ezek előre definiálása javítja a feldolgozás hatékonyságát.

Az Engine tartalmaz egy olyan API-t amely lehetővé teszi a felhasználó által definiált nyelvek létrehozását.

Minta szerinti tanítás

Erre az esetek nagy részében nincs szükség. De speciális színes vagy grafikailag díszített betűk esetén, vagy rossz minőséggel nyomatott dokumentumoknál szükséges lehet. Az Engine lehetőséget nyújt arra, hogy felhasználói mintákat készítsünk, vagy akár ilyeneket importáljunk az ABBYY FineReader desktop alkalmazásából.

PDF konverzió

PDF Input

Intelligens PDF feldolgozás. Az Engine analizálja az input PDF fájl belső szerkezetét és megtalálja benne a meta-adatokat, szöveg objektumokat, font tartalmakat s ennek eredményeképpen a PDF feldolgozás hatékonysága és pontossága jelentősen megnő. Ha beágyazott szöveget talál, akkor megvizsgálja a szöveg réteg integritását, s ennek alapján eldönti, hogy kivegye-e a szöveget, vagy nem, ill. hogy OCR technológiával blokkonként megvizsgálja.

Belső PDF információk kinyerése. Megtalálja az internetes és PDF linkeket és felismeri az olyan dokumentum tulajdonságokat, mint; tárgy, szerző, cím és kulcsszavak.

PDF Output

PDF jelszóvédelem:

A 9.0 verzió számos PDF biztonsági megoldást támogat, amely fontos a kormányzati munkánál, ill. érzékeny adatokkal foglalkozó irodákban.

  • Fájlmegnyitás védelme jelszóval
  • Bizonyos műveletek pl. nyomtatás védelme jelszóval
  • Támogatja a legújabb biztonsági szabványokat

Tagged PDF output támogatása

Oldalméretezés lehetősége

Internetes linkek megtartása a szövegben

PDF/A export támogatása

PDF/A MRC tömörített PDF

Kínai, japán és koreai szövegek támogatása

PDF konverzió minősége és sebesség. Számos eszköz áll rendelkezésre, amivel a minőség és a sebesség optimalizálható

 

Speciális fejlesztői eszközök

Voting API támogatás.

A felismerési folyamat menet közbeni tuningolása.

Az általános feladatokhoz előre gyártott kód minták.

A felismert szöveg fogadása és exportálása

A FineReader Engine API számos lehetőséget kínál a felismert szöveg exportjára, beleértve különféle szintű dokumentum rekonstrukciót is.

  • Különféle szintű a dokumentum formátum megtartást célzó funkció.
  • Részletes információ a felismert karakterekről.
  • Exportálás előtti utóeditálás.
  • A dokumentum formájának teljes megtartása.
  • Bizonytalan karakterek helyettesítése.
  • A képek és a szöveg szín teljes megtartása.

Visual komponensek

Az Active-X alapú vizuális komponensek segítségével könnyen integrálhatók felhasználó felületek az alkalmazásokba. A fejlesztő így közvetlen, de mégis kontrollált hozzáférést tud adni a végfelhasználónak a dokumentum ellenőrzési folyamatában. 5 vizuális komponens van.


  • Scanner interfész
    A felhasználó beállíthatja a szkenner paramétereit.
  • Dokumentumnézegető
    Lehetőséget ad különféle nézetben a dokumentum megtekintésére
  • Képnézegető
    A képek manipulációját teszi lehetővé
  • Szöveg editor
    A bizonytalan karakterek kijavíthatók
  • Szöveg ellenőrző
    Könnyen kezelhető varázslós felület a bizonytalan karakterek ellenőrzéséhez. Használja a beépített helyesírás ellenőrzőt is.

Többmagos CPU támogatás

Az új rendszer teljesen kihasználja a többmagos architektúrákat a többoldalas dokumentumok feldolgozása során.

Újdonságok az ABBYY FineReader Engine 9.0-ban

Az új 9.00 verzió binárisan nem kompatibilis a korábbiakkal (8.1, 8.0, 7.1 stb.). A kompatibilissé tételhez bizonyos beállítások kellenek.

Az űrlap feldolgozási funkciókat leszámítva a 9.0 tartalmazza mindazt amit a korábbi 8.1

Adaptive Document Recognition Technology (ADRT)

Új innovatív technológia, amely a dokumentum elemzésén alapul és amely felépíti a dokumentum szerkezetének hű mását.

Több oldalas dokumentum feldolgozás egy egységben egy speciális API-val

Az oldalakat többé nem külön-külön dolgozza fel, hanem egységes dokumentumként.

Több magos CPU rendszer/ felismerési architektúra

Az össze processzor mag intelligensen kihasználásra kerül

Új kép előkészítési funkciók

  • Elfordult kép (20 fokig) észlelése
  • A fekete vízszintes és függőleges csíkok kiegyenesítése
  • Vízszintes és függőleges vonalak kiegyenesítése
  • Vízszintes és függőleges szövegeke kiegyenesítése

Visual komponensek

Az Active-X alapú visual komponensek segítségével könnyen integrálhatók felhasználó felületek az alkalmazásokba. A fejlesztő így közvetlen, de mégis kontrollált hozzáférést tud adni a végfelhasználónak a dokumentum ellenőrzési folyamatában. 5 visual komponens van.

  • Scanner interfész
    A felhasználó beállíthatja a szkenner paramétereit.
  • Dokumentumnézegető
    Lehetőséget ad különféle nézetben a dokumentum megtekintésére
  • Képnézegető
    A képek manipulációját teszi lehetővé
  • Szöveg editor
    A bizonytalan karakterek kijavíthatók
  • Szöveg ellenőrző
    Könnyen kezelhető varázslós felület a bizonytalan karakterek ellenőrzéséhez. Használja a beépített helyesírás ellenőrzőt is.

Ázsiai nyelvek támogatása
Új technológia lett bevezetve a kínai és a japán nyelvnél, amely jelentősen javítja a gyorsaságot és a pontosságot.

Új export formátumok

  • XML alapú Office 2007
  • MRC tömörítés a PDF és PDF/A formátumoknál

Új licencelési opciók

  • A többmagos CPU támogatása alapból
  • CPU mag alapú licencelés is van

Licencelés és szolgáltatások

Fejlesztő licenc
USB kulcsos védelemmel ellátott végtelen licenc, amely korlátlan számú fejlesztést tesz lehetővé a fejlesztők részére. Egyszerre 3 gépen folyhat a fejlesztési munka.

Runtime licenc (RTL)
Az RTL az elkészült alkalmazás kliens oldali futtatásához szükséges. Sok fajtája van, s alapvetően a felhasznált funkcióktól és a feldolgozandó lapmennyiségtől függ. Emellett attól függően, hogy önállóan vagy hálózatban kerül alkalmazásra 4 féle opció választható.

  • standalone (önálló)
  • hálózatos állomás licenc
  • hálózatos aggregált állomás licenc (közös a számláló az össze állomáshoz)
  • hálózatos aggregált konkurens licenc (itt is közös a számláló, de a bekapcsolható állomások száma nem korlátozott)

CPU használat alapján 2 féle licenc lehetséges.

  • Korlátlan CPU, de korlátozott oldalszám
  • Korlátlan oldalszám, de korlátozott CPU szám

Az RTL lehet (USB) hardverkulcsos, vagy aktiválást igénylő szoftverkulcsos.

Upgrade

A korábbi verziókról, attól függően, hogy az melyik lehet upgradelni.

Részletekért forduljon a Licencia Ker. Kft-hez

Próbaverzió

60 napos próbaverzió igénylésére van mód. Ehhez egy kipróbálási licencszerződést kell aláírni. Ez ügyben forduljon a Licencia Ker. Kft.-hez

Műszaki jellemzők

Fejlesztői környezetek

  • MS Visual Studio NET (VB, NET, C#)
  • Visual Basic 5.0 6.0
  • MS Visual C++ 4.x és jobb
  • VB Script és más scripting nyelv
  • Borland Delphi 2.0 és jobb
  • Minden olyan eszköz, amely korrekten támogatja a COM és ActiveX objektumokat

Rendszerkövetelmények

  • PC Intel/AMD min. 200 MHZ
  • 32 és 64 bites Vista, Windows Server 2003, XP, valamint Windows 2000
  • 128 MB RAM + 110MB minden felismerési folyamathoz
  • HDD 350 MB a telepítéshez és 70MB a működéshez
  • 100% Twain kompatibilis scanner, digitális fényképezőgép vagy faxmodem
  • VGA kártya és monitor (800x600)
  • Egér billentyűzet.
  • A felhasználónak írási/olvasási jogokkal kel rendelkeznie az alábbi registry részekben:
    • HKEY_CLASSES_ROOT – full control access
    • HKEY_LOCAL_MACHINE\Software\ABBYY – full control access
    • HKEY_CURRENT_USER\Software\ABBYY – full control access
    • HKEY_CLASSES_ROOT\CLSID – full control access
    • HKEY_CLASSES_ROOT\TypeLib – full control access for installation and activation only

Input/Output formátumok:

Input:

  • PDF
  • BMP
  • PCX, DCX
  • JPEG
  • TIFF
  • GIF
  • PNG
  • DjVu

Output:

  • DOC
  • RTF
  • XML
  • DOCX
  • XLSX
  • PPTX
  • PDF
  • PDF/A
  • PPT
  • TXT
  • XLS
  • DBF

Támogatott nyelvek:

OCR: 195 nyelv.

  • 37 fő nyelv: latin, cirill, görög és örmény karakterekkel. Ezeknél van szótártámogatás is. A magyar nyelv ezek között van.
  • 4 ázsiai nyelv: Kínai (hagyományos, egyszerűsített), japán, koreai.
  • Thai
  • Héber szótárral.
  • 5 féle antik FineReader XIX nyelv
  • 133 további nyelv
  • 4 mesterséges nyel: pl. eszperantó
  • 6 programozási nyelv
  • egyszerű kémiai képletek
  • számok
  • saját nyelv definiálása

ICR: 113 nyelv

  • 29 nyelv szótártámogatással (magyar is)
  • 84 nyelv szótártámogatás nélkül
  • 22 írásstílus támogatása: mint pl. európai, amerikai, orosz, japán, arab, thai

Vonalkód:

  • 1D
  • 2D

Opcionális modulok:

  • Visual Components: ActiveX alapú vizuális eszköz amely a felhasználói felület gyors és könnyű integrálását hivatott megoldani. A következő elemekből áll: szkennelő interfész, dokumentumnézegető, képnézegető, szövegszerkesztő, szöveg ellenörző.
  • Document Analysis for Invoices
  • Document Analysis for Full Text Indexing
  • PDF megnyitás és felismerés
  • PDF Export
  • PDF/A Export
  • PDF MRC tömörítés
  • XML Export
  • Kínai, japán, koreai OCR
  • Héber OCR
  • 2D vonalkód
  • ICR
  • OMR