Przetwarzanie dokumentacji papierowej na postać elektroniczną z wykorzystaniem procesu OCR (Optical Character Recognition) w celu dalszej aktualizacji.

Dla kogo ...

Firmy działające w branży produkcyjnej, usługowej czy też handlowej, różnego rodzaju instytucje, biura oraz zakłady przemysłowe.

Wieloletnia działalność skutkuje posiadaniem obszernej dokumentacji papierowej. Począwszy od przepisów wewnątrzzakładowych, norm, zaleceń, protokołów, instrukcji obsługi, dokumentacji technicznej, aż po dokumenty kadrowe, płacowe i księgowe. Problemem w tym przypadku staje się aktualizacja dokumentacji wymuszana zmianami przepisów, czy też koniecznością naniesienia poprawek.

Przetworzenie dokumentacji papierowej na postać elektroniczną z wykorzystaniem procesu optycznego rozpoznawania tekstu (OCR) umożliwia dalszą edycję dokumentów w celu ich aktualizacji bez angażowania personelu w czasochłonne przepisywanie dokumentów. Jednocześnie proces digitalizacji zapewnia możliwość poprawy jakości zniszczonych dokumentów a w szczególności rysunków technicznych, które mogą być następnie wyplotowane, czy też wykorzystane jako podkład do dalszej obróbki w programie wspomagającym projektowanie.

Jak działa OCR ...

Zadaniem oprogramowania do optycznego rozpoznawania znaków (OCR) jest elektroniczne tłumaczenie obrazów rastrowych na tekst. Oprócz zwykłego tekstu rozpoznawane są także, takie cechy jak: krój i wielkość czcionek, tabele, akapity, szpalty.

 

Podstawą działania wszystkich programów do rozpoznawania znaków jest jedna zasada: gdy silnik oprogramowania zidentyfikuje pojedynczy znak, próbuje rozpoznać charakterystyczne jego cechy. Następnie porównując je ze swoją wewnętrzną biblioteką znaków znajduje najlepiej dopasowany. Ten proces powtarza się dla wszystkich znaków w słowie a następnie uruchamiany jest słownik, aby znaleźć najlepiej pasujące słowo. Taki sposób analizy pozwala zachować wysoką skuteczność rozpoznanego tekstu.

Przetwarzanie dokumentów, czyli OCR w praktyce ...

1         Każdy projekt digitalizacji uwzględniający techniki OCR powinien zawierać odpowiedzi na trzy główne pytania:

a.    Przydatność materiału do rozpoznania OCR. Należy określić, które dokumenty mogą wykluczać rozpoznanie w zadowalającym stopniu. Przykładowo:

Jeśli jednak projekt wymaga OCR to istotnym staje się określenie poziomu dokładności wystarczającej do dalszej pracy nad dokumentem przez doświadczonych użytkowników.

b.    Wymagany próg dokładności - pakiety oprogramowania do OCR zapewniają pewien poziom dokładności w określonych warunkach. Dokładność o której można przeczytać w danych technicznych różnych pakietów nie daje prawdziwego obrazu w jaki sposób oprogramowanie będzie działać na rzeczywistych dokumentach, niejednokrotnie zniszczonych. Będziemy zmierzać do określenia dokładności, jako procentowej ilości znaków uznanych za poprawne w całkowitej ilości znaków konwersji. Dopełnieniem tego zbioru są znaki niepewne. Jednym ze sposobów określenia dopuszczalnego progu dokładności OCR jest ustalenie go przed skanowaniem i wizualne sprawdzenie rezultatu OCR w wybranych partiach materiału. Dla jednorazowego procesu, zwykle mniej kosztowne i czasochłonne w procesie OCR jest przygotowanie próby reprezentatywnej odpowiednich materiałów i przetestowanie w praktyce dokładności rozpoznawania tej próbki. Takie podejście ma wyraźną przewagę, wskazując na potencjalne problemy stwarzane przez materiał oraz pozwala na ewentualną zmianę decyzji co do szczegółów skanowania czy samego procesu OCR lub zmianę kryteriów.

c.    Potencjał dalszego wykorzystania wyników rozpoznania OCR.

2         Skanowanie dokumentów do OCR

Dokumentacja techniczna, która zwykle jest gromadzona przez lata, charakteryzuje się dużą różnorodnością. Przed rozpoczęciem skanowania grupujemy dokumenty ze względu na: rodzaj papieru, stopień zabrudzenia, zakres uszkodzeń mechanicznych i uwzględniamy je w dalszych etapach.

Dokumenty do formatu A4 dobrej jakości na papierze niezbyt zniszczonym i śliskim, mogą zostać przekazane do skanowania automatycznego.

Na tym etapie należy też podjąć decyzję jaką przyjąć rozdzielczość skanowania dla poszczególnych dokumentów. Kryteria które mogą być pomocne w decyzji przedstawiamy poniżej.

Konsekwencją niskiej rozdzielczości są małe rozmiary plików ale też w przypadku drobnego druku zwiększa się prawdopodobieństwo uznania poszczególnych elementów liter w jedną plamę i wtedy takie litery jak „a, o, u, e, s,”, „g, q”, „v, r” oraz „t, l, ł, j, i, f”, „m, w” przestaną być rozróżnialne.

Zbyt duża rozdzielczość może powodować oprócz nadmiernej wielkości plików także problemy przy OCR bo poszczególne litery będą widziane w całości, tylko ich poszczególne elementy będą analizowane jako złożone obszary o różnej jasności i prawdopodobnie zostaną rozpoznane jako ilustracje lub grafika. Możliwa jest też sytuacja że litery "w, m, d" zostaną rozpoznane odpowiednio jako "vv, nn, ol".

Do skanowania dokumentów wielkoformatowych należy dobrać rozdzielczość na tyle wysoką by mieć pewność że najdrobniejsze elementy będą czytelne a jednocześnie na tyle niską by szumy tła papieru były łatwe do usunięcia.

Dla niektórych dokumentów ze względu na istniejący raster drukarski należy dodatkowo zweryfikować przyjęte założenia, Rozdzielczość skanowania powinna być co najmniej dwa razy wyższa niż siatka punktów rastra drukarskiego.

Dokumenty zniszczone, na papierze o niskiej gramaturze, oraz wielkoformatowe należy skanować ręcznie ze szczególną ostrożnością.

Należy przyjąć następujące kryteria do skanowania:

Aby zwiększyć skuteczność OCR należy tak przekształcić obraz strony tak, by uzyskać poziome proste linie tekstu możliwie jednolicie ciemne na możliwie jasnym tle. Następnie zgodnie z przyjętymi założeniami, tworzona jest struktura katalogów, oraz uaktualniane nazwy plików tak by odpowiadały strukturze logicznej katalogów.

3         Tworzenie własnej biblioteki kształtów liter dla projektu.

Dla niektórych tekstów przydatna okazuje się możliwość przygotowania bazy unikalnych kształtów liter. Za pomocą plików DjVu tworzymy słowniki kształtów i wykorzystujemy je jako próbki do uczenia algorytmów rozpoznawania tekstu.

4         Wstępne rozpoznanie tekstu.

Niezależnie od tego czy był zrealizowany poprzedni punkt czy tez nie, wymagane jest rozpoznanie obszarów tekstu, grafiki, tabel, kodów kreskowych, oraz odpowiednie ich ponumerowanie by zachować ciągłość logiczną publikacji na stronie, ze szczególną uwagą należy analizować:

W tych przypadkach wymagana jest ręczna korekta procesu OCR przez operatora. W wyjątkowych przypadkach dla bardzo zniszczonych i szczególnie cennych dokumentów gdy automatyczny OCR nie daje oczekiwanych rezultatów istnieje możliwość po wcześniejszym uzgodnieniu z klientem manualnej korekty rozpoznanego tekstu, czy też jego uzupełnienia.

5         Finalny OCR

Po ponownym przetworzeniu stron dla których konieczne były korekty obszarów i języka, tworzone są dokumenty wielostronicowe lub kolekcje pojedynczych plików w odpowiednich katalogach w uzgodnionym formacie (np. rtf, doc, odt, xls, pdf, djvu ).

6         Raportowanie wyników

Podsumowaniem procesu optycznego rozpoznawania tekstu (OCR) w dokumentacji, jest utworzenie raportu zawierającego wszystkie niezbędne dane pozwalające ocenić klientowi jego skuteczność.

Poprawa jakości zniszczonych rysunków lub dokumentów ...

Zwykle celem konwersji posiadanych rysunków na postać cyfrową, jest użycie ich jako:

Każde zastosowanie determinuje finalną postać pliku.

1         Analiza obrazu i filtrowanie.

Pierwszym krokiem jest określenie charakterystyki tonalnej obrazu. Warto określić rozkład szczegółów na różnych poziomach jasności. Tę informację można wykorzystać  dla określenia ustawień w już na etapie skanowania. Ponieważ możliwość zmiany krzywej tonalnej i współczynnika gamma w celu ustalenia rozkładu cieni w skanerze pozwala uzyskać znacznie więcej szczegółów z wykorzystaniem 36-bitowego słowa w obrazie cyfrowym. Ten etap ma na celu zwiększenie kontrastu pomiędzy użytecznymi elementami oraz tymi które zostały zaklasyfikowane jako tło).

Oczywiście największy kontrast daje wynikowy obraz kodowany 1-bitowo, jednakże pozbawia nas możliwości ręcznej korekty wybranych obszarów, może też powodować że elementy rysunku posiadające podobną jasność zostaną przyrównane do czarnego i przestaną być rozróżnialne, albo jeden z nich będzie  miał odcień nieco jaśniejszy i zostanie mu przypisany kolor tła, skutkiem czego zostanie na zawsze stracony.

Skanowanie w odcieniach szarości wiąże się z analogicznymi problemami w przypadku rysunków zawierających elementy o podobnej jasności ale w różnych kolorach.

Rozwiązaniem jest skanowanie z pełnym kolorem oraz zastosowanie różnych korekt na poszczególnych etapach obróbki graficznej rysunków. Dla dokumentów, które mają być w przyszłości drukowane lub stosowane jako podkład, niezbędne jest przeprowadzenie czyszczenia rysunku z przebarwień i szumu tła.

Zwykle rysunki które mają być podkładem do programów wspomagających projektowanie zapisywane są do Tiff-a o rozpiętości 1 lub 8-bitów odcieni szarości, nawet kosztem utraty niektórych szczegółów.  

Do wykonania kopii papierowych w późniejszym terminie, koniecznym okazuje się doprowadzenie do postaci możliwie jasnego lub białego tła  i zachowania oryginalnej kolorystyki linii.

W przypadku dokumentów które maja być archiwizowane zachowujemy rysunek w oryginalnych kolorach. 

2         Kadrowanie i prostowanie rysunków.

Niezależnie od wybranego celu jakiemu ma sprostać postać elektroniczna, skanowane rysunki należy wykadrować i wyprostować korygując zniekształcenia które wynikają z właściwości papieru. Zwykle wystarczy przekształcić rysunek tak, by ramka rysunku była prostokątem o  bokach równoległych do odpowiednich krawędzi. Jednocześnie należy zadbać by te operacje nie zniekształciły skali rysunku.

3         Zastosowanie technologii  DjVu w celu poprawy czytelności rysunków dokumentów.

Niejednokrotnie standardowe procedury mające na celu doprowadzenie do postaci „czarne linie na białym tle” zawodzą.

Z pomocą przychodzą wówczas algorytmy użyte w technologii DjVu do wykrywania istotnych elementów obrazu, które pozwalają wyodrębnić warstwę treści rysunku i odseparować ją od warstwy tła. Stosując odpowiednie profile otrzymujemy rysunek składający się z linii o właściwych kolorach na białym tle. Oczywiście niekiedy zachodzi potrzeba drobnych korekt, np. usunięcie zbyt dużego ziarna pozostałego ze zniszczonych kopii ozalidowych.

W przypadku udostępniania rysunków, plik wynikowy w formacie DjVu ma niebywałą zaletę, gdyż pozwala wyświetlić zarówno rysunek w oryginale, jak i oczyszczoną  warstwę treści.

W zależności od wybranego zastosowania zapisujemy rysunki w jednym lub kilku wybranych formatach.