Oprogramowanie do tworzenia dokumentów w formacie DjVu.

 

  

 

         Firma LizardTech od ośmiu lat dostarcza na rynek i zarazem sukcesywnie rozwija oprogramowanie umożliwiające tworzenie dokumentów i plików w formacie DjVu. Oprogramowanie to oparte jest o komplet patentów opisujących format DjVu, a zakupionych od koncernu AT&T. Pierwszy produkt firmy LizardTech nosił nazwę DjVu Shop. Starsi użytkownicy technologii DjVu prawdopodobnie spotkali się z DjVu Shop version 2.0 Beta2 (jeszcze z informacją o prawach autorskich koncernu AT&T), który szybko został zastąpiony stabilną wersją DjVu Shop 2.0.2. Pierwszy produkt firmy LizardTech nie był prostym w obsłudze. Wymagał od użytkownika przynajmniej przeciętnej wiedzy nt. kompresji jak i doboru parametrów posiadających wpływ na jakość i wielkość tworzonych plików DjVu. W oczywisty sposób taki interfejs programu ograniczał zainteresowanie się technologią DjVu, zaś jego zagorzałym zwolennikom i tak nie udzielał odpowiedzi, czy wartości które wskazali w oknie dialogowym, były odpowiednie.

DjVu Shop umożliwiał konwersję plików w formatach bmp, gif, jpg, tiff, pnm oraz w prekursorze formatu DjVu – IW44. Zapis postaci skonwertowanej możliwy był w formacie DjVu lub IW44. Pierwsze ikonki oznaczające pliki DjVu pojawiły się wraz z DjVu Shopem i prezentowane są poniżej.

Ilość parametrów konwersji pliku, które mógł zgodnie ze swoją wiedzą dobierać użytkownik, firma LizardTech zastąpiła tzw. profilem. Pod nazwą „profil” kryje się odpowiednio dobrana kolekcja parametrów liczbowych, które umożliwiają w optymalny sposób utworzenie pliku w formacie DjVu. Jednocześnie LizardTech rozszerzył format DjVu. Pliki, które powstały za pomocą DjVu Shop (a spotykane do dziś na różnych stronach internetowych) oznaczone są wersją formatu nr 18. Najstarsze, a dostępne w internetowych witrynach pliki w formacie DjVu oznaczone są numerami wersji formatu 16 lub 17. Obecnie, po wczytaniu takiego pliku do przeglądarki, w opcjach informacji o pliku może pojawić się informacja o tym, że plik jest przestarzałym (można spotkać się z opisem Obsolete DjVu lub Indexed DjVu). Nie oznacza to, że takiego pliku nie można wyświetlić, lub że wystąpią jakiekolwiek trudności. Dla czytelnika jest to jedynie informacja uzupełniająca.

Problemem przestarzałych plików DjVu było głównie to, że liczbę i kolejność stron dokumentu  przechowywały w oddzielnym pliku indeksowym. Osoba, która pobrała z witryny internetowej wyłącznie plik DjVu bez uzupełniającego pliku indeksowego, nie mogła poprawnie wyświetlić dokumentu zapisanego na dysku twardym. Przeglądarka plików DjVu w wersji 4.5 lub nowsza pozwala otworzyć bez problemów pliki przestarzałe z witryny internetowej, a dzięki możliwości zapisu w rozszerzonym formacie DjVu, plik zapisany będzie automatycznie w nowszej wersji i nie sprawi żadnego kłopotu.

Pliki DjVu utworzone za pomocą DjVu Shop odpowiadały specyfikacji kompresji obrazów, którą w kwietniu 1999 opublikował koncern AT&T (specyfikacja ta, często nazywana jest „Specification of DjVu Image Format v2”. Należy sądzić, że konsekwencją decyzji firmy LizardTech o rozszerzeniu formatu DjVu, była rezygnacja z nazwy oprogramowania - DjVu Shop, zaproponowanych przez AT&T ikon formatu oraz nadania nowych numerów wersji formatu DjVu, zatem zamiast oczekiwać formatu nr 19, pojawiło się oznaczenie 21.

 

 

 

 

 

 

W kolejnej „odsłonie”, aplikacje do tworzenia plików DjVu otrzymały numer 3. Najbardziej chyba znanymi z tego okresu aplikacjami były nieodpłatne – ale wyłącznie do zastosowań osobistych -  DjVu Solo 3.0 oraz jej sukcesor DjVu Solo 3.1. W legalny – a zarazem nieodpłatny - sposób można je było pobierać wyłącznie ze strony producenta lub angielskojęzycznego serwisu poświęconego technologii DjVu. Pliki utworzone za pomocą DjVu Solo dla własnych potrzeb były całkowicie legalnymi, jednak ich publikowanie na stronach internetowych, przez producenta nie jest dozwolone. Komercyjnym odpowiednikiem DjVu Solo był program o nazwie DocumentExpress. Zaoferowany został w trzech odmianach : Desktop, Professional i Enterprise. Do dziś pozostały tylko dwie ostatnie odmiany. Program DjVu Solo oznaczał tworzone pliki DjVu wersją formatu numer 21. Takich plików DjVu na różnych witrynach internetowych znaleźć można najwięcej. Kolejne edycje programu DocumentExpress 3.5, 3.5.4  oznaczały pliki DjVu numerem 22, 23, aż do wersji 3.6, w której wprowadzono kolejne rozszerzenie formatu DjVu (związane z zapisem „śladu” sposobu w jaki powstał plik DjVu) i oznaczone numerem 24. Zarówno DjVu Solo jak i DocumentExpress wnosiły (na czas kiedy zostały udostępnione) kilka rozwiązań, które ogromnie ułatwiły i usprawniły tworzenie plików DjVu. Przede wszystkim pojawiły się profile konwersji. Użytkownik przed rozpoczęciem tworzenia pliku DjVu wskazywał rozdzielczość pliku konwertowanego oraz w prosty sposób wybierał jeden spośród czterech profili konwersji. Wskazywał zatem, czy konwersję należy zoptymalizować pod kątem dokumentu skanowanego, kolorowej fotografii, dokumentu czarno-białego czy też pliku utworzonego przez inną aplikację (np. rysunek PhotoShopa zapisany w formacie tiff). Taki sposób obsługi aplikacji był zdecydowanie atrakcyjniejszy – zwłaszcza - dla użytkowników tworzących pliki DjVu a pamiętających aplikację DjVu Shop.

Kolejne ułatwienie było konsekwencją rozszerzenia formatu DjVu. Pojawił się panel miniatur kolejnych stron dokumentu a wraz z nim możliwość wyboru zapisu dokumentu wielostronicowego w sposób, albo rozdzielony (każda strona jest osobnym plikiem na dysku), albo w sposób scalony (zapis klasyczny – wszystkie strony w jednym pliku łącznym). Wykorzystanie – głównie w publikacjach internetowych - unikatowej cechy formatu DjVu, jaką jest rozdzielony sposób zapisu dokumentu, spowodowało, że do dnia dzisiejszego nie ma innego formatu dokumentu, który by tak błyskawicznie wyświetlał dowolną stronę dokumentu, nawet jeżeli jej numer przekracza 1000. Oba w/w programy – podobnie zresztą jak DjVu Shop – umożliwiały także dodawanie do dokumentu DjVu kilku typów hiperłączy (wewnątrzdokumentowych jak i odwołujących się do adresów stron internetowych). LizardTech, od wersji swoich produktów 3.x, zmienił również ikonkę plików DjVu sygnalizując zmiany i ujednolicenie formatu DjVu w stosunku do plików DjVu indeksowanych jak i – w tym momencie - plików przestarzałych. Spinacz i samoprzylepna karteczka do dziś są oznaczeniem formatu DjVu.

 

 

 

 

 

 

Pozostaje jeszcze kwestia, czym DjVu Solo różnił się od komercyjnego odpowiednika DocumentExpress. Poza obszarem zastosowań (własny użytek/komercyjne), DjVu Solo był aplikacją zawierającą jedynie większość algorytmów kompresji do formatu DjVu. Wszystkie efekty pracy nad rozwojem zakupionej od koncernu At&T technologii DjVu, LizardTech umieścił wyłącznie w produktach komercyjnych. Nie oznacza to, że DjVu Solo ustępował w bardzo istotny sposób walorami aplikacji DocumentExpress (zwłaszcza w przypadku kolorowych fotografii). Różnice mogli dostrzec użytkownicy skanujący dokumenty nieco podniszczone a zawierające tekst drukowany, elementy linii, dokumenty będące już kopiami oryginałów itp. Profile jak i sama konwersja za pośrednictwem DocumentExpress umożliwiają otrzymanie plików DjVu z bardziej precyzyjnie wykonaną segmentacją zawartości strony (czyli lepsza czytelność czy też jakość) oraz z bardziej wiarygodnym odwzorowaniem kolorystyki blisko rozłożonych na stronie obiektów. Inną, lecz bardzo znaczącą różnicą pomiędzy DocumentExpress a DjVu Solo, jest moduł drukarki wirtualnej będący elementem pakietu DocumentExpress. Dzięki temu modułowi możliwym stało się tworzenie plików DjVu bezpośrednio z innych aplikacji (np. MS Worda, AutoCADa, MS Excela, ...). Każda z odmian DocumentExpress posiadała (i posiada do dziś) zarówno moduł drukarki wirtualnej jak i moduł DocumentEditor, którego możliwości odpowiadają aplikacji DjVu Solo.

Ponieważ jak wspomniano wyżej, plików wykonanych w wersji 21 można znaleźć – chociażby celem ich oceny - w internecie bardzo dużo, poniżej przedstawiono nie możliwości jakie oferował DjVu Solo, ale różnicę jak prezentuje się dokument DjVu wykonany za pomocą komercyjnego DocumentExpress oraz za pomocą DjVu Solo (używając dostępnych w nim profili segmentacji „Scanned” oraz „Clean”). Każdą z poniższych miniaturek widoków dokumentu można powiększyć, a dodatkowo pod zestawieniem dostępne są odpowiednie pliki DjVu z uwypukleniem różnic konwersji. Ponadto, w pierwszym wierszu poniższej tabeli umieszczono link umożliwiający pobranie pliku tiff skanowanego dokumentu jako wzorca odniesienia.

 

 

Prezentowany dokument zeskanowano do formatu Tiff w trybie true color. Plik tiff posiada 18.4 MB (do pobrania obok)

Skan dokumentu

Skan wyświetlony w IrfanView

Skan wyświetlony w DocumentEditor

DjVu Solo Scanned (rozmiar mniejszy od pliku Tiff o 99.53%)

 

Widok kompletny

 

Warstwa treści

Warstwa tła

DjVu Solo Clean (rozmiar mniejszy od pliku Tiff o 99.51%)

 

Widok kompletny

 

Warstwa treści

Warstwa tła

DocumentExpress Drawing (rozmiar mniejszy od pliku Tiff o 99.49%)

 

Widok kompletny

 

Warstwa treści

Warstwa tła

Kompletny plik DjVu (DjVu Solo, scanned),

88.4 kB, 300 dpi, color, wersja 21

 

Kompletny plik DjVu (DjVu Solo, clean),

91,7 kB, 300 dpi, color, wersja 21

 

Kompletny plik DjVu (DocumentExpress, drawing),

95.8 kB, 300 dpi, color, wersja 26

 

 

Cekem wygodnego porównania jakości plików, przeglądarka udostępni przyciski wyświetlania poszczególnych warstw.

 

 

 

 

Nie trudno zauważyć, że digitalizacja dokumentów dotyczy z reguły bardzo dużej ilości arkuszy. Niektóre prace prowadzone są wręcz kilka lat. Wydajność jaką oferuje jednostanowiskowy pakiet DocumentExpress Professional dla takich prac może być niewystarczająca. Z myślą o wykonaniu bardzo obszernych prac, LizardTech zaoferował DocumentExpress Enterprise. Już od pierwszych jego wersji, produkt kładł nacisk na możliwość konwersji dziennej od 1000 do kilku tysięcy stron. Moduł WorkGroup Edition, (bo taką nazwę otrzymał) odpowiedzialny był za wsadową konwersję plików rastrowych i map bitowych. jakkolwiek WorkGroup Edition realizował postawione przed nim zadania, to skromna ilość opcji dodatkowych spowodowała, że w niedługim czasie został zastąpiony – w wersjach kolejnych - modułem daleko bardziej uniwersalnym Workflow Manager.

 

 

 

  

 

Kolejnym krokiem w rozwoju technologii DjVu było dodanie do plików DjVu ukrytej warstwy tekstowej OCR. Ten składnik w zdecydowany sposób rozszerzył zastosowanie i funkcjonalność dokumentów DjVu.

Pliki DjVu - o czym nie wspomniano do chwili obecnej - można rozumieć jako pliki rastrowe, których fragmentaryczną zawartość umieszczono w kilku odrębnych warstwach. Kilka z tych warstw zawiera treść dokumentu, więc wyświetlane są jednocześnie w przeglądarce i dzięki temu możemy zapoznać się z kompletną zawartością dokumentu. Kolejne warstwy pełnią funkcje usługowe. Taką niewyświetlaną (często nazywaną ukrytą) warstwą jest warstwa OCR. Zawiera ona rozpoznany tekst strony, co pozwala na pełnokontekstowe przeszukiwanie strony względem określonego zwrotu. Inną warstwą „usługową” jest warstwa, w której umieszczane są hiperłącza lub inne adnotacje rozszerzające możliwości interakcji w dokumentach DjVu. Warstwa hiperłączy towarzyszy plikom DjVu od czasów aplikacji DjVu Shop.

Warstwy wyświetlane to warstwa nazywana treścią oraz warstwa tła. Ich konstrukcja jest odmienna. Warstwa tła tworzona jest w ogromnej większości przypadków z 3÷6-krotnie mniejszą rozdzielczością niż warstwa treści. Oznacza to, że ta właściwość plików DjVu decyduje o niespotykanie małych rozmiarach dokumentów DjVu. W warstwie tła zaawansowane algorytmy kompresji umieszczają te fragmenty dokumentu (strony), które nie są „istotne dla oka ludzkiego” w ocenie jakości dokumentu. Warstwa treści – jak łatwo się domyślić – zawiera zatem elementy o wyraźnych obrzeżach i odmiennej kolorystyce (litery, znaki, fragmenty linii i krzywych) i tworzona jest albo z rozdzielczością konwertowanego pliku, albo z rozdzielczością, jaką zażyczy sobie użytkownik (zwłaszcza posiadacz Enterprise, którego ilość opcji konwersji znacząco wykracza poza możliwości DocumentExpress Professional). Jednak o nowatorstwie w konstrukcji warstwy treści plików DjVu świadczy jej inna cecha. Warstwa ta, w pliku przechowywana jest bez informacji w jakim kolorze powinien być wyświetlony każdy jej fragment. Informacja o masce kolorów zapisywana jest oddzielnie. Taka konstrukcja gwarantuje użytkownikowi technologii DjVu, że w sytuacji gdy strona zawiera m.in. tekst białą czcionką na czarnym tle i jednocześnie tekst czarną czcionką na białym tle, możliwym jest jego wyświetlenie lub wydrukowanie w trybie black-white bez „zgubienia” choćby jednej literki. Inne formaty dokumentów czy też technologie informatyczne również potrafią wyświetlić kolorową stronę w trybie black-white lub z odcieniami szarości, jednak białe lub jasne elementy – a ważne z punktu widzenia kompletności treści – gubione są nieodwracalnie.

Rozszerzenie możliwości plików DjVu o warstwę OCR, które od wersji 3.5 zaoferował DocumentExpress, posiadało wyraźne ograniczenie. OCR stron dokumentów DjVu można było wykonać wyłącznie dla alfabetu łacińskiego.

Kolejne istotne zmiany wniosła wersja DocumentExpress 4.1.0. DocumentEditor wyposażono w dużą ilość nowych adnotacji takich jak – dodanie do strony notatki tekstowej, niedużego pliku mapy bitowej, linii, podstawowych figur geometrycznych, liniału wymiarowania, pinezki z przypiętą karteczką informacyjną, .... Ale przede wszystkim pojawiły się zakładki, czyli panel, w którym można było umieścić w formie rozwijalnego drzewka hierarchiczne spisy treści dokumentów.

 

 

W roku 2004 pojawił się DocumentExpress 5.0. W tym produkcie – do czego szybko przyzwyczajają się użytkownicy – dodane zostały kolejne nowości. Natomiast z modułu DocumentEditor znikły niemal wszystkie adnotacje, które na krótko pojawiły się w wersjach 4.1.0 oraz 4.1.3. Dlaczego ? Zaoferowane adnotacje, zapisywane w plikach DjVu widocznie zmniejszały – z czego słynie format DjVu – szybkość zapoznawania się z dokumentem i jednocześnie na tyle zwiększały ich rozmiar, że decyzja producenta była nieodwracalna. Jednak kolejna już informacja dotycząca wersji 5.0 o zakupieniu od firmy Read IRIS S.A. „silnika” OCR dla ponad 100 języków i zaimplementowania tej technologii w najnowszej wersji DocumentEditor 5.0, Virtual Printer Pro 5.0, oraz w zupełnie nowym module pakietu EnterpriseWorkflow Manager, zostało przyjęte bardzo dobrze. Opis poszczególnych opcji DocumentEditora można znaleźć tutaj .

Wspomnianą wyżej wersję modułu EnterpriseWorkflow Manager 5.0, producent dla dystrybutorów poprzedził wersją pilotową. Już to wydanie odsłoniło zupełne nowe spojrzenie na problematykę konwersji bardzo dużych ilości dokumentów z jednoczesnym dostępem do narzędzi pozwalających precyzyjnie określić sposób konwersji jak i dołączyć automatycznie wiele opcji uzupełniających. Ukryte warstwy tekstowe w tej wersji były już – podobnie jak integracja miniaturek graficznych w plikach DjVu - opcją podstawową. Zaś nowością okazała się opcja dodawania do stron plików DjVu znaku wodnego. Takie podpisywanie pliku realizowane jest w osobnej warstwie pliku DjVu. Znak wodny w dokumentach DjVu można dodawać wyłącznie za pośrednictwem Workflow Managera. Ale to, co stanowi o największym atucie pakietu, to możliwość układania własnego scenariusza pracy pakietu, dzięki definiowaniu kolejnych zadań konwersji, zwanych kolejkami. „Kolejka” to komplet informacji wskazanych przez użytkownika a dotyczący procesu konwersji. Użytkownik z blisko 50 profili konwersji wybiera najbardziej mu odpowiadający, zaznacza pole opcji takich jak wykonanie rozpoznania tekstu, dołączenia miniatur lub znaku wodnego, określa, albo folder plików (również z podfolderami), albo nazwy plików, które należy skonwertować według wybranego profilu. Dodatkowo można sobie zażyczyć, by po konwersji pakiet tworzył pliki tekstowe z rozpoznanym tekstem skonwertowanych stron lub utworzył pliki xml zawierające nie tylko rozpoznany tekst ale również wszystkie hiperłącza i wszystkie adnotacje skonwertowanych dokumentów. Po tych kilku kliknięciach kolejka jest gotowa do uruchomienia. Chyba, że koniecznym jest zdefiniowanie kilku następnych kolejek, co zależy już od użytkownika. Po przygotowaniu scenariusza i uruchomieniu go, pakiet nie wymaga jakiejkolwiek obsługi, bez względu na to czy konwertuje 5 czy też 5000 stron.

Poza układaniem scenariusza (który najczęściej uruchamiany jest w końcu dnia roboczego, tak by konwersja była gotowa kolejnego dnia rano), Workflow Manager umożliwia pracę ciągłą, dzięki stałemu monitorowaniu foldera, który najczęściej określa się „gorącym” (hot folders). Wystarczy zadeklarować lokalizację gorącego foldera, określić interwał czasowy, czyli jak często zawartość tego foldera będzie sprawdzana przez Workflow Managera (np. co 15 sek.), wybrać stosowny profil konwersji oraz opcje uzupełniające i uruchomić pracę. Od tego momentu wszyscy użytkownicy posiadający dostęp do zadeklarowanej lokalizacji gorącego foldera mogą umieszczać w nim pliki przeznaczone do konwersji. Konwersja zrealizowana będzie automatycznie. Ciekawostką jest to, że kolejek z śledzeniem foldera gorącego może być kilka. Tym sposobem otrzymujemy nie tylko możliwość pracy ciągłej (i to bezobsługowej), ale dodatkowo możemy konwertować w jednej lokalizacji kolorowe fotografie z wykorzystaniem profilu Photo400 a w innej skanowane strony książek za pośrednictwem profilu np. Manuscript300.

  

 

  

 

 

 

 

 

 

Omawiając wprowadzenie na rynek modułu wirtualnej drukarki, wspomniano, że jest odpowiedzialna za to, by z plików elektronicznych (a zatem z pomięciem papierowej postaci dokumentu) tworzyć dokumenty w formacie DjVu. Wszelkie pliki pakietów biurowych (MS Office, Open Office), programów graficznych, profesjonalnych edytorów tekstu w prosty sposób konwertowane są do postaci DjVu w dwóch krokach – poprzez wybór opcji „Drukuj” i potwierdzeniu w wyświetlonym dialogu przycisku „Encode” (szczegółowy opis działania wirtualnej drukarki można znaleźć tutaj ). Wirtualna drukarka w przypadku użytkowników DocumentExpress Enterprise konwertujących pliki Acrobata (.pdf) jak i Postscript (.ps) może być co najwyżej narzędziem uzupełniającym. Workflow Manager, podobnie jak DocumentEditor, konwertuje pliki bmp, jpg, tiff, gif, pnm, format rodem z Maca – pict oraz - czego nie realizuje już DocumentEditor – pliki pdf i ps. Dla tych plików konwersja przebiega w bardzo ciekawy sposób. Można wskazać, że konwersji poddane będą pliki pdf powstałe z rastrów. Wtedy można sprecyzować sposób konwersji jednym z dostępnych profili dla plików rastrowych. Natomiast gdy wskażemy, ze konwersji poddane będą pliki pdf wygenerowane elektronicznie, jedyne co należy zrobić, to wskazać, czy konwersję należy prowadzić z maksymalną jakością czy też optymalnym rozmiarem. Dla generowanych plików pdf zawierających warstwę tekstową Workflow Manager nie wykonuje rozpoznania tekstowego, lecz przenosi warstwę tekstową bezpośrednio z pliku pdf do DjVu. Jeżeli plik pdf zawiera hiperłącza lub zakładki rozwijalnego spisu treści, podobnie jak warstwa tekstowa przeniesione zostaną do pliku DjVu jak gdyby zostały skopiowane. Zaś to, czy przydatniejszym w archiwum dokumentowym okażą się pliki pdf czy tez DjVu próbuje ocenić artykuł . 

  

 

 

 

 

Wprowadzone w DocumentExpress 3.5 i DjVu Solo 3.0 profile konwersji dokumentu oferują optymalne ustawienia dla najczęściej konwertowanych dokumentów. Fakt ten spowodował to, że każdy użytkownik mógł swoje cenne zbiory zapisywać w formacie DjVu bez większych kłopotów. Jednak w przypadku dokumentów takich jak tzw. „piąta kserokopia” rysunku technicznego (a tych w biurach projektów nie brak) lub w przypadku starodruków, których stan nie jest już najlepszy, trudno - nawet za pomocą dużej ilości dostępnych profili w DocumentEnterprise - znaleźć ten najlepszy profil. W takich sytuacjach należy sięgnąć po kolejny moduł pakietu EnterpriseConfiguration Manager. Okno dialogowe tego modułu (zaprezentowane wyżej jako powiększana miniaturka) podzielone zostało na 3 sekcje. Pierwsza zawiera kilkadziesiąt różnych parametrów odpowiedzialnych za jakość konwersji. Na stałe wyświetlone jest jedynie kilka suwaków. Kolejne okienka z zakładkami zawierające porcje parametrów, dostępne są po wybraniu przycisku Advance Settings. Druga sekcja zawiera podgląd wybranego pliku, dla którego precyzowane są parametry profilu konwersji. Wyświetlona jest nazwa dokumentu, typ i rozmiar. Z kolei sekcja ostatnia – oznaczona „[DjVu]” i wielkością pliku w bajtach - zawiera podgląd postaci skonwertowanej dla chwilowej wartości - wskazanych przez użytkownika - parametrów. Takie podejście czyni tą trudną pracę przejrzystą, ponieważ nowy profil – dzięki podglądowi efektu jego pracy niemal online – może być korygowany dowolną ilość razy, do momentu osiągnięcia satysfakcjonującego efektu.

Przykładem konwersji za pomocą profilu napisanego dla zniszczonych rysunków na kalce technicznej może być prezentacja .

Poniższe porównanie pokazuje w jaki sposób możliwym jest archiwizowanie zbiorów niezwykle cennych i rzadkich. Do przykładu wybrano stronę inkunabułu pochodzącego z końca XV wieku. W pierwszej kolumnie zaprezentowano efekt konwersji postaci skanowanej do postaci DjVu za pomocą profilu dokumentów standardowych DocumentExpress ProfessionalManuscript. W kolejnych dwóch kolumnach prezentowana jest konwersja tej samej strony pakietem DocumentExpress Enterprise za pomocą specjalnie zaprojektowanych w firmie GB Soft profili konwersji.

 

Fragment strony DjVu, DocumentEditor Professional

Fragment strony DjVu, Workflow Manager (profil 1)

Fragment strony DjVu, Workflow Manager (profil 2)

 

 

 

 

 

 

 

 

Strona w formacie DjVu 

Strona w formacie DjVu 

Strona w formacie DjVu 

Po zapoznaniu się z powyższymi dokumentami, można pokusić się o opinię, kiedy do archiwizacji sięgnąć należy po DocumentExpress Professional a kiedy po pakiet Enterprise.

Brak możliwości pracy ciągłej czy tez wsadowej w pakiecie Professional powoduje, że nadaje się bardzo dobrze do archiwizacji dokumentów co najwyżej kilkusetstronicowych. W przypadku większej ilości digitalizowanych stron, czas wykonania takiej pracy będzie bardzo duży. Digitalizując kolorowe zdjęcia, czasopisma a może skrypty dysponować będziemy zapewne dokumentami w znacznie lepszym stanie niż kilkusetletnie starodruki, zatem należy oczekiwać, że podobnie jak w porównaniu jakości oferowanej przez DocumentExpress Professional względem jakości programu DjVu Solo, z takimi skanami DocumentExpress Professional poradzi sobie bardzo dobrze.

Natomiast w sytuacji kiedy digitalizacji poddane mają być takie dokumenty jak powyższe przykłady (zniszczone kalki, starodruki), a na dodatek waga takich dokumentów jest wysoka, użycie Enterprise wydaje się być koniecznością.

Poza tymi przypadkami należy jeszcze wspomnieć o 2 typach dokumentów, których ani wirtualna drukarka ani DocumentEditor nie pozwolą nam otrzymać. Pierwszym przypadkiem jest sytuacja kiedy konwertujemy dokumenty duże, np. o boku rzędu 30.000 pikseli. Jako przykład może posłużyć mapa Pensylwanii posiadająca bok o długości 32.361 pikseli, wykonana w rozdzielczości 600 dpi, 24-Bit Color a zajmująca tylko 1.53 MB (dostępna również w sekcji „Zastosowania” na stronie www.djvu.com.pl).

Drugim przypadkiem kiedy użycie Enterprise staje się niezbędne to postawienie wymogu jakości dokumentowi DjVu porównywalnej z jakością pliku określanego „wektorowym”. Dla takich plików istotna jest nie tylko jakość pliku wyświetlonego w podstawowym powiększeniu, ale również w powiększeniach rzędu 600-900%

 

 

 

 Jako przykład wybrano jedną z map prezentowanych w sekcji „plany i mapy generowane elektronicznie”. Mapę Polski wykonaną w rozdzielczości 600 dpi 24-Bit Color o rozmiarze 56.0 * 40.0 [cm] można obejrzeć w postaci pliku DjVu , lub jako fragment powiększony do 700% obok. Oglądając mapę Polski powiększoną do przynajmniej 300% warto wyszukać za pośrednictwem przeglądarki słowo „Atlas”. Ten wyraz umieszczony jest na mapie pionowo. Pomimo, iż wyszukiwanie odbywa się od góry w dół dokumentu, a prawidłowe odczytanie słowa Atlas odbywa się przeciwnie – od dołu do góry, przeglądarka nie ma kłopotu w odszukaniu poszukiwanego zwrotu.

 

 

Rok po premierze 5-tej wersji Professional ukazała się wersja szósta DocumentExpress Professional i na dziś jest to wersja aktualna. Jako uzupełnienie tej informacji można dodać, że DocumentExpress Enterprise na dzień dzisiejszy oznaczony jest numerem 5.1. Oferowany jest w wersji Unlimited – umożliwiającej dowolną ilość konwersji dokumentów oraz w wersji Limited, umożliwiającej wykonanie 25.000 konwersji, po czym jego działanie wygasa. W takiej sytuacji możliwym jest dokupienie elektronicznego klucza zwanego „Page cartridge” umożliwiającego wykonanie kolejnych 25.000 konwersji. Wszystkie wersje DocumentExpress oferowane są wyłącznie w postaci produktu Retail lub Upgrade zapisanego na płycie CD z dołączoną licencją legalnego użytkowania oraz indywidualnym numerem przypisanym do jego użytkownika. LizardTech nie oferuje produktów OEM oraz Academic Edition.

DocumentExpress Professional 6.0 dostarczany jest na jednej płycie CD. DocumentExpress Enterprise 5.1 Unlimited na 4 płytach CD. Pierwsza zawiera moduł Workflow Manager, Configuration Manager oraz moduł wirtualnej drukarki. Kolejne 3 płyty są pełnymi wersjami DocumentExpress Professional, a zatem zawierają po jednym module DocumentEditor i Virtual printer Pro. Z kolei DocumentExpress Enterprise 5.1 Limited zawiera tylko 1 pakiet Professional, więc dostarczany jest na 2 płytach CD

DocumentExpress Professional 6.0 jak każda kolejna wersja każdej aplikacji często posiada opcje przydatne jedynie programistom i administratorom sieci. Ale poza takimi zmianami, o których wspominać nie ma potrzeby, w nowej wersji produktu dodano możliwość redagowania i budowy panelu zakładek, czyli rozwijalnego drzewka spisu treści. Rozszerzone zostały możliwości dodawanych hiperłączy, wprowadzono możliwość jednoczesnego wyświetlenia dwóch sąsiadujących stron. Do jedynej adnotacji, która dostępna była w wersji 5-tej (tzw. żółta karteczka), dodano adnotację odcinka, strzałki oraz pola tekstowego, które może być wyświetlane cały czas lub być przywoływane po kliknięciu symbolu graficznego w kształcie małej granatowej strzałeczki. Pojawiła się ponownie możliwość wymiarowania. Opcja ta dostępna była już w wersji 4-tej, lecz wymagała jej zapisu w pliku DjVu. Obecnie LizardTech przywrócił opcję wymiarowania umieszczając ją nie w module DocumentEditora lecz w nieodpłatnej przeglądarce plików DjVu.

Ciekawostką może być fakt w jaki sposób DocumentEditor 6.0 oznacza wersje formatu zapisywanych przez siebie dokumentów. Jeżeli otwarty zostanie dokument w wersji wcześniejszej np. 21 i dodane zostaną do niego adnotacje specyficzne dla Professional 6.0, np. strzałki, to po zapisie na dysk, taki plik DjVu będzie się zgłaszać wersją formatu numer 26. Wczytując ponownie ten plik do DocumentEditora 6.0, usuwając dodane uprzednio strzałki i zapisując ponownie dokument na dysk, plik otrzyma numer wersji formatu 25 (numer najbliższy wersji 26, w którym nie występowały usunięte adnotacje). Dzieje się tak dlatego, by zoptymalizować w przyszłości czas otwarcia dokumentu w przeglądarce, która odczytując numer wersji „zostaje poinformowana” ile i jakie składniki mogą wystąpić w otwieranym dokumencie DjVu. Przykładem takiego aktualizowania numeru wersji formatu są pliki prezentujące jakość konwersji wykonanej za pomocą DjVu Solo (przed dodaniem do nich strzałek i pól tekstowych pliki zgłaszały oczywiście numer wersji 21).  Takie optymalizowanie poprzez analizę zawartości zapisywanego dokumentu w wersji 5-tej i 4-tej nie było dostępne.

 

 

Jakich zatem nowości należy oczekiwać w najbliższych miesiącach. W chwili obecnej w LizardTech najbardziej zaawansowane prace dotyczą oprogramowania umożliwiającego ochronę zawartości dokumentów DjVu. Już w drugiej połowie 2006 roku pojawiła się przeglądarka DjVu w wersji 6.0, która umożliwiała odczytywanie chronionych dokumentów DjVu. Chronione dokumenty DjVu nazwano SecureDjVu, a wyświetlić je można tylko po uprzednim wprowadzeniu nazwy użytkownika oraz jego hasła. Użytkownik posiadający wszystkie uprawnienia nazywany jest administratorem. Tego użytkownika nie dotyczy przedawnienie czy tez wygaśnięcie dokumentu. Chronione pliki DjVu poza zabezpieczeniami - niczym produkt spożywczy - mogą posiadać termin ważności. Można zatem dla przykładu opublikować dokumentację przetargową, której dostępność zgodnie z wymogami prawa wynosi 2 lata. Takim plikom przypisać można również termin ważności 2 lata i nie trzeba się martwić czy w terminie późniejszym komplet plików usunięto z serwera czy też nie, ponieważ korzystający z tych dokumentów użytkownicy po ich wygaśnięciu utracą do nich dostęp.

Powracając do poziomów dostępu. Ograniczenia w dostępie polegają na tym, że w pliku DjVu można wyłączyć

·         dostępność wydruków

·         możliwość zapisu z serwera www kopii całego dokumentu, wybranej strony lub wyeksportowania wybranej stroniy do pliku w formacie BMP

·         możliwość skopiowania do pamięci schowka warstwy tekstowej wyświetlonej strony lub zaznaczonego obszaru strony jako pliku graficznego.

 

Użytkownicy mogą posiadać 8 poziomów dostępu, co wynika z faktu, że danemu użytkownikowi ograniczyć można jedną, dwie dowolne lub trzy spośród wyżej wymienionych opcji, a to daje w sumie 8 możliwych wariacji. Administrator nie posiada żadnego ograniczenia.

W chwili obecnej oprogramowanie zabezpieczające pliki DjVu – SDjVuAdmin 1.0 - dostępne jest jedynie dla kilku strategicznych partnerów LizardTech oraz kilku dystrybutorów oprogramowania DocumentExpress. Nie posiada jeszcze interfejsu graficznego (czy też estetycznego okienka dialogowego), lecz działa za pośrednictwem pliku wsadowego. Można je stosować w trzech celach – dodania zabezpieczeń, usunięcia zabezpieczeń jeżeli znana jest nazwa i hasło administratora oraz w trybie przeanalizowania wskazanego pliku/-ów DjVu (czy jest chronionym w ogóle, a jeżeli tak, to jakie deklaracje w nim zawarto). Jeżeli określone wymogi zostały spełnione, oprogramowanie realizuje zlecone zadanie. W przypadku przeciwnym – jak pokazano wyżej – wyświetla krótką informację o błędzie lub zaistniałej niezgodności.

 

Poza wymienionymi w niniejszym artykule programami przeznaczonymi do tworzenia plików w formacie DjVu, a pojawiającymi się na rynku informatycznym od roku 2000 do dziś, Lizardtech dostarcza również sukcesywnie rozbudowywaną przeglądarkę plików DjVu. Obecnie najnowsza wersja tej przeglądarki 6.1.1 dostępna jest w sekcji Download. Jest to produkt nieodpłatny dla celów zarówno biznesowych jak i osobistych. W sekcji „Polskie instrukcje” można pobrać polskojęzyczny podręcznik opisujący jej  możliwości.

 

Poniżej przedstawione przykłady są plikami DjVu utworzonymi za pomocą wszystkich omawianych w niniejszym artykule programów. Przykłady zapisane są w formacie IW44 oraz w formacie DjVu w wersjach formatu 16, 17, 18, 21, 22, 23, 24, 25 i 26. Bez względu na to, który przykład zostanie wybrany do obejrzenia, przeglądarka plików DjVu firmy LizardTech wyświetli go poprawnie. Fakt ten potwierdza to, że format DjVu zaprojektowano bardzo starannie, a archiwa DjVu utworzone za pomocą dowolnego narzędzia dla tej technologii są nie tylko wiarygodne, ale gwarantują, że będzie można z nich bezpiecznie korzystać również za pomocą programów, które powstaną w przyszłości.

Zapoznając się z poniższymi przykładami, polecamy po wyświetleniu dokumentu wywołać prawym klawiszem myszki menu podręczne przeglądarki, po czym z opcji „pomoc” wywołać okienko „informacje o dokumencie” (wyświetlany jest rodzaj dokumentu) lub opcję „informacje o stronie” (wyświetlany jest numer formatu wersji pliku DjVu).

 

 

 

 

v.16

Dokument przestarzały indeksowany, kolorowy, rozdzielony

v.16

Dokument przestarzały, rozdzielony. Bardzo ciekawie wykorzystane dziesiątki adnotacji do skanowanego dokumentu pisma odręcznego

v.16

Dokument przestarzały, scalony

v. 17

Dokument przestarzały, scalony

v. 17

Dokument przestarzały indeksowany, rozdzielony i jednocześnie jednostronicowy

v. 18

Dokument przestarzały, scalony, bitonal DjVu

v. 18

Przestarzały, jednostronicowy, warstwa treści i warstwa tła wykonana w rozdzielczości 1200 dpi, 386 kB

v. 18

Dokument przestarzały indeksowany, bitonal, rozdzielony. Przykład zawiera treść specyfikacji formatu DjVu v2 firmy AT&T. Został zaprezentowany w takiej szacie jak opublikowano go na stronie AT&T. Gdy dokument był publikowany, miniatury stron graficznych w formacie DjVu nie były dostępne. Przygotowany przez autorów panel miniatur imitował ta funkcję. Obecnie jego polecenia przeglądarka potraktuje jako odświeżenie i wyświetli strone nr 1.

v. 21

Dwustronicowy dokument scalony

v. 22

Dokument, scalony

v. 23

Ładnie wykonany dokument scalony, Zawiera adnotacje. Pierwsza strona wykonana jest w wersji formatu 23, pozostałe w wersji 22.

v. 24

Dokument scalony, jednostronicowy

v. 25

Dokument 6-stronicowy, scalony. Obrazy Leonardo da Vinci, 474 kB

v. 26

Dokument jednostronicowy

Dokument zapisany w formacie IW44

Dokument kolorowy (PM44) zapisany w formacie IW44 (prekursorze formatu DjVu). W formacie IW44 wszystkie dokumenty były jednostronicowymi. (*)

Dokument zapisany w formacie IW44

Dokument zapisany w formacie IW44, odcienie szarości (BM44)

(*) –    Nie ma najmniejszego problemu, by za pomocą modułu DocumentEditor komponować wielostronicowe pliki DjVu złożone ze stron w różnych wersjach formatu. Przykładem może być dokument zbudowany z kilku stron w formacie IW44 (strony kolorowe i w odcieniach szarości) z dodanym jako strona czwarta plikiem Djvu w wersji formatu 25 i posiadającym dodatkowo znak wodny. Nic nie stoi również na przeszkodzie, by za pomocą obecnych narzędzi dodać do stron IW44 panel miniatur.

v. 25

Secure

Dokument wielostronicowy, rozdzilony. Każda strona podpisana jest znakiem wodnym. Dokument dostepny po podaniu :

Nazwa użytkownika : 

Hasło : 

Tajny

Dokument

 

 

 

Aby móc się przekonać o możliwościach technologii dokumentów DjVu, w sekcji Download można pobrać nieodpłatne dla każdego zastosowania wersje testowe :

·                    Oba moduły DocumentExpress Professional, tj. DocumentEditor 6.0  oraz Virtual Printer Pro 6.0

·                    Moduł DocumentExpress Enterprise 5.1Workflow Manager 5.1.

 

Każda z powyższych wersji posiada identyczną ilość opcji jak jej komercyjny odpowiednik. Każda z nich działa co najwyżej 30 dni, do co najwyżej 500 konwersji (1 konwersja = 1 strona). Zapraszamy serdecznie.

 

 

 



Kwiecień 2007

Grzegorz Bednarek
GB Soft, Zabrze
grzegorz@djvu.pl

http://www.djvu.com.pl