PDF czy DjVu, w którą stronę?

1. Wprowadzenie.

Publikacje elektroniczne w odróżnieniu od wydawnictw papierowych, dzięki zdecydowanie niższym kosztom wydania, umożliwiają coraz większej liczbie przedsiębiorstw, oficyn wydawniczych lub bibliotek publikowanie własnych prac, bieżące archiwizowanie dokumentacji itp. Dla bibliotek czy też archiwów dokumentowych pojawiła się możliwość wyeksponowania własnych zbiorów, efektywnego udostępniania dokumentów za pośrednictwem sieci lokalnych lub rozległych, a digitalizacja oraz nowe technologie teleinformatyczne stały się podstawą do tworzenia interaktywnych oraz multimedialnych publikacji, dzięki którym czytelnicy czy tez osoby, do których są kierowane, otrzymali zupełnie nową jakość w korzystaniu z opublikowanych zbiorów, zwłaszcza tych starszych, jak rękopisy czy stare druki, do których dostęp bardzo często był utrudniony ze względów bezpieczeństwa.

Pojawia się zatem pytanie, w jaki sposób czy też właściwie w jakim formacie publikować dokumenty ?

Bez względu na to, czy digitalizowane dokumenty zawierają wyłącznie tekst, grafikę, tabele czy też kolorowe zdjęcia, ich zawartość nie powinna w priorytetowy sposób stanowić o tym, w jakiej postaci zostaną udostępnione. Należy również zwrócić uwagę na to, że formaty dokumentów, które umożliwiają wiarygodny wydruk o satysfakcjonującej jakości w postaci papierowej, niekoniecznie muszą posiadać określone walory sprzyjające temu, by mogły posłużyć także do efektywnego publikowania elektronicznych dokumentów za pośrednictwem - dla przykładu - internetu. W tym momencie trudno nie zgodzić się z opinią, że do jednych z najlepszych formatów plików służących wydaniu dokumentów w postaci papierowej należy format Adobe Illustratora oraz format sędziwego Adobe Acrobata, czyli pdf. Jednak bez względu na potrzebę lub atrakcyjność dokumentu papierowego, nie można pominąć wagi jaką już zdobył dokument elektroniczny. A na tym polu w/w formaty coraz częściej nie spełniają wielu oczekiwań zarówno ze strony publikującej dokumenty elektroniczne jak i ze strony zapoznającej się z ich zawartością.

Ponad sześć lat temu - dzięki matematykom koncernu AT&T - pojawił się nowy format plików - DjVu. Jest zatem od formatu pdf około 10 lat "młodszy". Format DjVu powstał tak naprawdę jako odpowiedź na narastającą ilość życzeń i krytycznych uwag w stosunku do możliwości, które oferuje format pdf. Zamysł twórców nowego formatu odzwierciedlony został nawet w jego nazwie. Ponownie - niczym deja vu - zaprezentowano na rynku format do ... przechowywania, drukowania i publikowania dokumentów. Pojawienie się formatu DjVu nie oznacza absolutnie tego, że z dnia na dzień wszystkie publikacje elektroniczne prezentowane będą w nowym formacie. Oznacza jedynie, że obecnie można dokonać świadomego wyboru dla formatu publikowanych dokumentów tak, by jakość i sposób opublikowanych zbiorów zachęcały czytelników do zapoznania się z ich treścią.

Podobnie jak naturalnym jest to, że wady czy też braki w oferowanym narzędziu informatycznym (lub formacie) są przyczyną powstania kolejnego narzędzia (lub formatu) pozbawionego wad, a zatem lepszego, to równie trudno jest przypuszczać, że oferowany od ponad sześciu lat format dokumentów DjVu jest jedynie porównywalny lub niewiele atrakcyjniejszy od formatu pdf. Gdyby tak było, ciężkie prawa rynku po dwóch-trzech latach obecności zapewne wykluczyłyby go z "gry". Ponieważ popularność formatu DjVu stale wzrasta, można pokusić się o wskazanie tych cech, które świadczą o jego sile.

 

Dokumenty w formacie DjVu są niemodyfikowalne, a co za tym idzie wiarygodne względem oryginału, z którego powstały.

Format DjVu jest formatem otwartym, a nieodpłatne dla wszelkich zastosowań przeglądarki dokumentów DjVu dostępne są niemal dla każdego systemu operacyjnego.

Rozmiary dokumentów DjVu są nieprawdopodobnie małe i to nie za sprawą usilnie podnoszonego stopnia kompresji (jak w przypadku plików jpg), co obniżyłoby jakość dokumentu elektronicznego.

Format DjVu jest jedynym formatem dla dokumentów wielostronicowych, w którym czas konieczny do zapoznania się z zawartością strony - dla przykładu - nr 3, jest taki sam jak czas potrzebny do zapoznania się ze stroną np. nr 1500. W odróżnieniu od starszych formatów dokumentów, dla DjVu nie jest wymaganym, by najpierw należało pobrać cały dokument, by móc zapoznać się jedynie z treścią dwóch-trzech określonych stron. Przeglądarki DjVu potrafią pobrać jedynie wskazaną stronę dokumentu pomijając strony ją poprzedzające.

Nawigacja po dokumentach DjVu (zwłaszcza skanowane mapy, duże plakaty, rysunki techniczne) jest błyskawiczna. Nie występuje znane z innych formatów zjawisko ciągłego "przerysowywania" kolejno eksponowanych fragmentów wyświetlanego dokumentu. Nawigacja przypomina raczej kolejne naciśnięcia klawisza PageDown podczas przeglądania typowego dokumentu MS Word.

Dokumenty DjVu posiadają wysoką jakość. Dotyczy to zarówno ich przeglądania jak i ich wydruku. Najczęściej dokumenty DjVu publikowane są w rozdzielczościach 300, 400, 450 i 600 dpi.

Zawartość kolejnych stron dokumentów DjVu przechowywana może być w postaci odrębnych warstw (warstwa treści oraz warstwa tła). Dzięki możliwości ukrycia warstwy tła strony, komfort zapoznawania się - zwłaszcza - z pożółkłymi lub  podniszczonymi stronami dokumentów jest bardzo wysoki.

Dokumenty DjVu mogą posiadać warstwę tekstową, co umożliwia ich pełnokontekstowe przeszukiwanie i to nie tylko w obrębie wyświetlanego przez przeglądarkę dokumentu.

Dla dokumentu w formacie DjVu nigdy nie pojawi się problem z prawidłowym wyświetleniem dokumentu, w którym użyto mniej popularnych czcionek (typu Math, Greek, czcionki ozdobne), a których to może nie posiadać zainstalowanych czytelnik publikacji.

Wiele innych cech formatu DjVu takich jak znak wodny w dokumencie, ochrona hasłami, panele graficznych miniatur stron lub rozwijalnych spisów treści, zintegrowane w dokumencie metadane o publikacji lub  hiperłącza, mogą być dodatkowym argumentem przekonującym do publikowania dokumentów elektronicznych w formacie DjVu.

 

Jednak właściwości czy też walory formatu plików to tylko jedna kwestia. Czymś zupełnie odmiennym są popularność pewnego formatu lub też indywidualne przyzwyczajenia użytkowników komputerów. Format pdf jest znany równie dawno, jak dawno komputery używane są w biurach i przedsiębiorstwach. To oczywiście główna siła czy też podstawa ogromnej popularności tego formatu. Przygotowywanie typowych, małoformatowych dokumentów tekstowych ze sporadycznie zamieszczanymi elementami graficznymi, w formacie pdf wielu użytkowników nie sprawia żadnego kłopotu, a powstałe pliki prezentują się estetycznie. Pojawienie się zatem na rynku formatu DjVu wywołało nie tylko wiele dyskusji i polemik wokół alternatywnego produktu, ale spowodowało pojawienie się przeróżnych testów porównujących walory obu formatów i udowadaniających wyższość pierwszego formatu nad drugim lub na odwrót.

Ponieważ pliki DjVu oraz pdf powstają w przeróżny sposób (z zeskanowanych postaci dokumentu papierowego, z plików pakietów biurowych, z plików programów CADowskich, z map bitowych, itd., itp...), praktycznie nie jest możliwym wydać jednej jedynej oceny, który z tych formatów dokumentów jest rewelacyjny, a który - nie.

Możliwym jest natomiast wskazać kilka sytuacji, w których formaty te zachowują się odmiennie. Jeżeli akurat jedna z takich, przytoczonych poniżej sytuacji dotyczy dokumentów, które należy opublikować, można rozważyć, który format należy wybrać, by wygląd i funkcjonalność utworzonego dokumentu elektronicznego najbardziej odpowiadał oczekiwaniom.

Poniżej, przygotowano w formie publikacji prezentujących dokumenty elektroniczne, które powstały drogą skanowania oraz dokumenty wygenerowane elektronicznie a zapisane w formatach pdf oraz DjVu. Jako przykłady posłużyły publikacje jednej z polskich bibliotek cyfrowych, publikującej zasoby swoich zbiorów z dużą starannością (zarówno w formacie DjVu jak i w formacie pdf) oraz przykłady znalezione na stronach University of Wisconsin i Pennsylvania Department of Transportation. Dodatkowo dołączono opublikowane w internecie testy magazynu Marynarki Stanów Zjednoczonych oraz artykuł witryny www.planetdjvu.com ustosunkowujący się do publikacji z witryny www.planetpdf.com.

 

Aby zapoznać się z poniższymi prezentacjami konieczne jest zainstalowanie przeglądarek formatów DjVu oraz pdf. Dostępne są poniżej.

 

Przeglądarka

Wersja

Język

Rozmiar pliku

6.1.1

Polski

6.4 MB

6.1.1

English

6.3 MB

8.1.2

Polski

23.6 MB

9.0.0

English

33.5 MB

 

2. Skanowane publikacje elektroniczne.

Najczęściej wskazywaną słabością formatu pdf jest prezentowanie za jego pośrednictwem skanowanych postaci elektronicznych dokumentów papierowych. Uwaga ta dotyczy przede wszystkim dokumentów wielostronicowych (powyżej 30 stron typowego formatu) lub dokumentów zawierających strony w formacie powyżej A3. Tak naprawdę, aby nie „zapychać” nawet wydajnych łączy internetowych dużą ilością przesyłanych megabajtów informacji, publikacje takie często przygotowywane są w postaci mozaiki lub „tabelki” umożliwiającej pobrać tylko jedną stronę dokumentu.
W taki sposób przygotowano na uniwersytecie Wisconsin publikację unikatowej mapy III Rzeszy w formacie pdf. Publikację tą rozszerzono o odpowiadającą jej postać DjVu i przedstawiono celem porównania  : Prezentacja 01 .
Zwyczajowo, dokumenty DjVu prezentowane są w rozdzielczości 300 dpi dla warstwy treści oraz 100 dpi dla warstwy tła. W powyższej prezentacji, pomimo, iż zarówno warstwę treści jak i warstwę tła wykonano w rozdzielczościach 300 dpi, a wpływa to m.in. na zwiększenie się jej wielkości, łączny rozmiar wszystkich map w formacie DjVu wynosi 38,6 MB (średni rozmiar jednej mapy – spośród 39 – to 0,99 MB). Mapy wykonano dlatego w taki sposób, aby były porównywalne z ich odpowiednikami w formacie pdf, które powstały z plików tiff również o rozdzielczości 300 dpi. Kolekcja map zapisana w formacie pdf zajmuje 83,7 MB (średni rozmiar jednej mapy to 2,15 MB). Subiektywna ocena jakości dokumentów elektronicznych zarówno w formacie DjVu jak i pdf, należy oczywiście do czytelnika. Natomiast, zwraca uwagę fakt, że ta sama informacja (komplet map) zapisana w formacie pdf wymaga od czytelnika, by poświęcił  dodatkowy czas na pobranie plików większych o ponad 45 MB, lub też można powiedzieć, że dzięki publikacji tej samej informacji, ale wykonanej w formacie DjVu, jej rozmiar został zmniejszony o 54%, a czas pobrania publikacji celem zapoznania się z jej zawartością skrócony został ponad dwa razy.

 

Polecamy kilka innych – typowo bibliotecznych – skanowanych publikacji dostępnych pod adresem : http://www.djvu.com.pl/zastosowania_djvu_10.php

 

3. Publikacje wygenerowane elektronicznie, zawierające bardzo dużą liczbę szczegółów i posiadające duże rozmiary.

      Takie publikacje spotykane są najczęściej w biurach projektów, zasobach zakładów przemysłowych, przedsiębiorstwach kartograficznych. Jednak nie należy wykluczyć ich coraz częstszego pojawiania się w cyfrowych bibliotekach uczelni technicznych. W dokumentach tych istotna jest nie tylko wysoka jakość oraz błyskawiczna nawigacja po dokumencie, ale również rozmiar samego dokumentu. Wypada zauważyć, że 2000 lub 3000 rysunków wcale nie oznacza dla wielu zakładów dużej dokumentacji czy też projektu. Przy takiej zatem liczbie publikowanych czy też udostępnionych za pośrednictwem serwera dokumentów, każde 10 MB zaoszczędzonej pojemności zaczyna mieć istotne znaczenie. Aby zaprezentować możliwości jakie oferuje w takiej sytuacji technologia DjVu, przygotowano prezentację opartą o publikację Departamentu Transportu Stanu Pensylwania w USA. Publikacja pierwotnie przygotowana została w formacie pdf. Podobnie jak w poprzedniej prezentacji, można zapoznać się zarówno z jej postacią w formacie DjVu jak i w formacie pdf.

Wydawać by się mogło, że wektorowy zapis gwarantuje nie tylko bardzo wysoką jakość dokumentu pdf ale również bardzo niewielki rozmiar pliku. Co do jakości plików pdf, oczywiście absolutnie zastrzeżeń wielkich mieć nie można, natomiast jak pokazuje  Prezentacja 02, rozmiar takich dokumentów zapisanych w formacie pdf jest czterokrotnie większy od odpowiadającej jej postaci DjVu. W powyższej prezentacji dokumenty w formacie DjVu przygotowano z rozdzielczością 600 dpi. Ich jakość nawet w powiększeniu 1000% może być bardzo miłym zaskoczeniem, a odnosząc się analogicznie jak w pierwszej prezentacji do różnicy pojemności plików pdf i DjVu, w tym przypadku, zastosowanie technologii DjVu daje zmniejszenie rozmiaru publikacji o 74%.

Dodatkowego wyjaśnienia wymaga jeszcze zaprezentowana opinia w stosunku do jakości plików pdf : „zastrzeżeń wielkich mieć nie można”. Zapis wektorowy jest nie tylko ogromną zaletą formatu pdf, ale niekiedy prowadzi do tak dalece zafałszowanego przedstawienia publikacji, że praktycznie może to wykluczyć ten format dla takich zastosowań. W powyższej prezentacji zwrócono już uwagę, że linie południków i równoleżników do pewnego powiększenia dokumentu pdf są tak grube i wyraźne, że zdawać by się mogło iż stanowią  - nie zespół linii pomocniczych - lecz najważniejszą część dokumentu. Podobnie zresztą jak drogi boczne, które im większe pomniejszenie mapy, tym bardziej przypominają autostrady. Oczywiście, powyżej powiększenia rzędu 150%, zapoznawanie się z dokumentem pdf jest już wygodne i nie stwarza problemów. Ale ta słabość formatu pdf w prezentacji 02 została jedynie zasygnalizowana.

Poniżej przedstawiono wygląd dokumentu zapisanego w formacie DjVu oraz w formacie pdf jako „zrzut ekranu” czy też „screenshot”.

Rezygnacja z udostępnienia tego dokumentu w formacie pdf wynika stąd, że zajmuje on 32.646 kB a nawigacja po dokumencie jest tak powolna, że zniechęca nawet bardzo cierpliwych. Tak naprawdę postać taka nadaje się tylko do jednego – do ładnego wydruku dokumentu w postaci papierowej. Z cyfrową postacią DjVu wspomnianego tu dokumentu o pojemności 1.791 kB, a zatem mniejszą od odpowiednika w formacie pdf o 95%, można zapoznać się  : rysunek 01.

 

Postać dokumentu w przeglądarce Acrobat Reader 7.0.5 PL

 

 

Postać dokumentu w przeglądarce DjVu Browser 6.1.0 PL

 

 

W obu przypadkach przeglądarki przedstawiają identyczny dokument, z tym, że jego wyglądy dalekie są wzajemnie od identyczności. Nasuwa się zatem pytanie : Jak naprawdę wygląda opublikowany dokument?

Dokument wygląda tak, jak przedstawia go przeglądarka DjVu.

 

W sytuacjach kiedy w dokumencie występuje dużo linii położonych blisko siebie (na przykład obszar zakreślony linią pochyłą), przeglądarka dokumentów pdf wykreśli każdą z linii osobno i w rezultacie można obejrzeć jedynie jednobarwną plamę. Oczywiście sukcesywnie powiększając wyświetlany fragment, obraz w pewnym momencie stanie się czytelnym, czy też przestanie być nieczytelnym. Natomiast dlaczego plamą jest również szary rastrowy podkład w przeglądarce pdf – trudno nam uzasadnić.

Praktycznie powyższy przykład jest jednym z najbardziej przemawiających za tym, że format pdf jest optymalnym do przenoszenia jego zawartości na postać papierową a nie do przygotowywania publikacji elektronicznych, z którymi czytelnik przede wszystkim zapoznaje się po wyświetleniu ich na monitorze. Prezentacja 02 pozwala również nabrać przekonania, że publikując w formacie pdf zasoby, które nie są typowymi dokumentami tekstowymi, zawierają elementy grafiki opisanej wektorowo oraz posiadającymi rozmiar większy od A4 (co powoduje, że przeglądarki wyświetlają go w całości z dużym pomniejszeniem), bardzo łatwo jest wprowadzić w błąd czytelnika a tym samym zniechęcić go do zapoznawania się z innymi opublikowanymi zasobami.

 

4. Dokumenty tekstowe wydane w formacie co najwyżej A4.

      Sukcesywne obniżanie cen sprzętu komputerowego oraz oprogramowania pozwala coraz niższym kosztem przygotowywać publikacje, które od początku swego powstawania przeznaczone są do udostępniania w postaci elektronicznej. Takiemu stanowi rzeczy sprzyja również polskie ustawodawstwo, nakazujące m.in. dołączać do każdego produktu na polskim rynku polskojęzyczną instrukcję obsługi. Koncerny takie jak SAMSUNG  czy LG ELECTRONICS  szanując różne przyzwyczajenia swoich klientów, publikują instrukcje zarówno w formacie DjVu jak i w pdf.

Czy tak proste z punktu widzenia ich budowy (tekst, przeciętny rozmiar, niewielka ilość obiektów graficznych, zaledwie kilka typowych czcionek pisarskich) dokumenty DjVu i pdf mogą posiadać znaczące różnice w funkcjonalności, przydatności ...? Nie, takich różnic wskazać nie można, a przynajmniej nie takich, które przesądziłyby o całkowitej nieprzydatności jednego z tych formatów. Czasem jednak dziwią różnice wielkości na pozór tych samych – ze względu na zawartość - dokumentów pdf.  Dolnośląska Biblioteka Cyfrowa opublikowała książkę „Język C++ programowanie obiektowe” (publikacja dostępna jest  : http://www.dbc.wroc.pl/dlibra/publication/954). Publikacja jest dopracowana, funkcjonalna o wysokiej jakości i zadowalającej szybkości nawigacji. Cóż więcej ? Uwagę zwraca jedynie jej rozmiar. 130 stron tej publikacji zajmuje 9.866 kB. Ta sama Biblioteka, niemal jednocześnie opublikowała podobną książkę „Język C++ w środowisku Borland C++” (publikacja dostępna jest  : http://www.dbc.wroc.pl/dlibra/publication/952), składającą się ze 195 stron (tzn. dokładnie 50% stron więcej). Podobnie jak w poprzedniej publikacji szata graficzna, jakość i szybkość nawigacji są bez zastrzeżeń. Ale rozmiar publikacji 50% obszerniejszej wynosi 1.926 kB. Można było oczekiwać – porównując ilość podobnych zawartością stron - objętości rzędu 50% większej. Okazuje się, że druga publikacja jest mniejsza i to o ponad 80% od mniejszej ilością stron publikacji. Na pytanie, dlaczego pojawiają się aż takie rozbieżności przy tak znikomej odmienności zaprezentowanej treści, a właściwie jak przewidzieć, jaką wielkość posiadać będzie dopiero co tworzona przez nas publikacja, zapewne odpowiedzieć potrafią jedynie informatycy a nie zwykli użytkownicy oprogramowania.

Pozostawiając problem nieprzewidywalnego rozmiaru przeciętnej strony w dokumentach pdf, powrócić można do tego, co dla takiego typu publikacji z kolei, oferuje technologia DjVu. Przytoczone powyżej książki – dla zaprezentowania w formacie DjVu - wykonano z rozdzielczością 600 dpi. Publikacja 130 stronicowa  zajmuje w formacie DjVu 888 kB i to różnica jest znacząca, bo publikacja jest mniejsza aż o 91%. Z kolei publikacja 195 stronicowa  zajmuje 1.752 kB co daje – nazwijmy to oszczędność symboliczną – bo zaledwie 9%.

Tak bardzo odmienne wyniki porównywanych - a różniących się niewiele rodzajem zawartej w nich informacji – dokumentów, prowadzi do wniosku, że skoro dokumenty DjVu w stosunku do odpowiadających im dokumentów w formacie pdf, mogą w pewnym przypadku być od nich mniejsze o 9%, w innym zaś mogą być mniejsze o 91%, to pewnie mogą też być od nich większe. To prawda. Nie jest tak, że zawsze dokument DjVu musi być najmniejszy, ale taki wniosek – w przypadku technologii DjVu - to jeszcze nie wszystko, jeżeli chodzi o walory jakie ona oferuje.

Bez względu na to, jak dalece zoptymalizowany zostanie zapis publikacji w formacie pdf, to aby zapoznać się z zawartością choćby jednej jego strony, i tak konieczne jest pobranie całej publikacji lub przynajmniej takiej jej części, która zawiera stronę z zawartością, której czytelnik zamierza się zapoznać. Operacja ta jest tym bardziej czasochłonną, im więcej stron musi pobrać przeglądarka. W przypadku technologii DjVu, która – póty co – jako jedyna na świecie oferuje rozdzielony zapis dokumentów wielostronicowych, użytkownik oczekuje jedynie na załadowanie się wybranej strony (wskazanej np. za pośrednictwem załączonego spisu treści lub panelu miniatur graficznych).

Dla obu publikacji nt. języka C++ przeciętny rozmiar strony książki zapisanej w formacie DjVu to 6÷9 kB. I tylko tyle informacji przesyła czytelnikowi serwer, gdy otrzyma polecenie wyświetlenia określonej strony. Również podobna ilość informacji potrzebna jest do pobrania, by na monitorze wyświetliła się pierwsza strona publikacji w formacie DjVu. W sytuacji, kiedy dzięki technologii DjVu, z zawartością dokumentu zapoznawać można się po pobraniu ok. 10 kB, poszukiwanie drogi optymalizującej zapis dokumentu w formacie pdf z rozmiaru przykładowo 10 MB do 2 MB, wydaje się być pomysłem mało atrakcyjnym. Wartości przytoczone powyżej – np. 10 kB, dotyczą dokumentów, o których mowa w punkcie 4. Nie należy ich uogólniać np. w stosunku do skanowanych map, a przedstawionych w punkcie 2.

 

5. Problemy bezpiecznego udostępniania publikacji elektronicznych

Dla elektronicznych dokumentów DjVu brak jest jakichkolwiek niepokojących informacji o możliwości naruszenia bezpieczeństwa komputera osoby zapoznającej się z publikacją w tym formacie. To bardzo istotny czynnik wpływający na to, z którymi publikacjami czytelnik zapozna się bez wahania, a co do zawartości których będzie posiadać mniej lub bardziej uzasadnione obawy.
W przypadku formatu pdf, zdarzają się sytuacje, w których bezpieczeństwo zapoznawania się z publikacją w tym formacie jest kwestionowane. Aby przybliżyć problem, poniżej załączono za „Computerworld” artykuł „Dziury w pdf”, a publikowany również na internetowej stronie „Gazety wyborczej”.


Dziury w PDF
Paweł Krawczyk 2006-09-18
David Kierznowski odkrył w programach Adobe dziury pozwalające na zdalne wykonywanie kodu przy pomocy odpowiednio skonstruowanych plików PDF. Pliki PDF - pomimo kilku wcześniejszych dziur - uchodziły do tej pory za raczej bezpieczne z punktu widzenia ochrony przed wirusami i końmi trojańskimi. Odkryte przez Kierznowskiego dziury wykorzystują różne formy linków zewnętrznych wbudowanych w format PDF. Według odkrywcy problem dotyczy zarówno Adobe Readera jak i Adobe Professional.
Pierwsza dziura wykorzystuje wbudowane w PDF linki do zewnętrznych dokumentów, dla których Acrobat bez ostrzeżenia uruchamia zewnętrzną przeglądarkę, co według Kierznowskiego może służyć do wykonania dowolnego złośliwego kodu. Druga dziura wykorzystuje interfejs bazodanowy (ADBC) w PDF i pozwala na wykonywanie niektórych funkcji ODBC w lokalnym systemie. W zademonstrowanych przez autora kodzie proof-of-concept pokazano na przykład enumerację lokalnych baz danych (jeśli takie istnieją) i przesłanie wyników na zewnątrz przy pomocy programu netcat.
Kierznowski twierdzi, że poza tymi dwoma dziurami opisanymi szczegółowo na jego blogu istnieje jeszcze przynajmniej siedem podobnych podatności.

Odpowiedź Adobe Adobe opublikowało w ostatnich dniach jedno ostrzeżenie na temat potencjalnych dziur w swoich programach w dokumencie 321644, jednak dotyczy on przepełnienia bufora a nie opisanych wyżej błędów. Należy oczekiwać, że na odpowiedź i poprawki Adobe do opisanych przez Kierznowskiego błędów przyjdzie jeszcze poczekać.
Do tego czasu należy być ostrożnym w otwieraniu pobieranych z sieci plików PDF. Kierznowski na swojej stronie opublikował dwa przykładowe pliki PDF, które demonstrują jakie mogą być konsekwencje: pierwszy przenosi od razu po załadowaniu na zewnętrzną stronę WWW, drugi pod Windows powinien uruchomić enumerację ODBC i przesłać wyniki na port 80 na localhost.

Źródło : http://www.computerworld.pl/news/99548.html
lub http://gospodarka.gazeta.pl/gospodarka/1,33181,3626426.html
Przeczytaj również : http://michaeldaw.org/md-hacks/backdooring-pdf-files/ (artykuł w języku ang.)


6. Problemy występujące sporadycznie.

      Rzadko które przedsiębiorstwo, oficyna wydawnicza czy też biblioteka ponosząc znaczący nakład pracy przy tworzeniu publikacji elektronicznych, stosuje wyłącznie czcionki dołączane do systemu operacyjnego (Arial lub Times New Roman G.). Odmienna czcionka – w świecie internetu - jest przecież wyróżnikiem wśród innych wydawnictw elektronicznych. Może nie tak znaczącym jak np. logo przedsiębiorstwa, ale na pewno pozwalającym wskazać - często korzystającym z zasobów elektronicznych czytelnikom - źródło pochodzenia publikacji. Gdy publikację taką przygotowano w formacie DjVu, to po prostu można ją udostępnić lub korzystać z niej bez obaw. W formacie pdf sytuacja taka ma miejsce tylko w przeważającej liczbie przypadków. Jest to przypadłość formatu pdf, która doskwiera użytkownikom komputerów już od wielu lat.

W odróżnieniu od formatu DjVu, w którym każda strona dokumentu jest „tworem autonomicznym” i której poprawność wyświetlenia nie zależy od jakiegokolwiek innego fragmentu pliku, z którego pochodzi, poprawność wyświetlania poszczególnych stron publikacji zapisanej w formacie pdf jest ściśle uzależniona od tego, czy przeglądarka plików pdf posiada dostęp do wszystkich czcionek i ich odmian, z których utworzono kolejne strony publikacji. Ta konieczność, związana z budową plików w formacie pdf powoduje, że  osobie przygotowującej dokument zdarza się przeoczyć wydanie polecenia osadzenia w tworzonej publikacji jednej lub paru dodatkowych czcionek, które to pojawiły się na jednej lub kilku stronach publikacji.

Publikacja, na stanowisku, na którym powstaje jest oczywiście wyświetlana prawidłowo, ponieważ redagujący ją użytkownik komplet czcionek posiada zainstalowany w systemie operacyjnym. Oczywiście, sytuacja taka sprzyja powstaniu błędu, gdyż nie sposób podczas przeglądu kolejnych stron, natknąć się na brak jakiejkolwiek czcionki. Gdy jednak publikacja trafi na stronę internetową, przeglądarka plików pdf czytelnika napotykając na problem z czcionkami albo odmówi wyświetlenia takiego dokumentu, albo zawiesi swoje działanie, albo też w najlepszym przypadku w miejscu gdzie powinny pojawić się litery i znaki nie dołączonej czcionki, wyświetli losowe „znaczki graficzne” po uprzednim poinformowaniu w okienku, który problem z czcionką wystąpił. Sytuację taką można zobrazować publikacją wspomnianej już biblioteki, a zajmującej 2.168 kB i dostępnej pod adresem  http://www.dbc.wroc.pl/dlibra/docmetadata?from=directory&id=442. Acrobat Reader w wersjach powyżej 6 wyświetla przytoczoną publikację prawidłowo do strony 31. Następnie pojawia się komunikat jak w załączonym okienku (z lewej), przeglądarka wyświetla stronę 32, ale tablica 1.5.2 zamieszczona na tej stronie zawiera przypadkowe „bzdury”. Przeglądarka nie kończy działania i pozwala na dalsze zapoznawanie się z treścią dokumentu. Oczywiście, publikację w formacie pdf z drobnymi uszkodzeniami można skonwertować do formatu DjVu. Należy przy tym pamiętać, że konwersja to nie usuwanie usterek. Konwersja przy rozdzielczości 600 dpi prowadzi do otrzymania  pliku DjVu o pojemności 1.038 kB, którego wszystkie strony są prawidłowe, a w przeglądarce DjVu wyświetlone będą bez żadnego komunikatu. Strony, w których nie załączono koniecznych czcionek będą wyświetlone identycznie jak odpowiadające im strony w przeglądarce pdf po uprzednim wyświetleniu komunikatu Acrobata.

 

  

 

Bazując - choćby - na przytoczonych w niniejszym artykule przykładach, absolutnie nie można sądzić, że format pdf jest aż tak zły. Z całą pewnością można stwierdzić jedynie, że do publikowania skanowanych postaci dokumentów papierowych, format pdf, którego pliki posiadają bardzo duży rozmiar, nie umożliwiają rozdzielonego zapisu dokumentu, nie nadaje się na pewno, co jednak nie oznacza, że publikowanie takie nie jest możliwe. Natomiast należy zauważyć również, że dominującymi publikacjami elektronicznymi w formacie pdf, są zazwyczaj dokumenty stricte tekstowe. W takich publikacjach próżno szukać dużej ilości blisko położonych linii, które przeglądarka wyświetli jako barwną plamę. Trudno też doszukać się w takich publikacjach stron w formacie większym niż A3 i zawierających jednocześnie setki obiektów oraz linii, do których kolejnego przerysowania przeglądarka potrzebuje znaczącej ilości czasu. Również w takich dokumentach nie wystąpią wielopiętrowe ułamki ilustrujące przeróżne zależności fizyko-chemiczne czy też matematyczne. Podobnie z używaniem w takich dokumentach cyrylicy, alfabetu greckiego czy symboli naukowych. A tylko takie kwestie poruszono w niniejszym artykule. To zaś, że czasem rozmiar wygenerowanego elektronicznie dokumentu pdf przejdzie najśmielsze oczekiwania, też nie jest katastrofą. Skoro czytelnikowi na publikacji zależy, to może na nią poczekać. Gdy zaś publikacja zawiera nie więcej niż 10 stron, również i taka przypadłość nie będzie zauważona.

Niezauważona przez czytelnika, ale zauważona – podobnie jak inne cechy formatu pdf – przez matematyków koncernu AT&T, którzy podjęli wysiłek i opracowali komplet algorytmów, dających podwalinę do powstania nowego formatu przechowywania i publikowania dokumentów. Formatu eliminującego znane na dziś niedociągnięcia bardzo popularnego pedeefa. To, że dzięki firmie Lizardtech Inc. nowy format został zaoferowany szerokiej rzeszy użytkowników komputerów w postaci formatu otwartego, na pewno wzbudza zaufanie do tego formatu, gdyż nie sposób już zmonopolizować lub uzależnić w jakikolwiek sposób jego stosowanie.

Cóż, Adobe zachęca do formatu pdf, LizardTech do formatu DjVu. Dla użytkownika najkorzystniejszym jest zaś to, że decyzję o tym, w którym z przedstawionych formatów, publikacje (które zamierza udostępnić lub przygotować), zaprezentują się najkorzystniej, może podjąć samodzielnie. Chyba, że ideą opublikowania zasobów jest jednorodna kolekcja publikacji. W takim przypadku wybrany może już być tylko jeden format.
 

7. Publikacje DjVu wykonane na bazie publikacji pdf.

Poniżej przedstawiono dwie przykładowe prezentacje pozwalające ocenić zalety publikowania dokumentów elektronicznych w formatach DjVu oraz pdf. Pierwsza z nich powstała dla Instytutu Pamięci Narodowej w Warszawie w przeważającej części na bazie internetowych publikacji Instytutu, a dostępnych pod adresem :

Poza ciekawą zawartością zaprezentowanych przykładów, podano również wielkości poszczególnych publikacji zapisanych zarówno w formacie pdf jak i w DjVu. Zaprezentowane przez Instytut Pamięci Narodowej publikacje w formacie pdf powstały zarówno z zeskanowanych stron dokumentów papierowych (z bardzo zróżnicowaną kompreją obrazów) jak też zostały wygenerowane elektronicznie. Dzięki dużej różnorodności pod względem jakości, wielkości jak i sposobu powstania kolekcji plików w formacie pdf, a następnie skonwertowaniu ich do formatu DjVu, prezentacja ta umożliwia udzielenie odpowiedzi na pytanie

"jakiej jakości i wielkości publikacji w formacie DjVu należy oczekiwać w sytuacji, gdy powstaje ona z plików w formacie pdf".

Oczywiście chodzi o ocenę relatywną, a zatem typu "z pliku pdf wynerowanego elektronicznie oczekiwać można ..., zaś z pliku pdf, w którym zastosowano silną kompresję map bitowych oczekiwać można ...".   Zapraszamy ...
 

Kolejną prezentację wykonano dla Biblioteki Cyfrowej FIDES przy Papieskim Wydziale Teologicznym we Wrocławiu.
 


 

W tym wypadku bezpośrednia konwersja kolekcji plików pdf nie była możliwa. Pierwotnie publikacja powstawała w przeciągu kilku lat za pomocą różnych narzędzi i różnych ich wersji. Publikacja ta (zapisana w 40 folderach i podfolderach) składa się z ponad 300 plików pdf zawierających łącznie ponad 14.000 stron. Podstawą efektywnej nawigacji po jej zawartości są rozwijalne spisy treści, które łącznie zawierają ponad 2.500 wierszy. Ponadto, nawigację wspiera około 800 hiperłączy umieszczonych w różnych miejscach wspomnianych ponad 14.000 stron. Problem w konwersji tej publikacji do formatu DjVu polegał na tym, że niektóre wiersze spisów treści oraz niektóre hiperłącza wskazywały na nieistniejący dokument czy też stronę publikacji, co było oczywiście efektem wielu poprawek nanoszonych podczas paroletniego jej powstawania. Dodatkowym utrudnieniem było to, że konwersję należało przeprowadzić tak, by powstała publikacja w formacie DjVu posiadała przeszukiwalną warstwę tekstową dla wszystkich języków, w których ją przygotowano, a zatem dla języka francuskiego, polskiego, greckiego i angielskiego. Aby wraz z konwersją publikacji w formacie pdf do formatu DjVu wykonać jednocześnie analizę wszystkich jej elementów nawigacji, odszukać hiperłącza i wskazania wadliwe, a następnie zastąpić je właściwymi, przygotowano aplikację współpracującą z programem DocumentExpress Enterprise. Efekt konwersji do formatu DjVu dostępny jest pod adresem :

  http://www.djvu.com.pl/galeria/PWT/Table_Generale.php

Rozwijalne spisy treści w kilku językach lub możliwość zaznaczania rozpoznanego na stronie tekstu jak pokazano obok, to niektóre z efektów konwersji do formatu DjVu przeprowadzonej w tak nietypowy - jak opisano wyżej - sposób.

Źródłowa postać publikacji w formacie pdf posiada rozmiar 267.9 MB i pozwala wyszukiwać słowa francusko-, angielsko- i polskojęzyczne. Z kolei skonwertowana do formatu DjVu postać publikacji w pełni spójna, a zatem pozbawiona wszystkich wadliwych wskazań, posiada rozmiar 112.9 MB (około 58% mniej) i pozwala wyszukiwać poza słowami francusko-, angielsko- i polskojęzycznymi również fragmenty publikacji napisane greką. Z treścią publikacji mozna się zapoznać na stronach papieskiego Wydziału teologicznego :

  w formacie pdf lub  w formacie DjVu.

Obok pokazano fragment spisu treści zawierającego błędne odwołanie "TOME01/01/Texte français de Saint Marc".

 

Polecamy ponadto, wspomniane już wcześniej testy, choć dostępne na chwilę obecną wyłącznie w języku angielskim :

 

Test, a właściwie artykuł odnoszący się do opublikowanych informacji na temat właściwości formatu pdf.

Bardzo ciekawy test uwzględniający również pliki pdf, w których zastosowano optymalizacje CVision oraz SPE.



Październik 2006

Grzegorz Bednarek
GB Soft, Zabrze
grzegorz@djvu.pl

http://www.djvu.com.pl