Konwersja czy przekształcenie? Format XML w standardzie DITA dla wydawców

Konwersja, przekształcenie i problem neutralnego źródła

Każde przedsiębiorstwo, które kiedyś otartło się o jakąkolwiek treść, stanęło przed jakąś formą problemu konwersji. W generalnym ujęciu, konwersja to proces zmieniający formę lub przeznaczenie treści. Konwersją może być zatem przeniesienie treści między Open Office i Microsoft Office albo eksport z InDesign do xHTML w celu przygotowania pliku EPUB. Wbrew pozorom, wynikającym głównie z magicznych przycisków „Zapisz jako” i „Eksportuj” oferowanych przez różne programy, nie jest to proces ani prosty, ani przesadnie skuteczny.

Czym zatem różni się konwersja od przekształcenia i czym jest mistyczne neutralne źródło? Zacznijmy od konwersji.

Konwersja

Konwersja jest procesem polegającym na przeniesieniu treści, która została oryginalnie przygotowana do konkretnego formatu (np. PDF) do takiej postaci, żeby była kompatybilna z innym, równorzędnym formatem. Potrzeba konwersji występuje zazwyczaj w sytuacji, gdy dany projekt od początku był przygotowany z myślą o konkretnym i zdefiniowanym efekcie końcowym (na przykład wydrukowanej książce), a w trakcie procesu produkcji nagle pojawiła się potrzeba rozszerzenia go o kolejny format lub formaty. Trzeba wtedy niejako wycofać treść o stopień do góry, usunąć wszystkie znaczniki niezbędne w produkcji tylko tego danego formatu i dokonać konwersji. Niektóre programy formatujące tekst oferują możliwość konwersji materiałów na dowolnym etapie procesu, na przykład już po zakończeniu pracy nad formatem PDF.

Spójrzmy na poniższy przykład dwóch dokumentów xHTML. Pierwszy został wyeksportowany z neutralnego źródła:

Drugi z InDesign:

Nietrudno zauważyć, że drugi przykład jest znacznie bogatszy w różne znaczniki, których przydatność ogranicza się do przyprawiania czytnika o zawał procesora podczas otwierania pliku. Główną słabością procesu konwersji, zwłaszcza w jej automatycznej odmianie, jest to, że w procesie powstawania treści brane są pod uwagę tylko wymogi konkretnego formatu wyjściowego. Od samego początku brakuje w niej elementów niezbędnych do tego, żeby poprawnie zbudować inny format. Z jednej strony zawiera bardzo bogatą warstwę kompletnie zbędnych elementów, a z drugiej brakuje jej najbardziej podstawowych elementów wyjściowego formatu.

Konwersja jest zatem procesem trudnym i podatnym na błędy, a w przypadku konwersji automatycznej ułomnym, manualnej czasochłonnym.

Neutralne źródło

Neutralne źródło, to format nieskażony żadnym formatem wyjściowym, zachowujący maksimum kompatybilności. Całkowicie rozdziela warstwę treści od jej wizualizacji i umożliwia jego powtarzalne przekształcenie. W naszym przypadku będzie to format XML w standardzie DITA.

Przygotowując materiały w DITA, format końcowy pozostaje poza zakresem zaintresowań autora i redakcji. Treść powstaje zgodnie ze specyfikacją tematów, element po elemencie, a znakowanie jest czysto merytoryczne – cytaty stają się cytatami, tytuły tytułami, wskazówki wskazówkami etc. Ich wizualizacja nie ma żadnego znaczenia, opracowanie dzieje się wyłącznie w warstwie merytorycznej.

W efekcie powstaje neutralne źródło – komplet materiałów przygotowanych w formie całkowicie oderwanej od założeń poszczególnych formatów. Dzięki specyfikacji, każdy kolejny temat powstaje według identycznych założeń i identyczne elementy zawsze są tak samo oznakowane. To pozwala uniknąć konieczności konwertowania materiałów i przejść w całości bez ingerencji w proces przekształcenia.

Przekształcenie

Przekształcenie (z ang. Transformation) to proces polegający na przystosowaniu treści do konkretnego, wybranego formatu z formatu nadrzędnego, czyli takiego, który posiada wszystkie niezbędne elementy, żeby wyodrębnić się w format podrzędny. Proces ten może być całkowicie zautomatyzowany, jest jednokierunkowy i – po zastosowaniu odpowiednich narzędzi – w stu procentach powtarzalny.

W odróżnieniu od konwersji, przekształcenie nie wymaga ręcznych interwencji i nie musi najpierw usuwać znaczników niezbędnych przy produkcji innych formatów. Dzięki temu, końcowy efekt jest powtarzalny, wolny od błędów i dostosowany do formatu wyjściowego.

Aby zapewnić całkowitą powtarzalność w DITA, do materiałów dołączane są tzw. mapy, czyli dokumenty określające szczegółowo, w jaki sposób materiał źródłowy ma być przekształcony, by uzyskać odpowiedni efekt końcowy. Najprostszym przykładem może być przekształcenie do formatu xHTML, na przykład według takiego schematu:

Wizualizację poszczególnych elementów definiuje uniwersalny plik CSS, na przykład w ten sposób:

Dzięki połączeniu neutralnego źródła, mapy przekształcenia i pliku CSS można z dokumentu XML uzyskać format ePub jednym kliknięciem, bez zbędnych elementów i znaczników pochodzących z innych formatów wynikających z konwersji.

Co zrobić, żeby się nie narobić?

Niezbędnym elementem procesu wyrwania się z objęć kręgu pracochłonnych konwersji jest stworzenie neutralnego źródła. Takim źródłem może być dowolny uniwersalny format spełniający trzy podstawowe wymogi:

  • Nie jest powiązany z żadnym formatem wyjściowym,
  • Nie jest powiązany z żadnym twórcą konkretnego oprogramowania,
  • Ma ściśle ustalony stan prawny.

Oderwanie od formatu wyjściowego zapewni całkowitą kompatybilność ze wszystkimi formatami – nie tylko tymi, które trzęsą rynkiem wydawniczym dzisiaj, ale też tymi, które pojawią się w przyszłości. Formaty przygotowane przez konkretnych twórców oprogramowania mają przykrą tendencję do znikania z rynku lub stopniowego wydzielania się z formatów oryginalnych ze względu na konieczność zaspokajania rosnących potrzeb oprogramowania, na potrzeby którego powstały. O tym, jak ważny jest ustalony stan prawny formatu, być może przekonają się niebawem wszyscy użytkownicy urządzeń z Androidem, jeśli współtwórcy Linuxa spełnią swoje groźby i wycofają należące do nich licencje na kluczowe elementy jego kodu źródłowego.

Dlatego standardy takie jak DITA czy DocBook spełniają tę funkcję idealnie. Nie stanowią kompletnych rozwiązań, nie są własnością żadnego producenta oprogramowania i mają ustalony status prawny. Są uniwersalne i przystosowane do konkretnych rozwiązań, ale o nieograniczonej możliwości dostosowania się do wymogów poszczególnych wydawnictw. Zarówno DocBook jak i DITA for publishers są wyspecjalizowanymi standardami dla rynku wydawniczego, co sprawia, że większość typowych problemów można rozwiązać bez konieczności ich dostosowania.

Prędzej czy później każde wydawnictwo stanie przed problemem konwersji swoich treści, szczególnie biorąc pod uwagę nieustający postęp technologiczny. Trudno sobie nawet dziś wyobrazić formaty jutra. Dlatego stworzenie neutralnego formatu, który będzie zawierać maksimum informacji i metadanych jest tak ważne. Każdy kolejny projekt tworzony w systemie uzależnionym od oprogramowania jednego producenta lub formatu wyjściowego może się w niedalekiej przyszłości stać kolejnym problemem w procesie konwersji. Znacznie przyjemniejszym doświadczeniem będzie wtedy rozmawianie o przekształceniu, a nie konwersji, zwłaszcza jeśli formatów wejściowych i wyjściowych będzie kilka.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *