XML dla publikacji

tPo przejściu do środowiska wydawniczego opartego na XML, właściwe podejście może zaoszczędzić czas, a nawet stworzyć zupełnie nowe możliwości dystrybucji publikacji, jeśli odpowiednio zaplanujesz i zaprojektujesz strukturę. XML to potężny nośnik treści, ponieważ przekształca dokumenty ze strumienia tekstu i obiektów w sortowalną, regulowaną, hierarchiczną kolekcję elementów. Ocena istniejących niestrukturalnych treści jest niezbędna, by osiągnąć cele krótkoterminowe i długoterminowe.

W tym artykule opisano, w jaki sposób można konwertować dokumenty przeznaczone do publikowania wydruków na dokumenty strukturalne. Poniższe sekcje obejmują logiczne wytyczne, aby pokazać, że publikowanie jest możliwe – a nawet jeszcze łatwiejsze – po przejściu do XML. Główny nacisk kładziemy na to, jak zaprojektować strukturę dla swoich treści.

Planowanie z myślą o długofalowych celach XML

Jako autor możesz być przyzwyczajony do pracy z formatowaniem edytora tekstu plus klawisz Enter. (Ty wpisujesz, wybierasz format, wciskasz Enter, wpisujesz więcej, wybierasz inny format, wciskasz Enter, itd.) Przy pracy ze strukturą, zamiast używać klawisza Enter, wstawiasz elementy strukturalne. Dostosowujesz się, aby nie myśleć o formatowaniu swoich treści. W świecie struktury twoje narzędzia do tworzenia treści lub arkusze stylów XML obsługują formatowanie.

Dokumenty przetworzone przez klasyczne edytory biurowe obejmują tekst maszynowy, grafikę i tabele. Przekształcony w strukturę, każdy z tych składników jest identyfikowany wraz z wszelkimi dodatkowymi informacjami, które mogą być potrzebne do obsługi procesu publikowania lub formatowania sterowania. Części dokumentu stają się elementami XML i mogą być traktowane jak pola w bazie danych – mogą być lokalizowane, sortowane, wykorzystywane do pobierania, wyszukiwane i w inny sposób przetwarzane. Elementy mogą być również traktowane inaczej w zależności od kontekstu – elementy macierzyste, w których są zagnieżdżone lub elementy hierarchicznie nad nimi w drzewie dokumentu (przodkowie). Oznacza to, że teoretycznie identyczny element może mieć zupełnie odmienny wygląd w zależności od tego, czy znajduje się w rozdziale, akapicie czy cytacie.

Uruchomione narzędzie nie powinno wpływać na pierwszy krok w kierunku przejścia do struktury, co ma na celu potwierdzenie celów publikowania i przeanalizowanie istniejących dokumentów z myślą o tych celach. Pomyśl o następujących pytaniach:

  • Jakie dane zawiera twój dokument?
  • Czy są w nim tabele złożonych informacji?
  • Czy dokument łatwo rozkłada się na mniejsze tematy lub sekcje?
  • Czy Twoje treści są w większości tekstem w swobodnym formacie bez podziału na sekcje?
  • Które części dokumentów musisz zidentyfikować jako specjalne elementy lub atrybuty (aby zapewnić, że można je kierować zgodnie z życzeniem ponownego użycia, sortowania, śledzenia lub innych korzyści XML)?
  • Jeśli Twoje cele obejmują tłumaczenie, czy chcesz dołączyć atrybuty do identyfikacji treści, które zostały przetłumaczone?
  • Czy chcesz skomentować dowolną treść dokumentu lub oznaczyć ją do użytku w różnych wersjach dokumentu?

Określ strukturę dokumentu

Oceń istniejącą treść i określ strukturę, jaką zawiera treść. Na przykład, jeśli publikujesz podręczniki techniczne, twoje dokumenty mogą składać się z fragmentów tekstu, zrzutu ekranu, ilustracji, tabel, procedur, danych referencyjnych i innych elementów. Twój tekst może być podzielony na akapity, listy, podpisy, nagłówki i podświetlone frazy. Rysunek 1 pokazuje sekcję przykładowego dokumentu. Ta sekcja zawiera nagłówek, kilka akapitów i zestaw kroków proceduralnych.

Przypisywanie typów akapitów do elementów

Przeanalizuj te komponenty, a następnie je do logicznie nazwanych elementów. W odróżnieniu od wyróżnień czysto typograficznych typu bold czy italic elementy te będą niosły ze sobą informację nie tylko o tym, jak dany tekst ma zostać sformatowany, ale też o tym, jaką pełni rolę w dokumencie i co się w nim znajduje. Możesz użyć elementu <title> lub <head>, aby rozpocząć dokument (nagłówek „Checking Your Installation”), a następnie akapit, który możesz zmapować do elementu <p> i ponumerowane procedury, dla których możesz utworzyć element <step>, elementy wewnątrz elementu <procedure>. Po włączeniu tych kroków możesz zdecydować, że ta część dokumentu powinna być określona jako sekcja typu <task> lub możesz nazwać ją po prostu elementem <section>.

Oceniasz więc swoją treść kawałek po kawałku, akapit po akapicie i decydujesz, jak będzie wyglądała końcowa struktura. Nazwy elementów są – o ile nie wybierzesz gotowego standardu – zależne od własnego uznania. Warto jednak zachować logiczne nazwy elementów i dokumentów. (Warto używać anglojęzycznych nazw elementów, dla ujednolicenia publikacji i wyrobienia nawyków, które przydadzą się przy publikacjach wielojęzycznych – przyp. tłum.)

Posługując się tym dokumentem jako przykładem, przy jego ocenie można stwierdzić, że nagłówek wykorzystuje format „Nagłówek 1”, jak pokazano na Rysunku 2.

Jeśli wiesz już, co ma się znaleźć w elemencie <title>, to musisz to umieścić w szablonie mapowania (konwersji). Podobnie dla każdego z pozostałych akapitów (wstęp, lista numerowana, tekst główny) określasz element do utworzenia podczas konwersji. Nie zapomnij uwzględnić kursywy i pogrubienia tekstu, odsyłaczy i innych elementów w każdym z akapitów. XML można podzielić na znaczniki akapitowe i liniowe. Pierwsze odnoszą się do całych fragmentów tekstu, np. akapitów czy tytułów, a drugie do elementów tych fragmentów, np. bold, odnośnik czy cytat wewnątrz tekstu.

Na rysunku 2 można zobaczyć typy akapitów (nagłówki, ponumerowane kroki itd.). Przejrzyj wszystkie akapity, a także elementy specjalne w nich zawarte. Znajdują się w nich na przykład wyróżnione teksty i cytowane wyrażenia. Nie tylko możesz podzielić dokument na <title>, <p> i <steps>, ale możesz także wykorzystać znaczniki liniowe takie jak <xref> (odnośnik) lub <italic> czy <user_action>. Dzięki nim możesz wyróżnić poszczególne fragmenty kursywą (lub pogrubioną lub w inny sposób podświetloną) lub umieszczać odsyłacze do innych miejsc w dokumencie lub poza nim. Chociaż nie jest to widoczne na rysunku, elementy tego dokumentu mogą mieć określone terminy glosariuszowe lub indeksowe. Dzięki temu czytelnik takiej instrukcji nie tylko będzie mógł w przystępny dla siebie sposób ją przeczytać, ale na przykład kliknąć w dowolny z oznaczonych odnośników i przenieść się w dowolne miejsce, na które wskazuje odnośnik. Może to być inny akapit w tym samym dokumencie, innym dokumencie albo na przykład strona internetowa.

Przemyśl hierarchię każdego elementu

Po ustawieniu elementów należy uwzględnić hierarchię każdego elementu. Struktura (XML) zawiera zasady dotyczące używania elementów. Niektóre elementy zostaną zamknięte wewnątrz elementu nadrzędnego – to znaczy elementu, który w pełni zawiera inny element. Element wewnątrz rodzica jest nazywany elementem potomnym. Elementy potomne mogą mieć rodzeństwo, które również znajduje się wewnątrz rodzica. Wiele poziomów tego zagnieżdżania elementów w sobie tworzy hierarchię dokumentów. Ponieważ każdy element jest zdefiniowany, możesz określić, które elementy macierzyste może ono mieć i które elementy podrzędne (jeśli w ogóle) mogą zawierać. Możesz zatem określić, że ilustracja może zawierać w sobie nie tylko link do ilustracji, ale również podpis i zastrzec, że podpis nie może znajdować się nigdzie indziej niż pod ilustracją.

Rozważ atrybuty

Weź także pod uwagę wszelkie atrybuty – dodatkowe dane zawarte w elementach – potrzebne, byś mógł osiągnąć swoje cele publikowania. Atrybuty można skonfigurować w celu dokładniejszego zidentyfikowania części dokumentu, na przykład nadania elementowi <title> atrybutu nadającego mu tożsamość (takiego jak <title type=”summary”>, w którym nazwa atrybutu to type, a wartość atrybutu to podsumowanie – „summary”). Atrybuty mogą również zawierać dodatkowe informacje, takie jak nazwiska autorów, daty wydania, lub informacje ważne dla sortowania, wyszukiwania lub zarządzania dokumentami, ale które nigdy nie pojawiają się w opublikowanych dokumentach.

Zmiany w razie potrzeby

Podczas szczegółowej analizy możesz nie tylko zacząć planować przenoszenie swoich treści do postaci strukturalnej, ale także zweryfikować, jak dobrze ta struktura pasuje do twoich treści. Aby poradzić sobie z problemami z mapowaniem, możesz zmienić strukturę (jeśli masz taką możliwość) lub zmienić treść. Zacznij więc od wstępnej analizy podczas której utworzysz dopasowania dla wszystkich bezproblemowych elementów, a następnie przejdź do analizy szczegółowej. Podczas tej analizy skup się na elementach problematycznych, popraw strukturę i określ obszary wymagające przepisania, aby dokument spełniał wszystkie twoje założenia.

Własna struktura a standardy branżowe

Możesz przeanalizować swoje dokumenty i przygotować własną strukturę, która będzie do nich pasować. Stworzyć własne nazwy elementów i określić zasady ich występowania. Alternatywnie możesz użyć standardowej struktury branżowej (na przykład MIL-SPEC, DITA, DocBook). Jeśli chcesz dostosować się do istniejących, powszechnych standardów, co z jednej strony może wiązać się z koniecznością modyfikacji niektórych treści, ale z drugiej zapewnia kompatybilność i pracę w standardzie przygotowanym przy współpracy wielu wydawców z całego świata.

Aby użyć DITA na podanym wcześniej przykładzie, możesz zdecydować się na przepisanie akapitów następujących po procedurze. Jeśli przykładowy dokument miałby wykorzystywać strukturę zadań DITA, to element <task> oferuje ograniczone opcje dla zawartości po czynnościach proceduralnych. Być może konieczne będą zamiany treści tak, aby pasowała do kilku elementów <p> w elemencie <result>, mimo że zgodnie ze standardem elementy po krokach mogą nie zawierać tekstu zorientowanego na wynik. Alternatywnie można przepisać te akapity w taki sposób, żeby pasowały do ​​elementu potomnego elementu <task>, <related-links>. Zmiany w treści mogą być subtelne lub bardzo duże, w zależności od tego, jakie są twoje dokumenty i struktura, do której chcesz się dopasować. Podczas decydowania o strukturze i rozpoczęciu konwersji dokumentów pamiętaj, że konsekwencje takiego wyboru są bardzo poważne i nie jest to decyzja, którą należy podejmować bez wnikliwej analizy dostępnych możliwości.

Mapowanie formatów do konwersji

Po określeniu struktury, mapowaniu formatowania i wyborze narzędzi, powinieneś być w stanie przeprowadzić konwersję i przekonwertować swoje dokumenty do wybranej struktury. Możesz wymyślić możliwe odwzorowanie, które wygląda jak na rysunku 3. Pierwsza kolumna pokazuje, co było w oryginalnym, niestrukturalnym dokumencie. Ustala się akapity, następnie zakresy tekstu (formatowanie na poziomie znaku), a następnie inne komponenty dokumentu. W drugiej kolumnie znajduje się nazwa elementu, który obejmie tę zawartość. W trzeciej kolumnie znajdują się notatki, które możesz wyrazić w dowolny sposób logicznie dla ciebie i które pokazują hierarchię (pochodzenie), która powinna znaleźć się w przekonwertowanej strukturze.

Korzystając z tych danych, możesz teraz skonfigurować plan konwersji. W zależności od używanego narzędzia lub posiadanej wiedzy fachowej konwersję można przeprowadzić za pomocą różnych procesów. Niektóre narzędzia, takie jak Adobe® FrameMaker®, zapewniają proces konwersji. Narzędzia, które nie mają własnej konwersji na strukturę, mogą wymagać najpierw wyeksportowania treści do formatu pośredniego (na przykład tekstu, HTML lub bardzo surowego XML). Z takiego pośredniego formatu można uzyskać format docelowy za pośrednictwem wielu narzędzi, np. Perla, XSLT lub innych opcji skryptowania do konwersji surowego XML do wybranej struktury.

Po zakończeniu konwersji możesz przejrzeć zawartość w swojej strukturze (patrz Rysunek 4) i potwierdzić, że struktura działa dla twojej treści – i przede wszystkim ciebie.

Projekt pilotażowy – pełny dokument lub rozdział – pomoże ci określić czas potrzebny na konwersję. Pilot umożliwia pobranie niewielkiego procentu dokumentów, przeprowadzenie pełnego procesu konwersji i upewnienie się, że po zakończeniu pracy masz uporządkowaną zawartość, która zostanie odpowiednio sformatowana do publikacji. Jeśli uważasz, że struktura i treść są ze sobą powiązane, przeprowadź pełny proces konwersji z próbką o dużej wielkości, a następnie przejrzyj wyniki. Dobra struktura to taka, która obejmuje wszelkie niuanse, które charakteryzują twoje wydawnictwo i z jednej strony pozwala na swobodną pracę autorów i redaktorów, a z drugiej ogranicza ich tak, że tworzone dokumenty są jednorodne i kompatybilne.

Dystrybucja

Procedury omówione w tym artykule – analiza dokumentów, mapowanie struktur, przepisywanie – są często wykonywane w trakcie dalszego publikowania. Nadal musisz wyeksportować swoje treści na zewnątrz. Przechodząc do struktury, musisz zachować dokumenty w nadającym się do wykorzystania formacie. W zależności od dystrybucji, PDF, HTML itd. Możesz publikować np. z mieszanki treści niestrukturalnych i strukturalnych.

Kiedy będziesz gotowy przenieść zawartość do struktury, użyj następującego procesu:

  1. Utwórz kopię zapasową oryginalnych niestrukturalnych plików.
  2. Przeprowadź konwersję za pomocą jednego dokumentu.
  3. Przejrzyj wyniki konwersji, upewnij się, że elementy mapują się jednoznacznie, zwłaszcza kiedy konwersja jest bezpowrotna, tzn. z dwóch lub więcej elementów źródłowych powstaje jeden element w nowej strukturze.
  4. Zapisz przekonwertowany dokument jako dokument strukturalny (w wybranym przez ciebie narzędziu) lub jako plik XML.
  5. Utwórz publikację z dokumentu XML, aby upewnić się, że generuje się zgodnie z oczekiwaniami.
  6. Powtórz ten proces dla innych dokumentów, najlepiej po jednym na raz.

Korzystając z tego procesu, w dowolnym momencie możesz opublikować swoje dokumenty – nawet jeśli niektóre z nich są nieustrukturyzowane, a inne już przeszły przez ten proces. Po przekonwertowaniu wszystkich dokumentów, posuwając się naprzód, możesz publikować w miarę potrzeb z całą zawartością, nie tracąc ani chwili. Wdrażanie XML nie musi oznaczać wyłączenia całego wydawnictwa z rynku na długie tygodnie analiz, przygotowań i konwersji. Takie działania można prowadzić równolegle do zwykłych zajęć, a następnie wszystkie nowe projekty prowadzić już w nowym środowisku jednocześnie stopniowo konwertując stare materiały do nowego standardu.

Wniosek

Przejście od niestrukturalnych publikacji do uporządkowanych publikacji wymaga planowania, czasu i wysiłku. Jeśli planujesz z wyprzedzeniem, możesz uniknąć wielu problemów i zapewnić swoim treściom płynne przejście do nowej struktury. Takie przejście wynika z dokładnego rozważenia opcji, projektów pilotażowych, aby z wyprzedzeniem zmierzyć czas konwersji, oraz odpowiedniego oprogramowania dla przyspieszenia samego procesu.

Utworzenie siatki logicznych elementów, atrybutów i hierarchii pozwala na szybkie, szerokie i bezproblemowe wykorzystanie ustrukturyzowanej treści w dowolnych przyszłych projektach.

Źródło: https://www.ibm.com/developerworks/library/x-publish/index.html