Przygotowanie plików do transkrypcji

Skanowanie

Obiekt przeznaczony do transkrypcji i umieszczenia w Repozytorium Uniwersytetu Wrocławskiego powinien zostać zeskanowany w rozdzielczości co najmniej 300 dpi oraz formacie TIFF. Publikacja powinna składać się z osobnych plików dla poszczególnych stron (lub jeden plik = jedna rozkładówka). Publikacje zeskanowane do pliku pdf nie będą mogły przejść poniższej procedury przygotowania do transkrypcji i trzeba będzie jej dokonać we własnym zakresie.

Obróbka plików w Scan Tailor

Aby pliki mogły zostać poddane transkrypcji w TransLab należy poddać je wstępnej obróbce (m.in. wykonać podział stron). Przykładem darmowego oprogramowania, którym można takiej obróbki dokonać, jest Scan Tailor.
Instrukcja oraz film instruktażowy w języku angielskim są dostępne tutaj.

Pobranie i instalacja

Scan Tailor to darmowe oprogramowanie, które można pobrać z repozytorium GitHub.
Aby ustalić wersję systemu Windows dostępną na komputerze, na którym ma zostać zainstalowane oprogramowanie, można skorzystać z następującej instrukcji.
Pobrany plik należy otworzyć, co uruchomi proces instalacji.

Rozpoczęcie projektu

Po uruchomieniu programu widoczne będą dwie możliwości rozpoczęcia pracy: "Nowy projekt" i "Otwórz projekt". Po wybraniu opcji "Nowy projekt" pojawi się następujące okno dialogowe:

Jako katalog wejścia należy wskazać folder, w którym znajdują się pliki zeskanowanej publikacji. Jako katalog wyjścia należy wskazać folder, w którym zostaną zapisane pliki po przetworzeniu przez Scan Tailor.
Po wybraniu katalogu wejścia w ramce "Pliki spoza projektu" zostanie wyświetlona lista plików ze wskazanego folderu. Należy wybrać pliki, które mają się znaleźć w projekcie i przenieść je przy pomocy ">>" do ramki "Pliki w projekcie". Po przeniesieniu wszystkich plików należy zatwierdzić akcję przyciskiem "OK".

Układ funkcjonalności

Po uruchomieniu nowego projektu okno programu wygląda następująco:

Lewy panel zawiera listę etapów przetwarzania, wraz z zaznaczeniem aktywnego etapu. Poniżej listy wyświetlane są akcje dostępne dla danego etapu.
Prawy panel zawiera miniatury plików zawartych w projekcie.
Na środku jest wyświetlany podgląd aktualnie przetwarzanego pliku.

Obróbka plików

Przetwarzanie plików w programie odbywa się w sześciu etapach. Na każdym z nich istnieje możliwość pracy na każdym pliku z osobna lub wybrania parametrów dla jednego pliku i zastosowania ich dla wszystkich pozostałych.

Popraw orientację

W pierwszym etapie prac dokonuje się poprawy orientacji, to znaczy obrotów obrazu o krotność 90° (korekta ewentualnych nierówności na skanie jest możliwa później). Służą do tego przyciski strzałek na lewym panelu programu. Po wykonaniu odpowiedniej akcji można wybrać opcję "Zastosuj do..." i zaznaczyć, które strony mają zostać przekształcone w zadany sposób.

Dziel strony

Drugi etap to dzielenie skanów na osobne strony. Program dokonuje podziału automatycznie, jednak wskazane jest sprawdzenie, czy zostało ono wykonane prawidłowo dla poszczególnych stron. W celu rozpoczęcia automatycznego dzielenia stron należy kliknąć przycisk "play" przy oznaczeniu etapu na lewym panelu programu:

Ręcznej korekty można dokonać poprzez przeciągnięcie linii podziału na podglądzie pliku (przesuwana jest wtedy cała linia, bez zmiany jej orientacji) lub przeciągnięcie końców linii (umożliwia wykonanie podziału pod kątem, w przypadku niewypoziomowanych skanów).

Obróć

Trzeci etap pozwala na zredukowanie nierówności tekstu powstałych w wyniku błędów drukarskich lub problemów podczas skanowania. Podobnie jak w przypadku podziału stron, program dokonuje korekty automatycznie po kliknięciu przycisku "play". Ewentualne poprawienie rezultatów jest możliwe poprzez ręczne przeciągnięcie znaczników na podglądzie pliku lub wpisanie pożądanej wartości w lewym panelu programu.

Wybierz zawartość

Czwarty etap polega na wskazaniu obszarów zawierających treść. Wybranie zawartości można przeprowadzić ręcznie (przy pomocy ramki na podglądzie poszczególnych stron) lub program może wykonać rozpoznanie automatycznie. Względem wybranych obszarów zostaną dodane marginesy w kolejnym etapie przetwarzania.
Drugim wariantem jest skorygowanie obszarów z zawartością w taki sposób, aby miały mniej więcej ten sam rozmiar. W praktyce będzie to oznaczało rozciągnięcie ich w górę lub w dół na stronach o kolumnach opuszczonych lub szpicowych. Pozwoli to na automatyczne dodanie marginesów w kolejnym kroku.

Marginesy

Piąty etap to ustalenie wielkości marginesów dla poszczególnych stron. Wykonanie tej akcji w sposób automatyczny może skutkować przekłamaniami w układzie graficznym (zwłaszcza w przypadku kolumn opuszczonych i szpicowych). W związku z tym zaleca się wskazanie marginesów ręcznie poprzez przeciągnięcie brzegów ramki dla każdej ze stron w taki sposób, aby brzegi marginesów pokrywały się z brzegami kart widocznymi na skanach. Należy pamiętać, aby na lewym panelu odznaczyć opcję blokady wartości, aby możliwe było ustawienie różnych szerokości dla poszczególnych marginesów. Wskazane jest również skorzystanie z wyrównania centralnego oraz dopasowania rozmiaru do pozostałych stron.

Dzięki temu wszystkie uzyskane pliki będą miały jeden rozmiar i jednakowe umiejscowienie treści, co znacząco ułatwi przeliczenie i docięcie na dalszym etapie przygotowania publikacji.
Jeżeli podczas wybierania zawartości skorzystano z wariantu drugiego, w tym kroku można dodać jednakowe marginesy dla całej publikacji, bez dopasowywania rozmiaru do pozostałych stron. Należy tylko pamiętać, aby całość (treść plus marginesy) wykraczała poza krawędzie skanu, dzięki czemu na dalszym etapie przygotowania będzie możliwe docięcie do właściwego, jednolitego wymiaru.

Wyjście

Szósty, ostatni, etap to ustalenie parametrów wyjściowych dla przetworzonych plików. Dla publikacji przygotowywanych do transkrypcji w TransLab i zamieszczenia w Repozytorium zaleca się rozdzielczość 600 DPI, tryb "kolorowy/skala szarości" i białe marginesy. Po kliknięciu przycisku "play" w katalogu docelowym zostaną zapisane przetworzone pliki.

Przeliczanie rozmiaru plików

Pliki utworzone po obróbce w programie Scan Tailor zwykle będą miały inne wymiary od fizycznej publikacji. Aby ustalić prawidłowe wymiary plików należy wykonać następujące kroki:

Zmierzyć długość i szerokość fizycznej publikacji (w milimetrach).
Przeliczyć wymiary fizyczne na piksele przy odpowiedniej rozdzielczości (np. przy pomocy kalkulatora online).
Porównać otrzymane wartości z wymiarami plików otrzymanych z programu Scan Tailor.

Dopasowanie rozmiaru plików

Do automatycznego dopasowania rozmiaru plików można wykorzystać program XnView. Po zainstalowaniu i uruchomieniu programu należy przejść do folderu, w którym znajdują się pliki do przetworzenia i je zaznaczyć. Następnie na pasku narzędzi programu należy wybrać Narzędzia>>Konwertowanie wielu plików... co otworzy następujące okno dialogowe:

W zakładce "Wyjście" należy wybrać folder, w którym zostaną zapisane wyniki konwersji. Następnie kliknąć przycisk "Ustawienia" (nie mylić z zakładką "Ustawienia") i dla opcji "Kompresja obrazów czarno-białych" oraz "kompresja obrazów kolorowych" wybrać wartość "LZW". W zakładce "Akcje" należy wybrać Dodaj akcję>>Obraz>>Zmień rozmiar obszaru roboczego. Do listy akcji zostanie dodana wybrana czynność, dla której można ustawić odpowiednie parametry.

W polach „szerokość" i „wysokość" należy wpisać wartości obliczone na podstawie oryginału, odznaczyć pole „zachowaj proporcje obrazu" i wybrać pozycję „center".

Po wybraniu odpowiednich parametrów wystarczy kliknąć przycisk "Konwertuj". Obrobione pliki zostaną zapisane w wybranym folderze docelowym.