Transkrypcja automatyczna

Z Wiki BUWr
Wersja z dnia 13:38, 10 mar 2025 autorstwa Eunika Kupis (dyskusja | edycje) (uaktualnienie dla TransLab 2.0)
(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Przejdź do nawigacji Przejdź do wyszukiwania

Transkrypcja automatyczna całego dokumentu

Po utworzeniu nowego projektu oraz dodaniu plików, dokument można przetranskrybować manualnie lub automatycznie.
Aby skorzystać z funkcji transkrypcji automatycznej, kliknij przycisk "Transkrybuj strony automatycznie (OCR)" w widoku szczegółów projektu.

019 ocr calosci.jpg


Pojawi się okno dialogowe, w którym należy określić parametry transkrypcji. Po wyborze ustawień i kliknięciu przycisku "Rozpocznij rozpoznawanie" nastąpi automatyczna transkrypcja.

020 ocr okno.jpg

Warstwa tekstowa

Jeżeli w projekcie jest więcej niż jedna warstwa tekstowa, wybierz, która z nich ma zostać przetranskrybowana.

Zakres stron

W zależności od potrzeb, możliwa jest transkrypcja wszystkich stron lub wybranego zakresu.
Ponieważ czas trwania transkrypcji zależy od liczby stron, warto rozważyć podzielenie jej na mniejsze etapy. Podczas transkrypcji fragmentu publikacji praca nad pozostałą jej częścią jest niemożliwa.

Zakres rozpoznania

W ramach zakresu rozpoznania dostępne są trzy opcje: "zastąp istniejący tekst w warstwie tekstowej", "uzupełnij tylko puste obszary tekstowe" oraz "rozpoznaj tylko pliki z pustą warstwą tekstową".

Wybranie funkcji "zastąp istniejący tekst w warstwie tekstowej" dla nowego obiektu (czyli takiego, nad którym nie były prowadzone prace w TransLab) spowoduje uruchomienie pełnego rozpoznania tekstu na plikach graficznych. Wybranie tej funkcji dla obiektu z częściową lub całkowitą transkrypcją spowoduje wygenerowanie nowego rozpoznania i nadpisanie wyników.

Aby skorzystać z opcji "uzupełnij tylko puste obszary tekstowe" należy najpierw dodać obszary transkrypcji do poszczególnych stron, według instrukcji do transkrypcji manualnej. Wtedy wybranie tej opcji spowoduje automatyczne rozpoznanie tekstu w ramach wybranych wcześniej, nieuzupełnionych obszarów. Jeżeli na poszczególnych stronach obiektu nie będzie pustych obszarów transkrypcji, funkcja uzupełnienia nie wprowadzi żadnych zmian.
Wybranie opcji "rozpoznaj tylko pliki z pustą warstwą tekstową" dla nowego obiektu (czyli takiego, nad którym nie były prowadzone prace w TransLab) spowoduje uruchomienie pełnego rozpoznania tekstu na plikach graficznych. Wybranie tej funkcji dla obiektu z częściową transkrypcją spowoduje uruchomienie pełnego rozpoznania tekstu na stronach, które wcześniej nie były transkrybowane (to znaczy nie znajduje się na nich ani jeden obszar transkrypcji).

Język transkrypcji

W tym miejscu należy wybrać język, w którym napisany jest transkrybowany dokument. Jeżeli w tekście występuje kilka języków, za pomocą przycisku "+" można dodać kolejne. Kolejność języków powinna odzwierciedlać częstość występowania w tekście (począwszy od głównego).

Układ kolumnowy

Jeżeli transkrybowana publikacja została wydrukowana/napisana w kilku kolumnach, możesz wybrać opcję "Rozpoznaj układ kolumnowy (wolniejsze)". Dzięki temu przetranskrybowane wiersze będą rozdzielone i zachowają kolejność treści.

Transkrypcja automatyczna pojedynczej strony

Automatyczna transkrypcja pojedynczej strony jest możliwa na dwa sposoby:

  1. Wybierz zakres jednej strony, korzystając z funkcji automatycznej transkrypcji całego dokumentu.
  2. W widoku transkrypcji strony kliknij przycisk "Transkrybuj stronę automatycznie", znajdujący się w rozwijanym menu w lewym górnym rogu panelu transkrypcji. Pojawi się okno dialogowe, w którym można wybrać warstwę, zakres rozpoznania, język oraz układ kolumnowy, analogicznie do transkrypcji automatycznej całego dokumentu.
021 ocr strony.jpg

Transkrypcja automatyczna wiersza

Po utworzeniu obszaru transkrypcji i zaznaczeniu go, kliknij ikonę transkrypcji wiersza na środkowej belce panelu transkrypcji. Pojawi się okno dialogowe, w którym można wybrać język, analogicznie do pozostałych transkrypcji.

022 ocr wiersza.jpg