BC oznaczanie jezyka metadanych

Z Wiki BUWr
Przejdź do nawigacji Przejdź do wyszukiwania

Oznaczanie języka metadanych

Wszystkie informacje dotyczące obiektu, które redaktorzy umieszczają w odpowiednich polach opisu, mieszczą się w kategorii metadanych opisowych. Metadane opisowe, czyli dane dostarczające szczegółowych informacji o obiekcie, pozwalają z jednej strony w efektywny sposób korzystać użytkownikom ze znalezionych zasobów, a z drugiej, dzięki stosowaniu jednolitych standardów, umożliwiają wymianę danych między różnymi bazami i systemami. Nawet najpiękniej zeskanowany obiekt nie będzie mógł być znaleziony przez potencjalnego użytkownika, jeśli nie będzie miał dobrze opisanych metadanych. Z tego względu tak istotne jest zwrócenie uwagi na właściwe uzupełnianie poszczególnych pól, gdyż poprawnie wprowadzone metadane są kluczem do ich skutecznego wykorzystania.


Standardy metadanych wykorzystywanych w opisach obiektów w BCUWr/RUWr to Dublin Core w wersji 1.1 i rozszerzonej oraz PLMET. Językiem tych standardów jest XML (eXtensible Markup Language), czy rozszerzalny język znaczników. XML jest językiem rekomendowanym oraz specyfikowanym przez organizację W3C, co zapewnia jego uniwersalność i umożliwia szerokie stosowanie, głównie przez eksport i import między różnymi systemami. XML używa tzw. znaczników oraz atrybutów, aby w odpowiedni sposób oznaczyć dane i ich parametry.

Mówiąc najkrócej, składnia XML to etykiety, oznaczane za pomocą ostrych nawiasów - musi wystąpić etykieta początkowa i końcowa. Pomiędzy etykietami może znajdować się dowolny tekst, inne etykiety (wtedy powstanie wyrażenie budujące hierarchię), a także dowolna liczba atrybutów. W najprostszym przypadku będzie to zatem:


<etykieta>wartość</etykieta>

przykład: <dc:subject>cartography</dc:subject>


<etykieta atrybut= "..." >wartość</etykieta>

przykład: <dc:subject xml:lang="en">cartography</dc:subject>


Standard XML nie określa w żaden sposób zawartości etykiet i atrybutów - może tam być wszystko, co mieści się w regułach składni[1]. Więcej w przystępny sposób opisano np. w tym wpisie[2].


Dla redaktora biblioteki cyfrowej powyższe informacje mogą pomóc w zrozumieniu jak zapisywane i przekazywane dalej są poszczególne elementy opisu - czyli metadane opisowe, wprowadzane w odpowiednie pola systemu dLibra. W tym przypadku, najprościej rzecz ujmując, etykieta to nazwa pola (w postaci angielskiej nazwy RDF, np. Title, Creator, Subject), a atrybutem jest oznaczenie języka, jeśli wartość została wpisana w zakładkę językową.

Zakładki językowe

W systemie dLibra narzędziem, które umożliwia oznaczanie języka wpisanej wartości, są zakładki językowe. Każdy język oznaczony jest dwuliterowym skrótem oraz flagą. Zakładka, która przechowuje wartości niezależne od języka oznaczona jest jako Niez. Kolejność zakładek jest z góry narzucona (nie można jej zmienić) - ułożone są one alfabetycznie według kodów, z zakładką Niez. na samym dole.

Zakładki językowe włącza administrator systemu z poziomu zarządzania, dlatego wszyscy redaktorzy widzą te same zakładki. Można włączyć dowolną liczbę zakładek (dla wszystkich bardziej lub mniej popularnych języków), jednak praca z dużą ich liczbą nie jest wygodna dla redaktorów.

Obecnie (stan na wrzesień 2021) włączone są języki: polski (PL), angielski (EN), niemiecki (DE), łacina (LA), włoski (IT). Zakładkę Niez. wykorzystuje się dla wartości, które są wyrażone w innych językach lub są faktycznie niezależne od języka (patrz p. 1 i 6 Wskazówek dotyczących stosowania zakładek językowych.


Przykłady używania zakładek - pole TYTUŁ:

1. jeśli redaktor wpisze tytuł w zakładkę Niez., to do bazy danych zapisze się tylko wartość, bez atrybutu wskazującego na jej język:

Tytuł niez.jpg

Te dane widoczne w XML będą wyglądać następująco:

<dlibra_avs:Title><![CDATA[Mapa historyczna Polski]]></dlibra_avs:Title>

W przypadku eksportu tego tytułu do innego systemu, indeksowania lub agregacji, nie zostanie przekazana żadna informacja o jego języku.


2. jeśli redaktor wpisze tytuł w zakładkę właściwą dla jego języka, to do bazy danych zapisze się poprawne oznaczenie:

Tytuł PL.jpg

Te dane widoczne w XML będą wyglądać następująco:

<dlibra_avs:Title xml:lang="pl"><![CDATA[Mapa historyczna Polski]]></dlibra_avs:Title>

W przypadku eksportu tego tytułu do innego systemu, indeksowania lub agregacji, zostanie przekazana informacja, że jest on w języku polskim.


3. jeśli redaktor wpisze tytuł w zakładkę niewłaściwą dla jego języka, to do bazy danych zapisze się błędne oznaczenie:

Tytuł EN.jpg

Te dane widoczne w XML będą wyglądać następująco:

<dlibra_avs:Title xml:lang="en"><![CDATA[Mapa historyczna Polski]]></dlibra_avs:Title>

W przypadku eksportu tego tytułu do innego systemu, indeksowania lub agregacji, zostanie przekazana informacja, że jest on w języku angielskim, co będzie niewłaściwe.


Powyższe przykłady pokazują, że to tylko od redaktora zależy, czy konkretnej wartości zostanie nadane oznaczenie języka i czy będzie ono poprawne, dlatego opisując obiekt warto zwrócić na to szczególną uwagę. Oznaczanie języka metadanych ma także znaczenie przy obliczaniu poziomów metadanych zdefiniowanych w dokumencie Europeana Publishing Framework[3], gdyż liczba relewantnych pól z oznaczeniem językowym jest jednym z trzech podstawowych kryteriów kwalifikacji opisu do poziomu A, B lub C.

Wskazówki dotyczące stosowania zakładek językowych

1. Idea zakładek nie do końca ostro traktuje rozdzielenie języka dzieła od języka opisu. Nie należy zatem utożsamiać języka dzieła (który jest oznaczony w polu JĘZYK za pomocą odpowiedniego trzyliterowego kodu) z językiem, w którym opisywany jest dany obiekt. W opisie bardzo ważny jest tytuł dzieła. Jeśli język tytułu jest oczywisty i możliwy do określenia, a w systemie jest zakładka dla tego języka, umieść go w tej zakładce językowej. Wpisywanie tytułu w zakładkę Niez. powinno mieć miejsce tylko wtedy, kiedy faktycznie nie ma innej możliwości, tj. nie ma zakładki językowej, w której mógłbyś go umieścić.


2. Błędem jest wpisywanie fraz wyrażonych w konkretnym języku w zakładkę przeznaczoną dla innego języka - powstanie niespójność w oznaczaniu.


3. Nie należy powtarzać tych samych wartości w kilku zakładkach językowych, wystarczy wpisać ją jednokrotnie we właściwym miejscu (wyjątek: jeśli słowo/wyrażenie brzmi tak samo w kilku językach i chcesz to świadomie podkreślić, np. w polu TEMAT I SŁOWA KLUCZOWE). Nowy sposób wyświetlania opisów zapewni, że użytkownik zobaczy wszystkie wartości niezależnie od wybranego języka interfejsu.


4. Jeśli przygotowujesz opis, który ma być zagregowany w Europeanie (przede wszystkim obiekty znajdujące się w domenie publicznej i na licencjach zakładających ich szerokie udostępnianie), stosuj wskazówki sformułowane w dokumencie Europeana Publishing Framework i materiałach przygotowanych przez redaktorów merytorycznych BCUWr i RUWr. Zwróć uwagę na to, aby oznaczać język dla relewantnych pól, czyli takich, które są istotne dla spełnienia kryteriów, ponieważ wpisując ich wartości w zakładkę niezależną od języka, na starcie obniżasz poziom metadanych - nie są one wtedy brane w ogóle pod uwagę (wyjątek: pole ŹRÓDŁO).


WYKAZ RELEWANTNYCH PÓL
nazwa pola w dLibrze uwagi
dc:coverage ZAKRES nie wypełnia się; wypełniamy
kwalifikatory: ZAKRES PRZESTRZENNY
i ZAKRES CZASOWY
dc:description OPIS
dc:format FORMAT
dc:relation POWIĄZANIE
dc:rights PRAWA nie wypełnia się; wypełniamy
kwalifikatory: PRAWA DOSTĘPU i LICENCJA
dc:source ŹRÓDŁO wyjątek - mimo że pole jest w wykazie
relewantnych dla Europeany, u nas do
niego trafiają sygnatury,
które są niezależne od języka, dlatego
wypełniamy w zakładce Niez.
dc:subject TEMAT I SŁOWA KLUCZOWE
dc:title TYTUŁ
dc:type TYP ZASOBU wypełniamy także kwalifikator:
SZCZEGÓŁOWY TYP ZASOBU
dcterms:alternative TYTUŁ ODMIENNY
dcterms:hasPart MA CZĘŚĆ
dcterms:isPartOf JEST CZĘŚCIĄ
dcterms:isReferencedBy MA ODNIESIENIE W
dcterms:medium NOŚNIK
dcterms:provenance POCHODZENIE
dcterms:references ODNOSI SIĘ DO
dcterms:spatial ZAKRES PRZESTRZENNY
dcterms:tableOfContents SPIS TREŚCI
dcterms:temporal ZAKRES CZASOWY
edm:currentLocation ---
edm:hasType ---
edm:isRelatedTo ---

Z oczywistych względów nie każdy obiekt ma wypełnione wszystkie 22 pola, które biorą udział w procesie wyznaczania poziomów Tier metadata. Dlatego też do tych obliczeń wykorzystane są tylko pola, które zostały wypełnione. Jeśli w opisie wypełniono 7 z powyższych pól, z czego 4 wartości wpisano w zakładkę Niez., to oznaczenie języka ma 43% pól. Taki rekord, nawet przy spełnieniu pozostałych kryteriów, pozostanie na najniższym poziomie, czyli Tier A.

Pamiętaj przy tym, że liczą się tylko unikalne wystąpienia danego pola, czyli jeśli np. dla pola TEMAT I SŁOWA KLUCZOWE będzie 5 wpisów posiadających oznaczenie języka (spełniających warunek xml:lang), to do obliczania poziomu metadanych jest to liczone jako 1 pole. Dlatego też nie ma konieczności wypełniania wartości parami w zakładkach, ważne jedynie, aby wartość we właściwym języku była w dobrej zakładce. Opis zawierający mniej wartości, ale wpisanych we właściwe zakładki językowe (nawet tylko polskie w zakładce PL), otrzyma wyższy poziom Tier metadata niż opis zawierający wypełnione wszystkie pola w zakładce Niez.

[Więcej materiałów na temat poziomów metadanych będzie przygotowanych wkrótce.]


5. Hasła osobowe w polach TWÓRCA, WSPÓŁTWÓRCA oraz WYDAWCA wpisuj w polską zakładkę językową (PL), najlepiej w brzmieniu zgodnym z hasłem zamieszczonym w bazie NUKAT. Jeśli hasła nie ma w tej bazie, ustal właściwą formę na postawie innych kartotek, np. VIAF.

Jeśli to możliwe staraj się, aby hasło było kompletne. Akceptowalny jest zapis:

  • Nazwisko, Imię (BBBB-DDDD), gdzie BBBB to rok urodzenia a DDDD to rok śmierci
  • możliwe jest użycie całej daty urodzenia / śmierci w formacie YYYY-MM-DD
  • dla osób żyjących poprawny jest zapis (BBBB-), gdzie BBBB to rok / data urodzenia
  • można użyć dopowiedzenia, oznaczającego dziedzinę lub zawód, np. (rytownik), (górnictwo).

Hasła dla instytucji w polach TWÓRCA, WSPÓŁTWÓRCA oraz WYDAWCA wpisuj w zakładkę językową zgodną z ich językiem tak, aby całość była spójna, np. "Uniwersytet Wrocławski" w zakładkę PL, ale "Königliche Universität zu Breslau" w zakładkę DE.

Nie zaleca się umieszczania wartości z wymienionych pól w zakładce NIez. - one również biorą udział w tworzeniu klas kontekstowych do Europeany, dlatego niezbędne jest opatrzenie ich atrybutem językowym xml:lang.

[Więcej materiałów na ten temat wraz z przykładami będzie przygotowanych wkrótce.]


6. Mimo że lista relewantnych pól zawiera tylko część pól dostępnych w dLibrze, staraj się, aby tworzony opis także dla pozostałych zawierał prawidłowe oznaczenia języka, jeśli to możliwe. W ten sposób opisy tworzone w BCUWr i RUWr będą prezentować dobrą jakość i wysoki poziom, poszerzą się również możliwości wykorzystania tworzonych przez nas danych.


7. Do pól niezależnych od języka należą te, które przechowują liczby (daty), wszelkiego rodzaju identyfikatory (np. sygnatury, ISBN) oraz kody (np. kod języka dzieła). Dla niektórych pól nie da się jednak jednoznacznie określić, czy są zależne od języka czy nie, gdyż jest to związane z ich zawartością, np. ZAKRES CZASOWY w postaci “1891.01.01-1900.12.31” jest wartością niezależną od języka, natomiast “koniec XX w.” jest frazą wyrażoną w języku polskim i powinna być wpisana w zakładkę PL.


8. W razie wątpliwości dotyczących stosowania zakładek językowych skontaktuj się z administratorem merytorycznym BCUWr lub RUWr.

Wyjaśnienia

  1. Logoscript, Reguły dokumenty XML, 26 marca 2013 [dostęp 2021-09-07]
  2. M. Zieliński, Wstęp do standardów metadanych, 7 stycznia 2019 [dostęp 2021-09-07].
  3. Europeana Publishing Framework, [dostęp 2021-09-07].