Page tree

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

German

Inhalt

Table of Contents
maxLevel3
excludeInhalt

XML-Schema und ausführliche Dokumentation

https://github.com/DARIAH-DE/DCDDM

Einleitung

Das DARIAH Collection Description Data Model (DCDDM) ist, schlicht gesagt, ein Datenmodell für Sammlungsbeschreibungen. Es wurde in Zusammenarbeit mit der Herzog August Bibliothek Wolfenbüttel (HAB) entwickelt und basiert in seinen Grundzügen auf dem Dublin Core Collections Application Profile (DCCAP). Das Hauptziel bei der Erstellung des DCDDM lag in der Unterstützung von Institutionen und EinzelwissenschaftlerInnen bei der Erstellung von Beschreibungen von physikalischen (und/oder analogen) UND digitalen Sammlungen, die sowohl von Menschen als auch maschinell gelesen und interpretiert werden können.

Das DCDDM gibt eine feste Anzahl von Klassen, Elementen, Attributen und Werten an, die für die Beschreibung von Sammlungen verwendet werden können. Nach der Definition des Dublin Core ist eine Kollektion “eine Aggregation von Ressourcen“. Bei diesen Ressourcen kann es sich um digitale Objekte wie digitalisierte Gemälde, Bücher, Manuskripte sowie “born-digital objects” handeln wie bspw. Aufzeichnungen von Metadaten, Datenbankinhalte oder Transkripte, aber auch um physische Objekte (Gemälde, Bücher, Statuen, Briefmarken, Münzen usw.)

Es ist jedoch nicht immer leicht zu erkennen, was genau die Ressourcen einer Sammlung überhaupt sind. Nehmen wir zum Beispiel eine Sammlung von frühen gedruckten Büchern, deren Metadaten gesammelt und veröffentlicht werden durch einen Online Public Access Catalog (OPAC). Durch die Beschreibung dieses OPAC-Eintrags wird eine Sammlung von (physischen) Büchern oder die Sammlung der jeweiligen Metadaten (Autor, Erscheinungsjahr, Seitenzahl, Unterschrift etc.) definiert. Auf der einen Seite stehen die gemeinsamen Benutzer eines OPAC, die vor allem (wenn nicht sogar ausschließlich) an dem physischen Objekt interessiert sind. Sie würden vermutlich danach suchen, wann die Bücher veröffentlicht oder erstellt wurden und an dem Datum der Erstellung der Metadatensätze eher nicht interessiert sein. Entsprechend des Interesses des Nutzers werden bereitgestellte Informationen also anders wahrgenommen und genutzt. Die Frage stellt sich, wie der Zugang zu Informationen auf NutzerInnen zugeschnitten werden kann, ohne vorher zu wissen, wie Sammlungsbeschreibungen genutzt werden und für welchen Zweck. Eines der Hauptziele des DCDDM ist es, dieses Problem zu lösen, indem die Möglichkeit geboten wird, so viele (sinnvolle) Informationen wie möglich in einer Sammlungsbeschreibung anzugeben.

Eine weitere Herausforderung, die häufig schnell offensichtlich wird, ist das meist unklare oder nicht einheitliche Verständnis und der zugrunde liegenden Definitionen zu den Begriffen „Sammlung“ und „Sammlungsobjekt“ in den unterschiedlichen geistes- und kulturwissenschaftlichen Disziplinen. Darüber hinaus gibt es keine strikte Unterscheidung zwischen den Objekten der Sammlung (z. B. Bücher), den Metadaten der Objekten (z. B. Informationen über den Autor und den Titel) und den tatsächlichen Manifestationen dieser Informationen in Form von beispielsweise in der Datenbank gespeicherten Bit-Streams.

Ein beträchtlicher Aspekt der Bereitstellung solcher breit gefächerten Informationen ist, dass der Prozess der Erfassung aller relevanten Informationen sehr zeitaufwendig sein kann. Nach den aktuellen Anforderungen des DCDDM kann man eine gültige Beschreibung erstellen, indem man nur rudimentäre Informationen hinzufügt. Dies bedeutet aber auch, dass eine Sammlungsbeschreibung in ihrem Detaillierungsgrad stark variieren kann (siehe Kapitel User-Guides und Nutzungsempfehlungen). Ein wichtiger Aspekt bei der Nutzung der Collection Registry und der Beschreibung von Sammlunge ist in dieser Hinsicht auch die Bereitschaft der NutzerInnen, Ressourcen zu investieren, um eine Sammlungsbeschreibung, die originär beispielsweise im Rahmen eines Forschungsvorhabens erstellt wurde, um dezidierte Fragestellungen abzubilden, mit den notwendigen Informationen für das generisch nachnutzbare DCDDM Metadatenprofil zu erweitern. Natürlich hängt dabei die Granularität und die Anzahl der bereitgestellten Informationen auch von der Sammlung selbst ab, den sammelnden Einrichtungen sowie der Infrastruktur, die Einrichtungen und Wissenschaftler zur Verfügung stehen. Um Sammlungen tiefer zu erschließen, ist weiterhin ein gewisses Maß an Know-How in Sachen Metadatenmanagement von Vorteil.

Anforderungen und Ziele des DCDDM

  • Das Datenmodell ermöglicht Beschreibungen von digitalen und physischen Sammlungen.

  • Die Beschreibung enthält allgemeine beschreibende Informationen über den Inhalt der Sammlung oder die Sammlungsgegenstände, wie z. B.:

    • Themen, die von der Sammlung abgedeckt werden;

    • Standorte und Regionen, mit denen der Inhalt der Sammlung verbunden ist;

    • Datum und Zeiten mit denen die Sammlungsobjekte verknüpft sind.

  • Ermöglichen einer eindeutigen Identifizierung der beschriebenen Sammlung;

  • Kontextualisierung von Beziehungen bzw. Relationen

    • Zwischen Sammlungen selbst (eine Sammlung als Teil einer anderen)

    • Zwischen Sammlungen und Akteuren (Agents), die mit der Sammlung interagieren (wie Besitzer oder Kuratoren)

  • Sammlungsbeschreibungen auf der Grundlage der DCDDM fördern die Erkundung und Nutzung der beschriebenen Sammlungen und stellen vielfältige administrative Informationen zur Verfügung:

    • Wie man auf die Sammlung oder ihre Gegenstände zugreifen kann

    • Mögliche gesetzliche Einschränkungen hinsichtlich der Möglichkeiten, auf die Sammlung zuzugreifen und ihre Gegenstände zu nutzen.

  • Wenn Sammlungen online zugänglich gemacht werden, sorgt die Bereitstellung technischer Metadaten dafür, dass andere Dienste Zugriff auf die Objekte der Sammlung oder die Metadaten des Objekts erhalten

  • Um eine Mehrdeutigkeit zu vermeiden, fördert das DCDDM die Verwendung kontrollierter Vokabularien und Normdaten, eindeutiger Identifikatoren und Syntaxcodierungsschemata. Um die menschliche Lesbarkeit der Sammlungsbeschreibung zu gewährleisten, liefert das Datenmodell Bezeichnungs-Elemente.

    • Zur Erleichterung von Zuordnungen und Transformationen bereits bestehender Sammlungsbeschreibungen zu den auf Basis des DCDDM erfolgten Beschreibungen werden kontrollierte Vokabularien und Kodierungssysteme unterstützt (in vollem Bewusstsein der Nachteile einer solchen Politik)

  • Das DCDDM unterstützt mehrsprachige Beschreibungen, die flexibel und dennoch praktisch gestaltet werden können. Dies bedeutet, dass die beschreibende Person die Sprache für eine gegebene Information auswählen kann.

  • Das Datenmodell muss flexibel genug sein, um gut kuratierte Sammlungen in Museen, Bibliotheken, Archiven usw. zu beschreiben aber auch Material, das von einzelnen Forschern gesammelt wird. Um diesen Anforderungen gerecht zu werden, ist die Anzahl der obligatorischen Elemente so niedrig wie möglich gehalten.

  • Um eine hohe und weit verbreitete Akzeptanz zu erreichen, ermöglicht das Datenmodell zumindest eine einfach auszugebende, zu lesende und zu verstehende Serialisierung (wie eine csv-Tabelle).

  • Um die Interoperabilität zu erleichtern und die semantische Nähe zu bekannten und weitgehend verwendeten Metadatenaufzeichnungen (z. B. Dublin Core) zu vermitteln, werden die Namen und Definitionen vieler Klassen, Elemente und Attribute von etablierten Standards übernomme. Um jegliche (technischen) Abhängigkeiten zu vermeiden, werden diese Namen, Definitionen und Spezifikationen nicht nur durch einfaches Angeben von Zitaten oder Links zu den referenzierten Elementen referenziert, sondern auch im DCDDM angegeben.

English

Table of Contents

Table of Contents
maxLevel3
excludeTable of Contents

XML

Schema

schema and more documentation

https://github.com/DARIAH-DE/DCDDM

Introduction and design principles

The DARIAH Collection Description Data Model (DCDDM) specifies a fixed number of classes, elements, attributes, and values used for describing collections. Following the definition of the Dublin Core a collection is “an aggregation of resources”, which can be digital objects like digitized paintings, books, manuscripts, as well as “born-digital” objects like records of metadata, database-entries, or transcripts) or physical ones (paintings, books, statues, stamps, coins, etc.).

It is, however, not always so simple to identify what precisely the collection's resources are. Let´s take for instance a collection of early printed books where books' metadata are collected and made public by an “Online Public Access Catalogue” (OPAC). By describing this OPAC am I describing a collection of (physical) books or the collection of respective metadata (author, year of publication, number of pages, signature, …)? On the one hand we have the common user of an OPAC interested mainly, if not exclusively, in the physical object. He would search for the dates when the books were published (created) rather than look up the date of creation of the metadata records. On the other hand other users might want to harvest the books' metadata and would require therefore access to information about the metadata (for example the date when the metadata records have been created). So the interest of the users who are targeted by the OPAC influences the information the collection's description contains.

But how can we tailor the user's access without knowing who is going to use our collection description and for which purposes? One of the main goals of the DCDDM is to address this issue by providing ways to pack as much information into one collection description as possible and reasonable.

One of the challenges one encounters almost immediately is the most often unclear or not uniform understanding of the term 'collection' and collection’s items. Furthermore there is no strict differentiation between the collection's items (e.g. books), the item's metadata (e.g. the information about the author and title) and the actual manifestations of these information in form of, for instance, bitstreams saved in database. Another considerable aspect of providing such a broad range information is that the process of gathering all the relevant information can be very time consuming. Following the DCDDM requirements one can create a valid description by adding only a handful of basic information. This means, for example, that a given collection can have descriptions which vary strongly in their level of detail. A major factor in this respect is the descriptor's vision about the description and his or her willingness to invest time and effort to transform a valid but very basic collection description into a top notch collection description.

On the other hand, the level of detail or number of providable information depends also on the collection itself, the collection´s items and the infrastructure which maintains the collection. Institutions, which have at its disposal sufficient personnel and funds, have better resources to describe in detail their collections, than would an independent scholar with his or her collection of notes made while writing a small article.

Info
To ease the workload of describing collections the DCDDM is meant to be used as a data model for applications dealing with the creation, publication and administration of collection descriptions. Likewise the DCDDM should provide sufficient guidelines to create collection descriptions independent of any tool or applications and their unforeseeable lifetime.

Given the broad definition of collection and the consequently many possible varieties of collections, the DCDDM has to achieve the following objectives:

  1. The data model should allow descriptions of digital AND physical collections.
  2. The description should offer general descriptive information concerning the content of the collection or the collection's items, such as:
    1. topics/subjects which are covered by the collection;
    2. locations and regions the content of the collection could be associated with;
    3. dates and periods the collection may be related to.
  3. The data model should allow for an unambiguous identification of the described collection.
  4. The data model should allow to contextualize a collection and mark relationships:
    1. between collections (one collection being part of another collection);
    2. between collections and agents who interact with the collection (such as owners or curators);
  5. Collection descriptions based on the DCDDM should encourage the exploration and usage of the described collections. Therefore the description should provide administrative information about:
    1. how to access the collection or its items;
    2. possible legal restrictions concerning the possibilities to access the collection and to (re)use its items.
  6. If collections are made accessible online, technical metadata should be provided so that other services may gain access to the collection’s objects or the object’s metadata.
  7. To avoid ambiguity the data model encourages the use of controlled vocabulary and normative data, unique identifiers, and syntax encoding schemes. To ensure human readability of the collection description the data model provides label-elements.
    1. To facilitate mappings and transformations of already existing collection descriptions to collection descriptions based on the DCDDM, DCDDM supports several controlled vocabularies and encoding schemes (in fully awareness of the downsides of such a policy).
  8. The data model should enable multilingual descriptions in a flexible but still practical way. This means that the describing person can choose the language for a given information. To achieve this requirement, the elements providing information in form of natural language and free text may be reused in as many languages as wished.
  9. The data model has to be flexible enough to describe well curated collections held in museums, libraries, archives, etc. as well as material collected by individual researcher stored on personal hard drives. To archive this requirement the number of mandatory elements is kept as low as possible.
  10. To achieve a high and widespread acceptance the data model should allow at least one easy to produce, read and understand serialization (like a csv-table) or a hierarchically as flat as possible (such as an XML-file, validated by a matching XML-Schema).
  11. To ease interoperability and to reveal semantic closeness to well-known and extensively used metadata records (e.g. Dublin Core) the names and definitions of many classes, elements and attributes should be taken from well-established ones. Nonetheless to avoid any (technical) dependencies these names, definitions and specification will not be just referenced by simply providing quotes or links to the referenced elements, but will also be written down in this document.
  12. The DCDDM wishes to be an easy to use, but nevertheless functional and therefore widely accepted data model for collection descriptions. To archive this goal it has to be extensively tested an evaluated 'in the wild'. At the moment of writing this specification, the DCDDM is mainly the result of a more theoretical discussion. This means that the model described in the paper has to be understood as an invitation to the interested community to use it, test it but most and for all criticize it.