Page tree
Skip to end of metadata
Go to start of metadata

3. Daten- und Metadatenformate in den Fachdisziplinen

In einigen geisteswissenschaftlichen Fachdisziplinen haben sich in den vergangenen Jahren fachspezifische nationale und international angewandte Standards herausgebildet, mit denen bestimmte Kategorien von Forschungsdaten, Forschungsobjekten oder auch Forschungsprozessen beschrieben werden können. Hierzu zählen beispielsweise die Archäologie und die Musikwissenschaft. Auch ist festzustellen, dass sich bei einer Vielzahl von Editionsprojekten – unabhängig von ihrer disziplinären Verortung – solche Standardisierungsprozesse herausgebildet haben. So sind hier an erster Stelle die Text Encoding Initiative (TEI) mit einem internationalen Spektrum oder auch das deutsche Projekt TextGrid zu nennen, die maßgeblich zu einheitlicheren Verfahren beitrugen. In anderen geisteswissenschaftlichen Disziplinen, so unter anderem der Geschichtswissenschaft und der Judaistik, die überwiegend text- und quellenorientiert arbeiten und eine Vielzahl höchst divergierender methodischer Zugriffe besitzen, lassen sich solche Entwicklungen für die Gesamtheit einer einzelnen Disziplin nicht feststellen. Dies hat verschiedene Gründe. Einerseits verwenden diese Disziplinen oftmals Quellen und Daten, die von Bibliotheken und Archiven bereits mit Metadaten erschlossen wurden, so dass eine spezifisch disziplinäre Entwicklung von Metadatenstandards obsolet erscheint, und andererseits lassen deren vielfältige textorientierte Forschungsfragen und die projektspezifischen Erkenntnisinteressen oftmals eine ausschließliche Erfassung in normierten Metadatenschemata nicht zu. Als weiterer Aspekt ist zu nennen, dass in der Vergangenheit von Seiten der Drittmittelgeber für ausschließlich inhaltlich orientierte und ausgerichtete Forschungsprojekte die Erfassung und Erschließung des verwendeten Quellenmaterials mit standardisierten Metadaten nicht explizit gefördert wurden. Aber auch hier sind in den letzten Jahren beispielsweise durch das Förderprogramm für wissenschaftliche Literaturversorgungs- und Informationssysteme (LIS) der Deutschen Forschungsgemeinschaft Empfehlungen entwickelt worden, die maßgeblich zu Standardisierungen und einer interdisziplinären Interoperabilität beigetragen haben. Trotz dieser Einschränkungen ist erkennbar, dass auch bei den zuletzt genannten Disziplinen eine stärkere Verwendung von Normdaten, wie beispielsweise des Thesaurus of Geographic Names (TGN) oder der Gemeinsamen Normdatei (GND), erkennbar ist und diese Entwicklungen auch auf Dauer unterstützt werden sollten.

Zur Notwendigkeit semantischer Auszeichnungen

Eine Maschine dürfte Schwierigkeiten haben, im folgenden Satz „Hans Hamburger genießt in Paris einen Berliner“ Ortsnamen von Personennamen und populären Speisen zu unterscheiden. Beißt Hans Hamburger in Paris/Frankreich oder in Paris/Texas in die Süßspeise? Hier könnte eine Spezifizierung über den Getty Thesaurus of Geographic Names für geographische Präzisierung sorgen. Gleiches gilt für Hans Hamburger, denn immerhin gibt es drei Personen dieses Namens mit je eigener ID in der Personennamendatei (PND)1 und diese gilt es dann zu spezifizieren. Und um auszuschließen, dass mit „Berliner“ Kennedys „Ik bin ein Berliner“ assoziiert wird, könnte durch Hinweis auf Kategorie 642 „Mahlzeiten und Tischkultur“ der Deweyschen Decimal Classification auf die Backware hingewiesen werden.

Eine einfache Suche bei Wikipedia kann ebenfalls die Unklarheiten bzw. Probleme veranschaulichen, die beim Text-Mining und dem Matching auf bestimmte Vokabulare entstehen – zum Beispiel bei der Erkennung von Homonymen; siehe dazu etwa die Begriffsklärung zu „London“ in der deutschsprachigen Wikipedia.

Interne und externe Verwaltung von Metadaten

Bevor im Folgenden einzelne disziplinspezifische Aspekte im Umgang mit der Erfassung von Metadaten aufgezeigt werden, sei hier noch auf zwei grundsätzliche Speicherungs- bzw. Verwaltungsmöglichkeiten von Metadaten hingewiesen:

1.) Metadaten können intern verwaltet werden, wenn sie im Kontext der regulären Daten einer Quelle mit erfasst werden. Ein separater Bereich innerhalb der Datei ist dabei den Metadaten vorbehalten – in der Regel der Kopfbereich (header) einer Datei. So verwendet beispielsweise der Musikcodierungsstandard MEI einen vom eigentlichen body (der hier den codierten Notentext enthält, vgl. die Bezeichnung music) abgesetzten Metadaten-Kopfbereich meiHead. Im folgenden Codebeispiel sind die durch entsprechende Angaben noch aufzufüllenden Unterrubriken dieses meiHead mit sichtbar, die sich an die fast identischen Strukturen von TEI anlehnen. 

<mei>
   <meiHead>
      <!-- intern verwaltete Angabe der Metadaten -->
      <altId/>
      <fileDesc/>
      <encodingDesc/>
      <workDesc/>
      <revisionDesc/>
   </meiHead>
   <music> <!--- Notentext --> </music>
</mei>

Verwaltung von Metadaten im MEI-Standard

2.) Bei der externen Verwaltung von Metadaten wird eine externe Datei mit Metadaten (hier: Ausschnitt der zugrundeliegenden METS/MODS-Datei für die Angabe der Metadaten) parallel zu der Datei (hier: Die eigentliche Quelldatei), die die eigentliche Quelle beschreibt bzw. enthält, angelegt.

Kaufmann, Fritz Mordechai: Die Einwanderung der Ostjuden, Berlin 1920; retrodigitalisierte Printpublikation des STI, angezeigt im DFG-Viewer

Um die Korrespondenz der beiden physikalisch voneinander getrennten Dateien sicher zu stellen, wird in der externen Metadatendatei ein URI angegeben, der auf die eigentliche Quelldatei verweist.

<mets:mets xsi:schemaLocation="http://www.loc.gov/mets/mets.xsd">
   <mets:dmdSec ID="md245233015823">
      <mets:mdWrap MIMETYPE="text/html" MDTYPE="MODS">
         <mets:xmlData>
            <mods version="3.0" xsi:schemaLocation="http://www.loc.gov/mods/v3
               http://www.loc.gov/standards/mods/v3/mods-3-0.xsd">
               <titleInfo>
                  <title>Die Einwanderung der Ostjuden</title>
               </titleInfo>
               <name type="personal">
                  <displayForm>Kaufmann, Fritz Mordechai</displayForm>
               </name>
               <originInfo>
                  <place>
                     <placeTerm type="text">Berlin</placeTerm>
                  </place>
                  <dateIssued>1920</dateIssued>
               </originInfo>
            </mods>
         </mets:xmlData>
      </mets:mdWrap>
   </mets:dmdSec>
   <mets:amdSec ID="amd245233015823">
      <mets:rightsMD IS="rights245233015823">
         <mets:mdWrap MIMETAPE="text/xml" MDTYPE="OTHER" OTHERMDTYPE="DVRIGHTS">
            <mets:xmlData>
               <dv:rights>
                  <dv:owner>Steinheim-Institut</dv:owner>
                  <dv:ownerLogo>http://www.steinheim-institut.org/ressourcen/test/steinheim-institut-logo.png</dv:ownerLogo>
                  <dv:ownerSiteURL>http://www.steinheim-institut.de</dv:ownerSiteURL>
               </dv:rights>
            </mets:xmlData>
         </mets:mdWrap>
 </mets:rightsMD>
 <mets:digiprovMD ID="digiprov245233015823">
 <mets:mdWrap MIMETYPE="text/xml" MDTYPE="OTHER" OTHERMDTYPE="DVLINKS">
 <mets:xmlData>
 <dv:links>
 <dv:reference/> 

Ausschnitt der zugrundeliegenden METS/MODS-Datei für die Angabe der Metadaten

 

In obigem Codebeispiel für die externe Angabe der Metadaten hat jede Seite des digitalisierten Buches einen eigenen URI, hier sichtbar im Element <mets:dmdSec ID="md245233015823">. Dieser URI verweist auf die eigentliche Quelldatei, in diesem Beispiel also auf einen Scan der Seite, die oben dargestellt ist. Das nachfolgende Codebeispiel zeigt diese eigentliche Quelle als Sourcecode, einen Scan im Format jpg in der Auflösung 600. 

<mets:fileGrp USE="MIN">
   <mets:file MIMETYPE="image/jpeg" ID="245233015823-00000_600">
      <mets:FLocat LOCTYPE="URL" xlink:href="http://www.steinheim-institut.org/ressourcen/test/245233015823/600/245233015823-00000_600.jpg"/>
   </mets:file>
   <mets:file MIMETYPE="image/jpeg"ID="245233015823-00001_600">
      <mets:FLocat LOCTYPE="URL" xlink:href="http://www.steinheim-institut.org/ressourcen/test/245233015823/600/245233015823-00001_600.jpg"/>
   </mets:file>
   <mets:file MIMETYPE="image/jpeg" ID="245233015823-00002_600">
     <mets:FLocat LOCTYPE="URL" xlink:href="http://www.steinheim-institut.org/ressourcen/test/245233015823/600/24533015823-00002_600.jpg"/>
   </mets:file>
</mets:fileGrp>      

Die eigentliche Quelldatei; Metadatenangabe erfolgt extern (siehe Codebeispiel "Ausschnitt der zugrundeliegenden METS/MODS-Datei für die Angabe der Metadaten")

Darüberhinaus ist auch die Verwaltung dieser beiden Dateien innerhalb eines Archivs möglich. Damit kann also auch die Entscheidung über die Speicherungs- bzw. Verwaltungsmöglichkeit von Metadaten die Auswahl eines Formates beeinflussen.

3.2 Archäologie


1 http://d-nb.info/gnd/116422556, http://d-nb.info/gnd/116422521http://d-nb.info/gnd/125041055.



  • No labels