Page tree
Skip to end of metadata
Go to start of metadata

4.7 Ereignisbeschreibung

Die Arbeit mit spezifischen Kategorien ist den meisten geisteswissenschaftlichen Disziplinen gemein. So haben beispielsweise personen- und/oder ereignisbezogene Informationen in vielen Forschungsprojekten einen hohen Stellenwert. Untersuchungen sozialer Strukturen, personaler Netzwerke, der Zusammensetzung von Korporationen usw. umfassen dabei u.a. sowohl die Identifizierung von einzelnen Personen, die Sammlung personenbezogener Informationen, die Darstellung von Relationen und Netzwerken als auch die Systematisierung/Klassifizierung von Personen.

Der Einsatz (geeigneter) Normdaten und kontrollierter Vokabulare birgt erhebliche Potentiale. Z.B. können in der prosopographischen Forschung mittels Personennamendateien einzelne Subjekte unabhängig von Namensvarianten eindeutig identifiziert sowie dauerhaft mit relevanten biographischen Informationen (Lebensdaten, Wirkungsorte, Berufe, soziale Rollen) verknüpft werden. Ebenso erlauben Normdaten die systematische Abbildung von Relationen zwischen Subjekten (Verwandtschaftsbeziehungen etc.). Komplementär dazu erlauben es kontrollierte Vokabulare, Personen systematisch und konsistent nach spezifischen forschungsrelevanten Merkmalen zu klassifizieren. Insbesondere in Kombination mit personenbezogenen Normdaten können so komplexe Zusammenhänge und Vergleichsperspektiven erschlossen werden: Korrelationen von Statusgruppe, Konfession, politischer Funktion können ebenso erfasst werden wie die Verortung Einzelner in Personen-, Berufs-, Patronage- und Familiennetzwerken.

 

Was sind kontrollierte Vokabulare?  – Einige Grundzüge

Kontrollierte Vokabulare sind Sammlungen von Wörtern und Bezeichnungen, die nach festgelegten Regeln bearbeitet wurden, um die Mehrdeutigkeiten der natürlichen Sprache zu reduzieren. Kontrolliert-strukturierte Vokabulare können zur terminologischen und zur begrifflichen Kontrolle in der Informationspraxis zu Indexierung und Retrieval genutzt werden. Als terminologische Kontrolle wird dabei die Möglichkeit genutzt, durch Sammlung von Wörtern, die nach festgelegten Regeln bearbeitet wurden, Mehrdeutigkeiten der natürlichen Sprache zu reduzieren. Als begriffliche Kontrolle kann der Aufbau von Relationen zwischen Begriffen verstanden werden. Kontrollierte Vokabulare ermöglichen dabei die inhaltliche Erschließung von Dokumenten durch

  1. eine konsistente Indexierung,
  2. verbesserte Wiederauffindbarkeit von Arten/Datafakten,
  3. Hilfe bei der Präzisierung der Recherche,
  4. Verständigung über die Inhalte einer (Wissens-)Domäne,
  5. Unterstützung der Interoperabilität von Datafakten/Artefakten und
  6. besseres Verständnis der Semantik von Daten.

Der Zweck von kontrolliert-strukturierten Vokabularen stellt damit maßgeblich die Organisation von Informationen dar. Durch den Prozess der Zuordnung von Bezeichnungen, Herstellen von Relationen durch die Vokabularien zur Beschreibung von Artefakten und anderen Formen von Datafakten, werden die Inhalte entsprechend der verschiedenen Elemente, die zur notwendigen wie hinreichenden Beschreibung und Bezeichnung ausgewählt worden sind, organisiert. Dies geschieht zum einen sowohl durch die terminologische, wie durch eine begriffliche Kontrolle. Dabei können kontrollierte Vokabulare nach Art und Grad ihrer Strukturierung typologisiert werden.

  • einfache Form ohne begriffliche Strukturierung (z.B. Liste äquivalenter Terme wie Synonymringe oder bevorzugter Terme wie Synonymlisten, Schlagwortlisten, Normdateien)
  • strukturierte kontrollierte Vokabulare (z.B. hierarchisch strukturierte Vokabulare wie Taxonomien, Klassifikationssysteme, Systematiken oder Thesauri).

Dabei lässt sich methodologisch-epistemologisch eine zunehmende Aussagekraft der Relationen von einer Wortliste hin zu Ontologien abbilden.

 

Terminologische Kontrolle

Die Notwendigkeit einer terminologischen Kontrolle wirft zunächst die Frage der Bezeichnung auf. Die natürliche Sprache ist oft mehrdeutig, da der sprachliche Ausdruck (Bezeichnung = sprachliches Zeichen, das einen Begriff repräsentiert) und das "Gemeinte" (Begriff = Vorstellung von abstrakten oder konkreten Gegenständen, die eine Bezeichung hervorruft und die durch die Zusammenfassung von Merkmalen der Bezugsobjekte definiert wird) nicht in einer eindeutigen Beziehung zueinander stehen. Aufgabe der terminologischen Kontrolle ist es, Begriff und Bezeichnungen eindeutig aufeinander zu beziehen. Durch die terminologische Kontrolle wird damit die Möglichkeit einer konsistenten Indexierung unterstützt und zugleich eine vollständige und präzise Menge von Suchergebnissen hervorgebracht werden. Durch die kontrollierten Vokabulare werden Bedeutungs- und Bezeichnungsvielfalt aufgelöst, welche durch Homonyme, Polyseme und Synonyme entstehen.

Homonyme und Polyseme ermöglichen eine Bezeichnung, die mehr als eine Bedeutung haben kann, wie z.B. der Begriff "Atlas". Ein kontrolliertes Vokabular bietet in diesem Fall die Möglichkeit durch Zusätze die Homonyme und Polyseme zu disambiguieren. Synonyme sind wiederum Begriffe, die mehr als eine Bezeichnung haben und somit durch verschiedene Wörter referenziert werden können. Ein kontrolliertes Vokabular bietet im Fall eines Synonyms die Möglichkeit, nach seiner Identifizierung diese in sog. Äquivalenzklassen zusammenzufassen. Vokabulare legen einen Term aus der Äquivalenzklasse für Indexierung und Retrieval als Vorzugsbenennung fest.

 

Begriffliche Kontrolle

Kontrollierte Vokabulare können verschiedene Grade der Strukturierung aufweisen. Neben einfachen Schlagwortlisten, die nur alphabetisch sortiert sind, gibt es die Möglichkeit höher aggregierte Begriffssysteme wie Taxonomien, Klassifikationen und Thesauri zu verwenden. Diese Begriffssysteme ermöglichen durch ihre Begriffsrelationen komplexere, netzartige Strukturen abzubilden. Durch die Schaffung von semantischen Relationen, werden die Begriffe in einen Kontext gestellt und dem Nutzer kann dadurch der Sucheinstieg erleichtert werden. Somit ist eines der primären Ziele eines kontrollierten Vokabulars zu gewährleisten, dass jedes distinkte Konzept auf eine linguistisch eindeutige Form referenziert. Diese Art von linguistischer Relation sollte kontrolliert bzw. strukturiert sein, so dass der Inhalt oder die Information, die dem Benutzer angeboten wird, nicht unter verschiedensten Zugängen und Perspektiven verteilt auf und in dem (Verweisungs-)system beruht, sondern an einem Ort zusammengeführt ist. Durch die begriffliche Kontrolle wird es möglich dem Begriff und der Bezeichnung nur eine Bedeutung zukommen zu lassen und das nur diese eine Bezeichnung das gegebene Konzept oder die Entität repräsentiert.

Während Wortlisten zunächst nur die terminologische Kontrolle einer Ambiguität erlauben, tritt bei Synonymringen die Synonymkontrolle ein. Hingegen tritt bei Taxonomien die Möglichkeit einer Hierarchierelation (Beziehung zwischen übergeordneten und untergeordneten Begriffen, wobei wiederum zwischen drei Typen unterschieden werden kann: a. Generische Relation als logische Abstraktionrelation: Der untergeordnete Begriff teilt alle Merkmale des übergeordneten Begriffes und besitzt darüber hinaus mindestens ein weiteres spezifizierendes Merkmal; b. Partitive Relation als Bestandsbeziehung: Es wird eine Beziehung zwischen einem Ganzen und seinen Teilen ausgedrückt; c. Instanzrelation: Eine hierarchische Beziehung zwischen einem Allgemeinbegriff und einer individuellen Ausprägung des Begriffs tritt zu der Ambiguitäts- und Synonymkontrolle hinzu. Thesauri bieten wiederum neben terminologischer und begrifflicher Kontrolle, sowie der Möglichkeit von Hierarchierelationen auch Äquivalenzrelationen (Beziehung zwischen den Synonymen einer Äquivalenzklasse und der Vorzugsbenennung, die den Begriff repräsentiert) und Assoziationrelationen (ist eine nichthierarchische Beziehung zwischen Begriffen, die einem thematischen Zusammenhang stehen), die in das System integriert werden können.

Kontrolliert-strukturierte Vokabulare können zunächst als inhaltsbeschreibende Metadaten dienen. Sie bieten aber auch die Möglichkeiten zur Sucherweiterung und für das mehrsprachige Retrieval. Dazu können Terme aus dem jeweiligen kontrollierten Vokabular zu kürzere, präzisieren und vollständigen Suchen führen. Dabei müssen Möglichkeiten für die Anfrageerweiterung oder –ersetzung bei der Datenarchitektur vorgesehen sein. Dies wiederum setzt voraus, dass Terme aus kontrollierten Vokabularen in der Anfrage hinzugefügt oder ersetzt werden können. Hierfür könnten Fuzzy Thesaurus Matching, Thesaurus Term Expansion, Search Term Recommender oder ein System des Relevance Feedback mit Deskriptoren genutzt werden. Schlussendlich dienen kontrolliert-strukturierte Vokabularien der eindeutigen Bezeichnung für jedes Konzept, als Organisationsschema für Inhalte einer Datenkollektion, und erschließt durch präzise inhaltliche Beschreibung Dokumente. Sie ermöglichen so die Vereinigung aller relevanten Dokumente und Daten für ein Konzept unter einer Bezeichnung. Dadurch wird mehr suchbarer Text erzeugt und der Zugang und Überblick über das Datenmaterial erleichtert.

Aufgrund dieser Beschreibung stellen sich aber folgende Fragen: Wie kann man kontrollierte Vokabulare und die hier skizzierten Sucherweiterungen benutzen, wenn viele Datenbanken und viele verschiedene Vokabulare als Ressourcen zur Verfügung stehen? Wie kann ein verlässliches Retrieval in institutionellen Datenbanken und spartenübergreifenden Kulturgutportalen gewährleistet werden, die schlussendlich auf einer Interoperabilität der kontrolliert-strukturierten Vokabularen aufsetzen muss. Auf diese Frage wurde mit der Schaffung eines neuen Standards geantwortet, der die skizzierten Felder zu integrieren versucht.

 

Standard ISO 25964

Durch ISO 25964 wurde ein Standard für zwei wichtige Teilbereiche von Information und Dokumentation, sowie ein neues Datenmodell1 entwickelt. ISO 25964 beschäftigt sich dabei mit Thesauri und der Interoperabilität mit anderen Vokabularien. Er ist in zwei Teilen erschienen:

         Teil 1: Thesauri for information retrieval [erschienen August 2011],

         Teil 2: Interoperability with other vocabularies [erschienen März 2013].

ISO 25964 integriert einige Funktionalitäten und Architekturen von vorherigen Standards, wie z.B.:

  • ISO 2788-1986 Guidelines for the establishment and development of monolingual thesauri = BS 5723:1987
  • ISO 5964-1985 Guidelines for the establishment and development of multilingual thesauri = BS 6723:1985
  • BS 8723 (veröffentlicht 2005-2008): Structured vocabularies for information retrieval – Guide

Part 1: Definitions, symbols and abbreviations

Part 2: Thesauri

Part 3: Vocabularies other than thesauri

Part 4: Interoperability between vocabularies

Part 5: Exchange formats and protocols for interoperability

 

Für die internationalen Standards ISO 2788 (monolinguale Thesauri, 1986) und ISO 5964 (multilinguale Thesauri, 1985) wurde ein Aktualisierungsbedarf festgestellt, besonders im Hinblick auf

  • Interoperabilität,
  • zwischen verschiedenen Vokabulartypen,
  • zwischen verschiedenen Repräsentationsformaten (SKOS, Zthes …).2

Die Arbeit an ISO 25964 nahm diesen Aktualisierungsbedarf auf und bezog den schon vorhandenen BS 8723 mit ein. ISO 25964-1 nimmt dabei Rekurs auf Teile 1,2 und 5, sowie 4 des BS 8723, ISO 25964-2 basiert auf Teilen von Teil 4 und 3. Dabei lassen sich einige Erweiterungen bei ISO 25964 gegenüber BS 8723 feststellen:

  • ausführlichere Darstellung der Facettenanalyse,
  • Änderungen bei der Begriffszerlegung,
  • erweiterte Empfehlungen zur Thesauruserstellung und Thesauruspflege,
  • Ergänzungen bei Anforderungen an Thesaurusmanagement-Software,
  • Entwicklung eines Datenmodells sowie
  • Anpassung an elektronische Umgebungen.

Dazu war es nötig, das Datenmodell des BS8723-5 zu überarbeiten und zu erweitern.

 

In Teil 2 des ISO 25964 wird folgendes Ziel angegeben:

“This part of ISO 25964 deals with thesauri and other types of vocabulary that are commonly used for information retrieval. It describes, compares and contrasts the elements and features of these vocabularies that are implicated when interoperability is needed. It gives recommendations for the establishment and maintenance of mappings between multiple thesauri, or between thesauri and other types of vocabularies.”

Er kann als Handreichung zum “mapping” zwischen Thesauri und anderen Vokabularien; nicht zwischen den Vokabularien unter sich verstanden werden. Er legt eine Terminologiearbeit nahe, die nicht als Erschließungsarbeit zu betrachten ist. Dabei ergibt sich ein wichtiger Unterschied zu BS 8723, da ausgewählte Vokabularien nur soweit beschrieben, wie es notwendig ist, um die speziellen Anforderungen an ein “mapping” mit einem Thesaurus erklären zu können.

ISO 25964-2 beschäftigt sich gerade mit Vokabulartypen, die dem “information retrieval” dienen. Im Fokus der Interoperabilität stehen 

a) allgemeine Aussagen zur Thesaurusföderation

  • Definitionen, Symbole
  • Strukturell verschiedene Modelle zur Erlangung von Interoperabilität zw. Vokabularien
  • Anweisungen zur Erstellung von „mappings“
  • Einfluss der Anwendung auf das „mapping“
  • Datenverwaltung, Darstellung (display), Funktionalität
  • Austauschformat

b) Darstellung von bestimmten Vokabularien unter dem Gesichtspunkt der Thesaurusföderation

  • Thesauri
  • Klassifikationen
  • Aktenpläne und Ordnungssysteme für die Schriftgutverwaltung
  • Taxonomien
  • Schlagwortlisten (subject heading schemes)
  • Ontologien, Topic Maps, Semantische Netze
  • Terminologiedatenbanken (Termbanken)
  • Normierte Namensverzeichnisse, Normdateien für Individualnamen (name authority lists)
  • Synonymringe

 

Durch den ISO 25964 wird deutlich, dass inhaltliche und sprachliche Überarbeitungen notwendig ist, um das Ziel der Norm zu erreichen. Dieses besteht zum einen in der Formulierung von Anweisungen für die Terminologiearbeit und zum anderen in der Erstellung und konsequenten Umsetzung von „mappings“ zwischen den Vokabularien. Unter „mapping“ wird hier der Prozess der Etablierung der Relationen zwischen den Konzepten zweier Vokabularien verstanden. Dabei kann herausgearbeitet werden, dass für die Herstellung der Interoperabilität die folgenden zwei Typen von Vokabularien zugrunde gelegt werden können:

a) Strukturgleichheit (structural unity):

  • Die Äquivalenz der Begriffe zweier oder mehrerer solcher Vokabularien wird durch die Position in der Vokabularstruktur ausgedrückt. Alle Begriffsrelationen entsprechen einander; die Bezeichnungen für die Begriffe können sogar automatisch miteinander zu Pärchen verbunden werden.

b) Strukturungleichheit (structural disunity):

  • Die Äquivalenz der Begriffe zweier oder mehrerer solcher Vokabularien hat mit der Position in der Struktur nichts zu tun. Die Begriffe müssen unabhängig von der Struktur auf einander bezogen werden. Das „mapping“ erzeugt sowohl richtige Äquivalenzpaare als auch viele Paare, bei denen der Begriffsumfang und der Begriffsinhalt nicht wirklich übereinstimmen.

 

Damit ergeben sich zwei Möglichkeiten des „mappings“ von Vokabularien:

1. Alle Begriffe der verschiedenen Vokabularien werden jeweils miteinander zu Pärchen gebündelt, wobei bei strukturgleichen Vokabularien nur echte Äquivalenzpaare werden, bei strukturungleichen Vokabularien hingegen echte Äquivalenzpaare und viele Paare, die nur sehr schlecht zusammenpassen, gematcht  werden.

2. Ein Vokabular dient als Drehscheibe („hub“); die Begriffe der verschiedenen Vokabularien werden jeweils nur mit den Begriffen dieses Vokabulars in Beziehung gesetzt. Gerade diese Möglichkeit erweist sich als effektiv, da es bei strukturungleichen Vokabularien zur Anwendung kommen kann, insbesondere wenn viele verschiedene Vokabularien miteinander verbunden werden sollen, oder wenn es ein Vokabular mit herausgehobenem Status gibt.

Das durch ISO 25964 entwickelte Datenmodell3 ermöglicht auch Anschlüsse an SKOS. Damit wird die Frage der Interoperabilität4 auch im Bereich des Semantic Web gewährleistet5

Durch die Möglichkeiten der Nutzung von SKOS durch ISO 25964 wird ein zunehmendes Desiderat geschlossen. SKOS erfreut sich dabei zunehmender Beliebtheit in Projekten der Digital Humanities. Der Standard bietet eine einfache und verständliche Methode zur Definition kontrollierter Vokabulare. Dennoch befindet sich die Entwicklung von Werkzeugen, welche die Arbeit mit kontrollierten Vokabularen in geisteswissenschaftlichen Projekten unterstützen, erst in der Anfangsphase. Viele Forschungsprojekte vermissen eine Anlaufstelle für das Auffinden oder den Austausch von geeigneten Vokabularen aus ihren Gegenstandsbereichen und Orientierung bei der Entwicklung eigener Vokabulare. Diese Möglichkeit sollte durch die weitere Implementierung weiter vorangetrieben werden.

6. Schlussfolgerungen


1 Vgl. Leonard Will, "The ISO25964 datamodel for the structure of an information retrieval thesaurus", http://www.willpowerinfo.co.uk/Will_ISKO2012_paper.doc.

2 Vgl. dazu Stella G. Dextre Clarke, Marcia Lei Zeng, "From ISO2788 to ISO25964: The evolution of thesaurus standards towards interoperability and data modeling", http://www.niso.org/publications/isq/2012/v24no1/clarke/.

3 Vgl. ebd.

4 Vgl. auch Stella G. Dextre Clarke, "ISO 25964: a standard in support of KOS interoperability", http://www.iskouk.org/conf2011/papers/dextreclarke.pdf.

5 Alistair Miles, S. Bechhofer (Hg.), SKOS Simple Knowledge Organization System Reference, (2009), [W3C Recommendation.], zugänglich über http://www.w3.org/TR/skos-reference.

  • No labels