Zur DARIAH-DE Website

Inhalt

Grundsätzliches

Dieses Seite soll als Empfehlung für interessierte GeisteswissenschaftlerInnen gelten. 

 Um Kollegen und kommenden Generationen die Beschäftigung mit Ihrer Forschung zu erleichtern, gelten folgende Grundsätze

Wir bieten hier eine Übersicht für empfohlene Dateiformate, Metadatenstandards, Lizenzen und Software zur Verwendung in den Geisteswissenschaften und Empfehlungen zu deren langfristigen Erhaltung und Bereitstellung – ohne Anspruch auf Vollständigkeit.

Eines der wichtigsten Kriterien bei der Wahl eines Dateiformats für die eigene Forschung sollte neben der fachlichen Eignung deren Nachnutzbarkeit und Archivierbarkeit sein. Nicht immer handelt es sich bei beiden um das Gleiche: So stellt die Archivierbarkeit an ein Dateiformat andere Kriterien (gut dokumentierterter, offener Formatstandard, hohe Akzeptanz, viele Metadaten) als deren Nachnutzbarkeit (v.a. Akzeptanz und Verbreitungsgrad der verarbeitenden Software in der Community, Editierbarkeit der Inhalte).

Sollte es sich bei den desiderierten Forschungsdaten um solche handeln, welche die Digitalisierung noch vor sich haben, ist unbedingt folgende Empfehlung der DFG zu beachten: http://www.dfg.de/formulare/12_151/12_151_de.pdf

Ein Kriterienkatalog zur besonderen Eignung von Dateiformaten zur Langzeitarchivierung findet sich zum Beispiel bei der Library of Congress: http://www.digitalpreservation.gov/formats/sustain/sustain.shtml. Demzufolge gelten folgende Kriterien als besonders relevant für die Langzeitarchivierung:

Dateiformate für Langzeitarchivierung UND Nachnutzung

Kriterien für die Langzeitarchvierbarkeit

Kriterien für die Nachnutzbarkeit

Die folgende Liste sollte als Ergänzung und Korrektiv zur obigen Liste von Auswahlkriterien zur Langzeitarchivierbarkeit von Dateiformaten bewertet werden und erhebt keinen Anspruch auf Vollständigkeit

Die folgende Liste von empfohlenen Dateiformaten ist der Versuch eines Brückenschlags zwischen beiden Verwendungszwecken:

Die folgende Liste von Dateiformaten richtet sich insbesondere an Geisteswissenschaftler und enthält eine Reihe von Dateiformaten, die als für beide Zwecke (Langzeitarchivierbarkeit und Nachnutzung) geeignet gelten können. Für weitere Dateiformate und zum eigenen Nachschlagen empfiehlt sich insbesondere dieser von der Library of Congress zur Verfügung gestellte Service: http://www.digitalpreservation.gov/formats/fdd/browse_list.shtml. Ein Dateiformat, welches dort nicht gefunden wird, ist mit Vorsicht zu genießen oder aber so hoch fachspezifisch, dass es über Communitygrenzen hinaus nicht bekannt sein dürfte und entsprechend wenig unterstützt sein wird.

Empfohlene Dateiformate

MedientypFormatEmpfohlen weil
BildTIFF baselineGute Akzeptanz, gute Publikationstiefe, keine Patenteinschränkung oder technische Schutzmechanismen. Der Begriff Baseline bezieht sich darauf, dass hier eine Untermenge von formatspezifischen Eigenschaften definiert ist, die von allen Computerprogrammen unterstützt werden müssen, damit diese eine TIFF-Datei lesen können.
BildPNGGute Akzeptanz, gute Publikationstiefe, keine Patenteinschränkung, weite Verbreitung. Im PNG Standard werden die Daten komprimiert (wenn auch lossless), was zu einer kleineren Dateigröße (optimal zu Webanzeige) aber auch zu einer Gefährdung in der Langzeitarchivierung führen kann, da im Falle von Kopierfehlern ganze Codezeilen nicht mehr gelesen werden könn(t)en und die resultierende Bilddatei somit nicht mehr dargestellt werden kann.
VektorgrafikSVGGute Publikationstiefe, keine Patenteinschränkung oder technische Schutzmechanismen, breite Akzeptanz, hohe Transparenz. Ist XML basiert und lässt sich somit auch gut konvertieren.
Text (statisch)PDF/AGute Akzeptanz für den Zweck der Langzeitarchivierung, wurde eigens zur verbesserten Archivierbarkeit von PDF-Dokumenten erschaffen, sehr gute Publikationstiefe. Wird für den Zweck der Nachnutzung von Textdokumenten nicht empfohlen, wenn man nicht allein am "Druckbild" (digitale Inkunabel) Interesse hat. Das Gleiche gilt für die Archivierung von Strukturen (Fußnoten, Register, Paginierungen etc.). Als layoutbasiertes Format erlaubt es keine eindeutig definierte Umwandlung in XML oder flexible Visualisierungen oder Textaufbereitung; umgekehrt kann PDF oft leicht aus XML Formaten generiert werden.
TextASCII (TXT)Sehr gute Akzeptanz von allen Betriebssystemen und den meisten Textprogrammen. Bietet allerdings keine Seitenbeschreibung oder Strukturauszeichnung von Text, ist also nicht mit Office oder DTP Dateien vergleichbar.
TextRTF (RichTextFormat)Gilt im Gegensatz zu Word-Dokumenten (Doc, Docx), als vollständig strukturiert, ist transparent und von viel Konvertierungssoftware interpretierbar (z.B. als Zwischenformat bei freier ePub-Konvertierungssoftware). Auch ermöglicht es die bessere Nachnutzbarkeit eines Inhalts verglichen mit Word. Der Verbreitungsgrad des Formats nimmt allerdings in der Tendenz ab.
Text / CodeXMLSehr verbreitet unter Geisteswissenschaftlern. Ist vollständig strukturiert. Die Transparenz von XML ist mittelmäßig, d.h. zwar von Menschen lesbar, aber die Wohlgeformtheit und Validität eines XML Dokuments lässt sich besser maschinell prüfen. XML lässt sich recht gut in andere visuelle Präsentationsformate überführen (PDF, HTML), allerdings NUR, wenn die Wohlgeformt und Validität gegeben sind! Daher ist hierauf und diesbezüglich auch auf die Konformität mit einem bekannten und verbreiteten Profil / Schema besoders zu achten.
Text (Office)ODTDas beste Format aus der Familie der Office-Formate. ODT ist ein offener Standard mit hoher Transparenz. Sehr geeignet um die Nachnutzung der eigenen Inhalte zu fördern. Nur bedingt geeignet zur Langzeitarchivierung, da es häufig von gänger Identifizierungs-Software / Extraktionssoftware nicht erkannt wird.
Text (Publikation plus Formeln)TeXSehr gute Dokumentation, offener Standard, Verbreitungsgrad in manchen Disziplinen hoch (nicht unbedingt in den Geisteswissenschaften). Die Akzeptanz durch Software ist leider nicht groß, da es sich bei TeX Dokumenten selbst um Code handelt, welcher je nach LaTex Prozessor unterschiedlich interpretiert werden kann (Vgl. http://apsr.anu.edu.au/publications/LaTeX-preservation.pdf).
Spreadsheet / TabellenCSVComma Separated Values ist ein weit verbreitetes und offenes Austauschformat für tabellarische Inhalte. Es kann von den meisten Tabellenkalkulationsprogrammen sowohl gelesen als auch geschrieben werden. Allerdings eignet sich CSV weder zur Darstellung gestalterischer Eigenschaften (Farben, Fonts, etc) noch zur Darstellung komplexer tabellekalkulatorischen Formeln o.ä.
VideoMXF (Material Exchange Format)Von der Library of Congress explizit empfohlener Dateiformatstandard zur Aufnahme von Audio- und Videostreams. Auch wenn das Format auch jedwede Art von weiteren Bitstreams aufnehmen kann, sollte es – laut Experten – als das digitale Equivalent zur Videokassette gesehen werden (Zitiert nach LOC). Es handelt sich um einen offenen, gut dokumentierten und gut archivierbaren Standard.
AudioWAV, AIFF

Sowohl AIFF als auch WAV sind sogenannte Pulse-Code-Modulation Verfahren zur Codierung von Audiosignalen. Mithilfe solcher Verfahren werden klassischerweise analoge Audiodokumente digitalisiert.

Die daraus resultierenden Dateiformate gelten aber auch als sehr handhabbare und gut dokumentierte Formatstandards zur Speicherung von Audiodaten. WAV wurde von einer Kooperation von IBM und Microsoft entwickelt. AIFF ist das Pendant von Apple. Beide gelten als zwar proprietär aber sehr weit verbreitet und gut dokumentiert. Auch werden beide Standards durch Drittanbieter Software unterstützt.

NotenMusic XMLXML-basierter Standard zur Codierung und Bearbeitung von musikalischen Noten. Es handelt sich um einen offenen, weit verbreiteten Standard der von vielen Programmen aus der Branche unterstützt wird.
DatenbankenSQL DumpRelationale Datenbanken im Web werden in der Regel in einer Datenbanksprache, MySQL oder PGSQL o.ä. abgelegt. Mithilfe eines "Dumps" können Auszüge oder der vollständige Inhalt einer Datenbank als Textdatei exportiert werden – was als erste ad-hoc Lösung zur Archivierung allemal Sinn macht. Ein solcher Dump als Datei gehorcht – je nach Datenbanksprache – einer unterschiedlichen Syntax und ist nicht notwendigerweise vollständig dokumentiert. Der große Vorteil eines solchen Exports liegt aber in der menschlichen Lesbarkeits (Transparenz) des Inhalts und darin, dass das Ergebnis auch in jedem Texteditor Informationen preisgibt. Auch lassen sich vollständige SQL Dumps in den gängigsten DB Sprachen gut als Datenbanken importieren.
DatenbankenSIARDSIARD ist ein auf XML basierendes Dateiformat, welches vom Schweizerischen Bundesarchiv offiziell zur Langzeitarchivierung entwickelt wurde und zusammen mit einem Softwarepaket – der SIARD-Suite – kostenlos genutzt werden kann. Es erlaubt sowohl den Im- als auch Export in verschiedene Datenbankformate und gehorcht ausschließlich offenen Standards.
3D-DatenX3D, VRML

X3D ist ein auf XML basierendes 3D Format, welches von den meisten aktuellen Browsern unterstützt wird. X3D ist offen und Bestandteil von MPEG4.

VRML gilt als generischeres 3D Dateiformat mit offener Spezifikation, welches von einer Vielzahl von 3D Software interpretiert werden kann und zusätzlich webkompatibel ist.

Softwareals Quellcode (unkompiliert), & Dependency Information

Das Feld der Archivierung und Nachnutzung von Software ist relativ gering erforscht. Auch die Library of Congress kann bisher auf keine Empfehlungen verweisen.

Grundsätzlich empfiehlt es sich im Falle von selbst geschriebener Software, diese zusammen mit allen technologischen Abhängigkeiten zu dokumentieren und den Code zusammen mit einem möglichst generischen Compilat (d.h. als ausführbares Programm möglichst Betriebssystem-unabhängig) abzulegen. Letzteres ist leider häufig nur allzu stark von der verwendeten Technologie und Sprache abhängig und daher nicht einfach umzusetzen.

Quellen u.a.: 

Metadatenstandards

Kriterien für die Eignung von Metadatenstandards

Analog zu den Kriterien für die Langzeitarchivierungsfähigkeit und Nachnutzbarkeit von Dateiformaten soll hier eine Liste von Kriterien zur Nutzbarkeit von Metadatenstandards erfolgen. Grundsätzlich gelten dabei ähnliche Kriterien: Sowohl die Verbreitung eines Standards als auch der Grad der Spezifikation / Dokumentation sind ausschlaggebende Faktoren.

Die folgende Liste enthält alle Überlegungen, welche bei der Wahl eines Metadatenstandards eine Rolle spielen sollen:

Bei den folgenden Standards handelt es sich zum einen um Standards des kulturelles Erbes (Lido, Mets, EAD) (Dazu bspw: http://www.langzeitarchivierung.de/Subsites/nestor/DE/Standardisierung/Metadaten.html) zum zweiten sind dies aber auch Fachspezifische Empfehlungen für Daten und Metadaten

Die folgenden Listen geben beobachtete Metadatenstandards sowohl der einzelnen Fachdisziplinen als auch allgemeiner der Gedächnisinstitutionen wieder.

Administrative, deskriptive Metadatenstandards

Die folgende Tabelle führt die gängigsten in Bibliotheken / Archiven / Museen verbreiteten Metdadatenstandards auf

HerkunftBezeichnungLink zur Spezifikation / zum Schema
Alle + WWWDublinCore (DC)http://dublincore.org/schemas/
MuseenLIDOhttp://www.lido-schema.org/schema/v1.0/lido-v1.0-schema-listing.html
Museen, Kunstegeschichte, ArchäologieCIDOC CRMhttp://www.cidoc-crm.org/rdfs/cidoc_crm_v5.0.4_official_release.rdfs
Institutionen des kulturellen Erbes -> Mapping zu Europeana(Archäologie)CARAREhttp://www.carare.eu/swe/Media/Files/CARARE-V2.0.1-XSD
AlleEDMEDM ist das Datenmodell der Europeana, welches unterschiedliche Metadatenschemata kombiniert und anreichert, so dass eine Objekt- und Eventbasiertes Perspektive zu Objekten des kulturellen Erbes abgebildet werden kann. http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_requirements/EDM_Documentation/EDM_Primer_130714.pdf

Bibliotheken

METS / MODS

METS: http://www.loc.gov/standards/mets/mets.xsd

MODS: http://www.loc.gov/standards/mods/v3/mods-3-5.xsd

ArchiveEADhttp://www.loc.gov/ead/ead.xsd
MuseenFRBRhttp://vocab.org/frbr/core.html
Kennzeichnung von Provinienz, LangzeitarchivierungPREMIShttp://www.loc.gov/standards/premis/schemas.html
Kennzeichnung von ProvinienzW3C Provhttp://www.w3.org/TR/prov-overview/
Bilder (Technische Bildeigenschaften, Scans)NISOhttp://www.niso.org/schemas/iso25964/iso25964-1_v1.4.xsd

Fachwissenschaftliche Metadatenstandards (Content)

Objekt- und Medientyp
Disziplin
Standard
Spezifikation/Schema
Text - NotenMusikwissenschaftMEI http://music-encoding.org/documentation/guidelines2013
Text - HandschriftenKodikologieManuscriptum XML (MXML)http://www.manuscripta-mediaevalia.de/hs/handbuch.pdf
Text - ChartersGeschichtswissenschaftCEI (inkl. TEI-P4) 
TextEditionswissenschaft, Judaistik, Geschichtswissenschaften, Papyrologie, EpigraphikTEI-P5http://www.tei-c.org/release/doc/tei-p5-doc/de/html/
ObjektverzeichnisArchäologie, KunstgeschichteMIDAShttp://www.heritage-standards.org.uk/midas/docs/
Objekte - GrabungenArchäologieArchaeoML 
Flächen, geographische DatenArchäologieADexhttp://www.landesarchaeologen.de/fileadmin/Dokumente/Dokumente_Kommissionen/Dokumente_Archaeologie-Informationssysteme/Dokumente_AIS_ADeX/ADeX_2-0_Doku.pdf
Audio, MulitmediaMusikwissenschaft, MultimediaMPEG-7http://mpeg.chiariglione.org/standards/mpeg-7
UmfragedatenSozialwissenschaften, empirische ForschungDDIhttp://www.ddialliance.org/Specification/
Kontrollierte VokabulareAlleXMLGetty-Thesaurus, Personennamendatei, FoF, etc


 Tools und Verfahren für die digitalen Geisteswissenschaften

Übersicht über eine Liste von Kriterien für geeignete DH-Software

Anmerkung zu Tools und Verfahren: Die Diskussion beim ersten Arbeitstreffen des Stakeholdergremium Fachgesellschaften hat ergeben, dass es eine Differenz zwischen theoretisch angestrebten Faktoren wie Datenaustauschbarkeit, Standardisierung, Langzeitarchivierung und Publikation und praktisch angewendeten Tools und Verfahren gibt. In der praktischen Arbeit werden oben genannte Faktoren eher als einengend wahrgenommen und verwendet werden Tools, die greifbar sind oder deren Bedienung bereits bekannt und erprobt ist. Unten stehende Liste versucht also eher Tools anzuführen, die in der DH Community tatsächlich genutzt werden als Tools, die aufgrund der Umsetzung angestrebter Faktoren vielleicht eher genutzt werden sollten.

DisziplinVerfahrenBeobachtetes ToolEmpfohlenes Tool

Editionswissenschaften, Geschichtswissenschaften, Kunstwissenschaften

Transkribierungstools

Transkribus (beta) 
EditionswissenschaftenErstellen von Editionen und Vergleichen von TextversionenCollateX, TextGrid 
HandschriftenforschungErstellen von Editionen und Digitalisierung von Manuskripten sowie Analyse digitaler HandschriftensammlungeneCodicology, DigiPal, 
AlleXML Editoren (zur Erzeugung inhaltlicher und struktureller Metadaten)Oxygen, XMLSpyOxygen, XMLSpy
Sprachwissenschaften, Literaturwissenschaften, Editionswissenschaften, GeschichtswissenschaftenAnnotationstools (welche konkret TEI oder Open Annotation als Austauschformat implementieren und validieren)Annotation Studio, CATMA, AnnotatorJS 
Kunstwissenschaften, Geschichtswissenschaftenvisuelle Annotation von BilddatenHyper Image, 
MusikwissenschaftenAnnotation & Analyse von MusikdatenMEISE, Augmented Notes, Sonic Visualizer 
AlleBildanzeige und -verarbeitungsmöglichkeiten123D Catch, GIMP, Pixlr, PhotoshopGIMP
Geographie, Geschichte, Kulturwissenschaften, Literaturwissenschaftengeospatiale Darstellung und Verarbeitung von DatenGeo-Browser, CartoDB, StoryMapJS, Google Earth, Google Maps http://leafletjs.com/ und http://www.openstreetmap.org/about 
Linguistik, Literaturwissenschaften, Geschichtestatistische Verfahren Text (Frequenzanalysen, Corpusvergleichende Analysen, Kollokationsanalysen)Stylo für R, R, Textal, Textplot, TXM, Voyant Tools, Word2Vec, Textmechanic, Textometrica, Juxta Commons, 
Bildwissenschaften, Kulturwissenschaften, Medienwissenschaftenstatistische Verfahren BildImage Plot 
Musikwissenschaftenstatistische Verfahren Audio  
LinguistikLemmatisierung  
LinguistikPoS-TaggingCLAWS, Stanford Parser 
Linguistiklogikbasierte Analysen  
LinguistikSpracherkennung  
Linguistik, LiteraturwissenschaftenNERStanford NER, NEX, 
 Visualisierung solcher Verfahren und DatenVisualizing Variation, ManyEyes, RAW, R, Tableau, yEd 
LiteraturwissenschaftenTopic ModellingMallet, Topic Modelling Tool, In-Browser Topic Modelling, DFR-Browser, FACTORIE 
Literaturwissenschaften, Medienwissenschaften, Kulturwissenschaften, GeschichteNetzwerkanalyse und -visualisierungGephi, Jigsaw, Netlytic, UCINet, Mallet-to-Gephi 
Film-, Medien- und KulturwissenschaftenFilm AnaylseCinemetric, ClipNotes, Image Plot 
 Verwendung externer Wissensbasen, also Ontologien und Taxonomien, die mit den entsprechenden Sprachen (RDF, RDF(S), OWL) in maschinenlesbarer Form vorliegen  

Quellen: http://dhresourcesforprojectbuilding.pbworks.com/w/page/69244319/Digital%20Humanities%20Tools

http://lab.softwarestudies.com/p/software-for-digital-humanities.html

http://www.digipal.eu/digipal/page/718/


Empfohlene Lizenzen

Die folgende Liste stellt eine (unvollständige) Übersicht über weit verbreitete und empfohlene Lizenzen im Bereich des Open Access dar.

Die Lizensierung unterschiedlicher Arten von Inhalt unterliegt häufig unterschiedlichen Bestimmungen, weswegen die lizenzdefinierenden Organisationen darauf Rücksicht genommen haben und entsprechend Lizenzen für unterschiedliche Inhaltstypen publiziert haben:

Man unterscheidet gemeinhin zwischen Lizenzen für Content (Texte, Musikstücke, Videos) und Code (Software, Softwarebibliotheken, Standards) und sogar Lizenzen für Dokumentation und weitere Inhaltstypen (Lehrmaterialien, Fonts...) s.u.

Lizenzen für Content

Für die Publikation von Inhalten sind die Lizenzen der Creative Commons weit verbreitet und werden auch von DARIAH-DE empfohlen, weil

HINWEIS: Ein interessanter Artikel, der beschreibt, warum die Verwendung von CC-BY-NC (Creative Commons mit nicht kommerzieller Nutzung) mit Vorsicht zu verwenden ist, findet sich hier: http://irights.info/artikel/cc-lizenz-kommerziell-nein-danke/7193

LizenzorganisationVersion, Art
CC unportedAttribution v1.0(CC BY)
 Attribution Share Alike v1.0(CC BY-SA)
 Attribution No Derivatives v1.0(CC BY-ND)
 Attribution Non-Commercial v1.0(CC BY-NC)
 Attribution Non-Commercial Share Alike v1.0(CC BY-NC-SA)
 Attribution Non-Commercial No Derivatives v1.0(CC BY-NC-ND)
 Attribution v2.0(CC BY)
 Attribution Share Alike v2.0(CC BY-SA)
 Attribution No Derivatives v2.0(CC BY-ND)
 Attribution Non-Commercial v2.0(CC BY-NC)
 Attribution Non-Commercial Share Alike v2.0(CC BY-NC-SA)
 Attribution Non-Commercial No Derivatives v2.0(CC BY-NC-ND)
 Attribution v2.5(CC BY)
 Attribution Share Alike v2.5(CC BY-SA)
 Attribution No Derivatives v2.5(CC BY-ND)
 Attribution Non-Commercial v2.5(CC BY-NC)
 Attribution Non-Commercial Share Alike v2.5(CC BY-NC-SA)
 Attribution Non-Commercial No Derivatives v2.5(CC BY-NC-ND)
 Attribution v3.0(CC BY)
 Attribution Share Alike v3.0(CC BY-SA)
 Attribution No Derivatives v3.0(CC BY-ND)
 Attribution Non-Commercial v3.0(CC BY-NC)
 Attribution Non-Commercial Share Alike v3.0(CC BY-NC-SA)
 Attribution Non-Commercial No Derivatives v3.0(CC BY-NC-ND)
GNU Design Science LicenceDesign Science Licence (DSL)
EuropeanaEuropeana: Rights Reserved - Free Access
Free Art LicenseFree Art License 1.3 (FAL 1.3)
 Free Art License 1.3 (FAL 1.2)
Open Data CommonsOpen Data Commons Attribution Licence v1.0(ODC-By)
 Open Data Commons Open Database Licence v1.0(ODC-ODbL)
 Open Data Commons Database Contents Licence v1.0(ODC-DbCL)
Open Government Licence (UK)Open Government Licence for public sector information
 Non-Commercial Government Licence
Public DomainCC0
 CC Public Domain Mark
 Open Data Commons Public Domain Dedication and Licence (PDDL)
 ODC Attribution-Sharealike Community Norms

Lizenzen für Code

Vgl: http://opensource.org/licenses/category

Populäre Lizenzen, die weit verbreitet sind oder von starken Communities unterstützt werden
Apache License, 2.0 (Apache-2.0)
BSD 2-Clause "Simplified" or "FreeBSD" license (BSD-2-Clause)
BSD 3-Clause "New" or "Revised" license (BSD-3-Clause)
GNU General Public License (GPL)
GNU Library or "Lesser" General Public License (LGPL)
MIT license (MIT)
Mozilla Public License 2.0 (MPL-2.0)
Common Development and Distribution License (CDDL-1.0)
Eclipse Public License (EPL-1.0)
Lizenzen für ganz bestimmte Zwecke
Educational Community License, Version 2.0 (ECL-2.0)
IPA Font License (IPA)

Open Font License 1.1 (OFL-1.1)

 

Lizenzen für Dokumentation

LizenzorganisationVersion, Art
GNU Free Documentation LicenseGNU Free Documentation License v1.3(FDL)
 GNU Free Documentation License v1.2(FDL)
 GNU Free Documentation License v1.1(FDL)