Datenqualität
Damit es bei Datensätzen in wachsenden Datenbanken nicht zu Zweideutigkeiten, Dopplungen, Verwechslungen und ähnlichem kommt, ist es wichtig, darauf zu achten, dass die Qualität der Datensätze möglichst hoch ist. Wenn die Datenqualität auch die Standards großer (inter-)nationaler Datenbanken erfüllt, erleichtert das den Austausch und die Verbreitung von Wissen. Wichtige Hilfsmittel dabei sind Verweise auf Normdaten, einheitliche Formatierung und Angabe von Metadaten, idealerweise nach international verbreiteten Standards.
Auf dieser Seite werden besonders Normdatenverweise behandelt, mit einem kurzen Verweis auf die FAIR-Prinzipien.
Von Interesse sind in dem Zusammenhang auch die Hinweise zum Anlegen von Listeneinträgen und unter Umständen auch die Anforderungen, die Daten für den Import in CODA erfüllen sollten. Bei der Erfüllung dieser Anforderungen können Werkzeuge wie OpenRefine helfen (siehe Ressourcen).
FAIR-Prinzipien
Das englische Akronym FAIR steht für auffindbare, zugängliche, interoperable und wiederverwendbare Daten. Dahinter stehen allgemeine Prinzipien, nach denen Datensätze erstellt werden können, sodass sie möglichst einfach auszutauschen und zu verbreiten sind. Wie diese Prinzipien dann konkret umgesetzt werden, wird dann häufig in Standards festgelegt.
Es kann nützlich sein, sich kurz in das Thema einzulesen, um ein besseres Gefühl dafür zu kriegen, worum es dabei geht. Das kannst du zum Beispiel auf forschungsdaten.info tun. Die Umsetzung in CODA erfolgt beispielsweise über das Datenmodell, welches sich am LIDO-Metadatenschema orientiert und die Pflichtfelder der Minimaldatensatzempfehlung enthält.
Normdaten
Um mehrdeutige Begriffe wie etwa “Pfeife” oder “Schloss” eindeutig einem Konzept zuordnen zu können und so den Informationsgehalt der Datensätze zu gewährleisten, sind Verweise auf sogenannte Normdaten essenziell. Listeneinträge in CODA verfügen über Felder, in denen man solche Normdatenverweise festhalten kann, wodurch dann klar wird, ob es sich bei dem Listeneintrag um ein Gerät zur Tonerzeugung oder zur Verbrennung von Tabak handelt.
Hinterlege daher (wenn möglich) zu jedem Listeneintrag einen Verweis auf Normdaten.
Solche Informationen werden in Normdateien gesammelt. Man kann sie als Form eines kontrollierten Vokabulars verstehen, einer Sammlung von eindeutigen Bezeichnungen. Manche dieser kontrollierten Vokabulare, sogenannte Thesauri, ordnen ihre gesammelten Bezeichnungen hierarchisch.
Jedem eindeutigen Begriff in einer Normdatei wird eine einzigartige ID (Identifier) zugeordnet. Auf Basis dieser IDs werden dann URIs generiert, also Internetadressen (siehe Wikipedia). Normdatenverweise in CODA nutzen entweder die ID eines Normdatenbegriffs oder die URI.
In CODA häufig genutzte Datenbanken und Normdateien sind insbesondere:
- GND
- GeoNames
- Wikidata
- Getty AAT
Davon können Verweise auf GND, GeoNames und Getty per Plugin über ein einziges Feld in der Nutzeroberfläche eingebunden werden. Verweise auf andere Normdatenbanken verwenden die Mehrfachgruppe Klassifikationen.
Normdatenbanken sind nicht perfekt
Die meisten Normdateien haben ursprünglich einen bestimmten fachlichen Schwerpunkt und sind deshalb in manchen Hinsichten unvollständig bis unzuverlässig. Bei Normdatenverweisen ist daher immer etwas Vorsicht angebracht.
Meist genügt die Referenz zu einem Vokabular, wenn die Konzepte dort aber nicht trennscharf genug sind, können weitere Referenzen ergänzt werden (bspw. ein Wikidata-Eintrag, der einen GND-Eintrag ergänzt).
GND - Gemeinsame Normdatei
(Webseite der GND, weitere Informationen auf der Webseite der DNB)
Viele Listeneinträge verfügen über das Feld “GND-Referenz”. Da CODA ein Plugin für GND-Verweise nutzt, kann man direkt in diesem Feld einen Suchbegriff oder eine GND-ID eingeben. Es tauchen dann entsprechende Vorschläge auf. Da die Darstellung aber nicht unbedingt übersichtlich ist, empfiehlt es sich meist, direkt in der GND zu suchen, zum Beispiel mit dem GND-Explorer. Alternativ gibt es auch die lobid-Suche.
Gibt man einen Suchbegriff wie bspw. “Pfeife” ein, tauchen auch Treffer zu Personen mit diesem Namen oder thematisch verwandten Kunstwerken auf. Für Normdatenverweise interessieren allerdings nur Sachbegriffe, nach denen sich im GND-Explorer links bei den Satzarten filtern lässt (Ergebnis).

Auf der Seite eines einzelnen Eintrags finden sich im Abschnitt “Identifikatoren” die GND-ID und die GND-URI (hier der Pfeifeneintrag). Das fylr-Plugin erkennt beides eindeutig, also kann man einfach eins von beiden kopieren, in das Feld “GND-Referenz” in CODA einfügen und dann den entsprechenden Vorschlag auswählen.
Zu beachten ist, dass der GND-Explorer auf die GND zugreift und sie visuell ansprechend darstellt. Die URIs der Datensätze führen auf die Webseiten der Deutschen Nationalbibliothek, wo sich im Gegensatz zum Explorer auch XML- und RDF-Repräsentationen der Datensätze herunterladen lassen (der Pfeifeneintrag in der DNB).
Vorsicht bei der Wahl von ID bzw. URI!
Bei Normdatenverweisen möglichst immer die ID oder die URI angeben!Die URL in der Adressleiste des Browsers stimmt häufig nicht mit der URI überein. Das gilt auch für andere (Norm-)Datenbanken.
GeoNames
GeoNames ist eine geographische Datenbank, die von Nutzern bearbeitet werden kann. In der Ortsliste in CODA gibt es vermutlich die meisten Verweise auf GeoNames.
Es empfiehlt sich, die erweiterten Suchoptionen unter “advanced search” zu nutzen. Es kann aber auch mit den zusätzlichen Filtern knifflig sein, den richtigen Eintrag zu finden. (Für die Suche nach der Stadt “York” in den USA gibt es über 10000 Ergebnisse.) Es gibt allerdings auch die Möglichkeit, nach Postleitzahlen zu suchen (siehe GeoNames Website).
Hat man dann aber einen Eintrag gefunden (wie bspw. Dortmund), so wird rechts über den Koordinaten die farbig hinterlegte ID angezeigt, die man per Linksklick kopieren kann. Anschließend fügt man sie in CODA in das Feld “GeoNames-Referenz” ein und kann den entsprechenden Vorschlag auswählen.
Wikidata
Wikidata ist ebenfalls eine von Nutzern bearbeitete Datenbank, die den Vorteil hat, dass ihre Einträge viele IDs zu entsprechenden Einträgen in anderen Datenbanken haben. Hat man einen Wikidata-Eintrag, kann man oft über sogenanntes Reconciling automatisiert viele andere Normdatenverweise abrufen.
Schaut man im Wikidata-Eintrag von Dortmund (hier) im Abschnitt “Identifiers”, so findet man dort einen Verweis auf den GeoNames-Eintrag, sowie viele andere. Bei langen Wikidata-Einträgen ist die Suche per Strg + F am einfachsten.
Allerdings ist es manchmal so, dass z.B. Aktualisierungen in Fachdatenbanken die Einträge in Wikidata veralten lassen. Die nicht aktualisierten Wikidata-Verweise auf die älteren Einträge in der Fachdatenbank können dann fachlich inkorrekt sein. Dieser Vorteil von Wikidata ist also ebenfalls mit Vorsicht zu genießen.
Die Wikidata-ID findet sich direkt hinter dem Titel eines Eintrages, beim Beispiel Dortmund lautet sie “Q1295”.
Wikidata-Verweise werden im Mehrfachfeld “Klassifikationen” untergebracht. Im Unterfeld “Typ” wird dann “Wikidata” eingetragen, im Unterfeld “Link” die Concept URI. Die Concept URI findest du in der linken Menüleiste der Wikidata-Seite. Rechtsklicke auf den Link “Concept URI” und wähle dann “Link kopieren” oder ergänze vor der ID deines Wikidata-Eintrages noch “http://www.wikidata.org/entity/". Die Concept URI für Dortmund lautet dann “http://www.wikidata.org/entity/Q1295".
Getty
(Webseite des Getty Research Institute)
Die Kunstinstitution J. Paul Getty Trust betreibt das Getty Research Institute, das diverse kontrollierte Vokabulare zu visuellen Medien bereitstellt. Diese Vokabulare werden auch kontinuierlich in andere Richtungen erweitert.
In CODA wird besonders der Art & Architecture Thesaurus (AAT) für Verweise verwendet (Weblink zum Getty AAT). Es gibt beispielsweise auch den Getty Thesaurus of Geographic Names (TGN) für geographische Verweise (Weblink zum Getty TGN).
In manchen Listen wie z.B. “Beschriftungs- und Inschriftstypen” gibt es die Möglichkeit, Getty-Verknüpfungen in einem spezifischen Feld mithilfe eines fylr-Plugins einzufügen. Tippt man den Namen eines gewünschten Begriffs in das Feld ein, erscheinen auswählbare Suchvorschläge aus den Getty-Vokabularen. Da diese allerdings nicht so vollständig und übersichtlich sind wie auf der Webseite, ist es in der Regel besser, dort den gewünschten Eintrag zu suchen, und anschließend die eindeutige Getty-ID in das CODA-Feld einzufügen. Die Getty-ID und die URI finden sich in der Webseiten-Ansicht eines Eintrags im oberen Teil:

In CODA sieht es mit dem Plugin dann etwa so aus (rechts im Bild das Feld “Getty AAT-Reference” mit den Suchvorschlägen, links die Vorschau auf den entsprechenden Getty-Eintrag):

Andere Datenbanken (Feld “Klassifikationen”)
Verweise auf alle anderen Datenbanken verwenden das CODA-Mehrfachfeld “Klassifikationen”. Dort wird dann der Typ der Klassifikation (z.B. Wikidata) im Unterfeld “Typ” und die URI des entsprechenden Normdatenbankeintrages im Unterfeld “Link” eingetragen.
Richtlinien für Formatierung
Bei manchen Feldern des Datenmodells ist durch Freitextfelder eine gewisse Flexibilität gegeben, wenn man Objekte anlegt. Trotzdem ist es zur Erleichterung von Suchen und für die Orientierung der Suchenden sinnvoll, die Inhalte dieser Felder möglichst einheitlich zu formatieren.
Listeneinträge allgemein
- Der erste Buchstabe eines Listeneintrags ist immer groß. Das gilt insbesondere auch für englische Listeneinträge.
Liste “Personen”
Im Feld “Name” sollten wenn möglich die Namen der Personen nach folgendem Muster mit vorangestellten Nachnamen eingegeben werden: Nachname1 Nachname2 …, Vorname1 Vorname2 …
Beispiele:
- Franklin, Aretha Louise
- Bader Ginsburg, Ruth
Beachte jedoch, dass auf der Welt verschiedene Namenssystematiken Anwendung finden und eine Formatierung in der oben aufgeführten Variante somit nicht immer sinnvoll ist. Insofern können Namen auch anders eingetragen werden. Dies trifft ebenso zu, wenn Personen bspw. vor allem unter einem Pseudonym (etwa bei Künstler*innen) oder Adelstitel bekannt sind. Orientiere dich im Zweifelsfall gerne an Formatierungen aus der GND oder WikiData. Im Feld “Weitere Namen” kannst du alternative Namen eintragen.
Die Namen sollten immer möglichst vollständig angegeben werden. Falls beispielsweise der Familienname unbekannt ist, kannst du aber auch nur den Vornamen eintragen.
Liste “Schlagwörter”
Für die Bezeichnungen von Schlagwörtern sollte immer (sofern möglich) die Singularform verwendet werden. Hier kannst du dich an GND oder WikiData orientieren, wo die Schlagworte bereits ähnlich aufbereitet sind. Im Feld “Weitere Bezeichnungen” kannst du alternative Bezeichnungen eintragen.