Liebes Tagebuch,

Transformation von Metadaten mit Open Refine

Im Naturkunde Museum, war ein Dozent am arbeiten. Die Sammlung war da noch in Exceltabellen. Jetzt wollen sie das gerne zusammenführen, wie kriegt man diese unstrukturierten Daten aus dem Excel in ein Datenformat wie dublin core oder marc21? Die Lösung heisst OpenRefine!

OpenRefine ist unabhängig von Koha etc. und wird nicht nur in Bibliothek oder Archiven angewendet. Open Refine beschreibt sich als a free open source, powerful tool for working with messy data Bei der Erschliessung passieren auch Fachmitarbeiter Tippfehler etc., die Daten sind zwar besser als Amazon aber passieren doch Fehler. Das Programm ist interessant, die nicht gerne mit Terminal arbeiten wollen.Aber doch sich zutrauen, einzelne kleine Scripte zu schreiben. z. B. Die sollen von Koha in Alma gehen und wenn jetzt der Koha Export nicht perfekt, ist, kann es mit open refine gemacht werden. Understanding data you don’t know. Also ein Museum, Archive gibt uns Daten rüber, dann Hr. Lohmeier erste Schritt geht ins open refine, wenn steht Marc21, kann man nicht darauf vertrauen, dass es auch Marc21 ist.

Reconciliation: Nutzung externe Datenquelle, um eigene Daten anzureichern. Abgleich mit Normdaten in Wikidata, GND und VIAF.

Bibliotheken: Marc Edit ist zwar naheliegender für Marc21, aber open refine geht auch, bevor sie dann ins Bibliotheksystem integriert werden. Data Sience, Semantic Web, Consulting,Business , Research, aber am meisten doch Bibliotheken. Aber auch gutes Zeichen, wenn diese Software von Data Science arbeiten.

Welche Formate gehen gut mit Open Refine? Besonders gut mit Tabellendaten (CSV, TSV, XLS, XLSX auch TXT) XML geht auch wenn ein flaches ist wie MARCXML

Json Apis:Normalerweise Nutzung von JSON-APIs, wenn nicht im Archiv oder Bibliothekswesen. JSON ist neuer als Marc XML mit OAI-PMH Schnittstelle.Ich muss zuerst mal googlen, was jetzt mit JSON-API genau gemeint ist:[json-api.org] (www.jsonapi.org/) https://jsonapi.org/

XML sei komplex wie EAD ist schwieriger mit Zusatztool (Hr.Lohmeier für Marbach literaturarchiv gemacht) Kann auch mit Marc Edit, weil hat dort Exportfunktion für Marc Daten für open refine, dann kann man sie besser in open refine transformieren, dann wieder in Marc Edit zurückmachen.

Einsatzmöglichkeiten:126 Mio von Nationaldatenbibliotheken hat Peter Kiraly verglichen, da hat es Fehlerquoten von 20 % ,der den Marc21 Datensätzen widerspricht. Schlimme Fehler z.b. ist falsche Marc Feld verwendet worden Titel statt Autor. Darum brauchts einen Abgleich mit Normdaten (VIAF, GND, wikidata).

Installation open refine open refine wurde installiert konnten aufrufen auf (http://localhost:3333/) Das klappte auf Anhieb! :-)

Vorstellung open refine und einfache Funktionen wurden erklärt: Open refine hat erkannt, dass es csv data sind. Beliebiges Trennzeichen oder Tabs oder Kommas. Beim Import soll man aber möglichst wenig tun, weil es Automatismen hat. Weil man wird in Änderungshistorie sehen. Die ersten 100 Datensätze werden mal angezeigt, da soll man schauen, ob alles Sonderzeichen é und so auch übernommen wurden und richtig dargestellt sind, sonst ein Problem. Aber meisten Datensätze sind in unicode oder utf8.

Aufgaben wurden gemacht: EN

undo/redo Es gibt eine Speicherung des Verlaufes: undo/redo. Wenn ein Fehler passiert, kann einfach redo machen.

Clusterig und Algorithmen, die Namensvorschläge bringen im open refine:

9 mal kommt es vor, dann ist das andere ein Tippfehler, das nehmen wo häufiger vorkommt. nearest neighbor

Datensätze wieder zusammenführen

Auf Eddit gehen und das Leerzeichen rausnehmen, dann apply.

MDPI

journal

grell

Neue Spalte Journal ist erschienen und wurde ausgefüllt anhand der Daten von wikidata, es hat die Daten zum Journal von wikidata genommen und gerade eingefügt:

Screenshot from 2021-12-03 10-41-55

wikidata

Reconciliation mit einem Journal aus wikidata) Journal klicken, dann Start Reconciliation.

Screenshot from 2021-12-03 11-05-57

Im Hintergrund wird jetzt ein Dienst angefragt, und open refine ermittelt jetzt für Spalte Journal aus den Datensätzen von[wikidata] (www.wikidata.org) WOW!:952 Zeitschriften wurden gematcht mit wikidata!

Mache all identical cells entropy

AHA: Bei der Spalte Journal und dann gehe zu Entropy: Nun kann ich alle Matches von wikidata und open refine zuordnen und sehen!

Scopus ID Scopus bezeichnet sich als grösste Datenbank mit Abstract and Zitationen, diese sind aus peer-reviewed (wissenschaftlich geprüfter) Literatur. agriculture

Man könnte bei Personennamen mit der Datenbank von Viaf abgleichen

CSV nach MARC XML : Modellieren im marc xml exportieren Template geht für alle Datensätze, wenn zwei geschweiffte Klammern stehen, da kommen da die Inhalte rein, cells url also der Inhalt, der Spalte, alte url wird dann übernommen und https doa.org/artickle wird ersetzt nur identifier bleibt stehen über noch ein Punkt escape dass alles xml entspricht. Weil xml erlaubt keine Umlaute, diese müssen entfernt werden Gibt auch eine for- schleife- für mehrer Autoren.

Template ergänzen Hier das Mustertemplate: template

Wir wollen Marc Felder füllen, Bis jetzt haben wir autor, titel, url, issn genommen. Ein Beispiel wurde gezeigt mit Grell Sprache die DOI noch hinzufügen. Zuerst muss mal Doi Spalte anschauen, wo es keine Doi hat muss man in geschweiffte Klammern um abzugrenzen.Gibt nur null, dann müsste jetzt eine if abfrage, wenn das Feld leer, dann mach das. Oder man kann Nonblade machen, das heisst wenns blank (leer) ist, nichts reinschreiben. Beispiel mit der DOI wurde gezeigt.

*nun ging es wieder zurück zur angefangen Template z

es hat mir wieder ein doaj-article als txt.Datei gemacht. doaj articel

Beim Abspeichern habe ich noch Hilfe von Dozent Hr. Meyer (vielen Dank!) bekommen und unter Downloads das Template gespeichert. *

Validieren

cd ~/Downloads wget https://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd xmllint doaj-article-sample-csv.xml –noout –schema MARC21slim.xsd

AHA-Moment: Validieren kann man auch mit Shell-Befehlen!. Screenshot from 2021-12-03 13-53-45 Die Validierung hatten wir im Modul “Gset” sonst immer mit einem Validierungs-Tool(https://onlinexmltools.com/) validiert im Browser gemacht, das war neu für mich.

Screenshot from 2021-12-03 12-19-13 In meinem Ordner “Downloads” hat es noch andere Dokumente drin, diese wurden halt auch mit validiert.

Die Validierung sei wichtig auch in Nationalbibliotheken, dort wird geprüft ob die Reihenfolge und Zahlen und keine Buchstaben und ob das alles passt. Weil wenn man Daten manuell eingibt, gibt viele Fehler.

Ich muss aufhören, schon wieder die 4’000 Zeichen überschritten.Tschau liebes Tagebuch!