Tag 9

Liebes Tagebuch,

Suchindexe, Praxisprojekt DLA Marbach, Unterschied BibFrame u FRBR, üben Open Refine + wikidata/query builder

Horizontale Suchmaschine erfordert kein Datenschema, erlaubt semantisch Abfragen oder Feldsuche z. b. Google, Volltextsuche. Die Vertikale, da ist ein Datenmodell dahinter, gesucht wird über homogene Datenbestände, es braucht also ein Schema z.b. Bibliothekskatalog, Online-Shop. Apache Solr (Suchmaschine) oder Elasticsearch (Suchmaschine) kann für vertikale und horizontale Suche eingesetzt werden, Elasticsearch ist stärker bei horizontaler Suchszenarien. Primo von Exlibris, da gibt’s einen zentralen Index, wo die Ressourcen in eigenes Discovery erscheinen.

Nachteil der open Source Produkte ist es eben, dass kein Index mitgeliefert wird, muss selber schauen, wie man das löst z.b. über Katalogisatsuche. Es gibt grosse Anbieter wie • VuFind, • Primo von Ex- Libris,• World Cat von OCLC sei aufgeblasen, weil diese Nutzer drin haben, die WorldCat nicht installiert haben, sondern nur im Browser nutzen, • EBSCO Discovery Service,• Summen (Primo ist die gleiche Firma). Das führt dazu, dass Summen–Lösung nicht mehr verkauft wird, man soll Primo nehmen. Der VuFind in Ex-Libris und in Swisscollections steckt diese Suchmaschine drin.

Sehr spannend fand ich das Praxisprojekt der beiden Dozenten, die den Katalog des Deutschen Literaturarchivs in Marbach aufgebaut haben: Katalog DLA Marbach

Es gibt ein Bibliothek, ein Archiv als auch ein Museum. Es sammelt und erhält alles, dass was in irgendeiner Beziehung zu deutschsprachigen Literaten steht. Es gibt auch ein Schiller Mueum in Marbach. Hier Schiller’s Ring: Ring. In der Software (Adis) gibt es ein Modul für die Bibliothek, eines für Archiv, eines für das Museum. Möchte ich Bilder und Objekte im Museum suchen oder Manuskript zu einem Werk, dann soll man im Gesamtkatalog suchen. Auch wenn ein Werk in Bibliothek und ein Manuskript im Archiv ist, gehört es zusammen, auch wenn in 3 verschiedenen Sparten verteilt ist. Dann kann nach Beständen, nach Personen und Körperschaften gesucht werden.

Für Nutzer war das ein Problem in welcher Suchmaske soll er suchen? Darum brauchte man ein Discovery wo man alles suchen kann, wo man im Haus hat, aber man soll auch explizit nach Namen und Manuskripten suchen können. Das war die Aufgabe für die beiden Dozenten Hr.Lohmeier und Hr. Meyer. Sie schauten bei Schlagworten.Handschriftliches Manuskript und Werk gehört dazu. Da schauten sie die Bestände an.Open Refine haben sie dafür genutzt um die Struktur der Daten zu sehen. Über jede Spalte eine Facette zu bilden.

Sie haben alle Daten in einen VuFind (Solarindex) gemacht in einem Prototyp. Ein Personenfirma (Apache Solar Experte) hat den Solarindex gemacht. Webdienstleister macht das Webinterface und war auch Experte für Vufind. Es wurde aber nicht mehr VuFind eingesetzt, sondern Typo 3- Find. Wegen dem Managment, weil die Homepage war schon in Typo 3 und für Support und Updates war es so einfacher. Darum war es naheliegend diesen Katalog schon in Typo 3 zu integrieren. Sonst hätte man wieder neuen Dienstleister nehmen sollen. Typo 3- find ist ein open source wie vufind. VuFind hat keinen zentralen Index, wo bekommt man den hin? Die Lösung war K10-plus Zentral (Deutschland) das hat man für den Marbacher Katalog genommen. Erhält Bestandesdaten von deutschen Bibliotheken und Kollektionen von Elsevier. Solar Index haben wir bei VUFind schon genutzt. Solar kann den Index von K10-plus haben und einen eigenen Index. Der Nutzer kann so beide Indexe nutzen.

Normdatenanreicherung für Katalog: Es wurden konsistent Normdaten aus der GND genommen! Alle Personen sind mit Normdaten- ID verknüpft. Wenn man exakt weiss, dass der Goethe der gleiche Goethe ist wie aus anderen Datensatz, auch wenn der eine im Archiv und der andere in Bibliothek zu finden ist. Marbach hat einen gemeinsamen Index also Archiv, Bibliothek und Museum in einem gemeinsamen Index überführt. Bestände sind nicht abgeschlossen, sie erschliessen jeden Tag

Datenprozessierung: Damit ist gemeint, Daten zu homogenisieren über vertikale Suchmaschinen damit in Suchschema passen. Muss Daten vorbereiten, dann werden diese in Suchindex überführt werden. Dieser Prozess muss täglich einmal durchlaufen werden für den Gesamtbestand. Es 3,6 Mio Daten täglich!! Das geht über Nacht.Unstrukturierte Textdateien mit Software namens Panda, werden in ein Tabellenformat aufbereitet, so dass dann mit openrefine noch aus daten von wikipedia verknüpft etc. Alles wird aufbereitet z. b. Datumsbereiche für zeitliche Facette. Dann wird in TSV Format ähnlich CSV wieder in Solar Index eingespielt. Einmal täglich! Für Datenprozessierung muss so gemacht werden, dass eben Daten in zweite Index eingespielt werden, erst wenn alter Index gemacht wurde, wird umgeschaltet auf neuen Index. Sicherheit, dass ein Katalog sicher funktioniert.

AHA-Moment: Alles war wir im Modul kennengelernt haben, haben sie in der Praxis auch angewendet am Beispiel von Marbacher Katalog.

BibFrame wurde ein Beispiel gezeigt mit Wikidata-Datensätze anreichern.

Screenshot from 2022-01-13 19-35-09

Der Query Builder scheint wohl für alle gedacht zu sein, die nicht gern Sparql-Anfragen schreiben, so wie es auf mich zutrifft.

In Zukunft wird man noch mehr auf Wikidata setzen in Bibliothek und Archiv. In Marbach hat man ja Links und Bilder genommen, man sollte aber Wikdata prüfen. Aber Personenlebensdaten sollte man noch einen Plausabilitätscheck nehmen.

Wikidata: mit Suchanfrage ähnlich wie Sparql:96 Mio Datensätze auch elektronische Artikel haben mit Mensch u. Erde angefangen. Wikipedia ist ja das grösste Projekt von ihnen. Mensch= Q1 Erde =Q2 Dann eben Q1776290…hochgezählt (Person=Carina Dahl).

wikidata query service

match wright

jetzt mit birth u death

Leider muss ich an dieser Stelle aufhören, weil die Zeichenzahl auf 4’000 Zeichen beschränkt ist. Tschau, liebes Tagebuch!