Liebes Tagebuch,

Finale Datenintegration und der Vergleich VuFind und Solr

Nachtrag: Am Tag 6 da haben wir im Marc Edit wollten wir ja crosswalken, aber da gab es immer Fehlermeldungen beim konvertieren von Ead (aus dspace) in marc21. Koha funktioniert weil schon in Marc XML, aber DSpace ja nicht. Warum hat es nicht funktioniert? Also diese Webansicht, zeigte nur die inhaltlichen Datenfelder von Dublin Core an. Aber der XML Dateiheader hat da gefehlt. Weil der Header enthält ja die Namespaces, der zeigt an, wie die XML Elemente deklariert sind.

OAI-PMH erlaubt selektive Anfragen, ist aber keine selektive Schnittstelle. Beispiele für selektive Schnittstellen wäre SRU (Google), Open search (Amazon),Solr API (Suchmaschine zusammen mit Vufind haben wir die ja installiert). OAI-PMH ist eigentlich schon veraltet, jetzt wären besser JSON-APIs in der Praxis setzen sich solche durch. Der Firefox Browser visualisiert das auch gut.

Alternative Software zu Open Refine sind: Catmandu (in pearl programmiert), Metafature(für linked Data) und Manufacture, dieses ist in Java programmiert und Marc Edit, (das kennen wir schon vom Tag 6). In Praxis nimmt man meistens das Tool wo man am besten beherrscht oder man muss abwägen, wo Aufgabe weniger komplex ist. Ich kann aber ein Datensatz nicht maschinell abrufen, da springt Lobid (von Unibiblio. Nordrheinwestfahlen) ein, der kann das. Bekomme Ergebnisse in JSON Format, wenn JSON suche. Beispiel für Tool: scrapir z. b. Google Books wenn man Suchvorschläge machen möchte AHA: Ich könnte YouTube mit der Scrapir so durchsuchen! scrapir

VuFind Ist gemacht von Villanova University, ist in PHP programmiert, setzt auf SolR Suchmaschine =Apache. Aber Funktionalitäten ist Teil von VUFIND, auch die Ernte in VUFINd Harvest wo die OAHI-PMH Schnittstellen abfragen können. 10 Jahre VUFIND! Die Uni-Bibliothek Leipzig setzt ein, man sieht sehr schnell wenn der Kern VUFInd ist.

Gesundheit von Open Source Community?. Kann man auch von Github sich aufrufen. Es sollten immer genug Beteiligte (Contributor) sein, sonst passiert das wie beim Lock4J . Oder Chaos Metriken gibt’s auch.überall. Betroffen sind z.B. Apple, Twitter, Steam, Amazon und kleinere Anbieter, eigentlich das halbe Internet! Ein kleines Stück Software, bei fast jeder Software wird es eingesetzt. Eine Multi-Million-Dollar-Firma soll zahlen und nicht jammern, wenn Lock4J nicht mehr tut und «gratis» einsetzt. Man sollte die freiwilligen Entwickler bezahlen. Lock4J ist auch in VuFind. Ist ein wackliger Bauteil.

Solr = nur reine Suchmaschine, aber kein Katalog oder Recherchemöglichkeit! Ist so quasi Industriestandard das Primo von Ex Libris basiert auf Solr, VuFind basiert auf SolR, SolR ist der Kern. Alle grossen Webseiten (die nicht gerade von Google kommen) die eine Suche anbieten basieren auf SolR. Haben wir auf jeden Fall als Anwender schon mal Kontakt gehabt. Datumsfeld, alles andere lehnt er ab. Ein Algorithmus kann viel schneller arbeiten, wenn er weiss dass die Daten immer einer ganz bestimmten Form z. b. Zeitintervall, Datum haben.

Daten reinstopfen und abfragen: Was unterscheidet Suchindex (SolR) von einer Datenbank (My SQL)? Eine relationale Datenbank nimmt genaue Zeichenfolge so an. Ein Suchindex bietet nur das Abrufen von Datenbanken an, eine my SQL-Datenbank also relationale kann alles machen siehe CRUD : Create, Read, Update, Delete machen. Zuerst musste ich die Solr nochmals starten, es gab eine Fehlermeldung bei der Auto Konfiguration. /usr/local/vufind/solr.sh start Solr Backend von Solr. Spannend der Core Selector, man kann verschiedene Datentöpfe so pflegen also authority, biblio, reserves (Vormerkungen), website (seine Bibliothekswebseite über vufind). Core= Kerne. 250 Datensätze sind drin, meine Beispieldatensätze.
Wir haben Übungen gemacht. Wi verglichen das Terminal, mit Backend von Vufind und die Vufind Benutzeroberfläche. Wir schauen hinter die Kulissen, was läuft im Terminal, wenn gleichzeitig Benutzeroberfläche von VuFind was gesucht wird mit Solr? Suche nach psychology bei Solr Admin, mit Terminal, SolrBenutzer hier die Ansicht in SolrAdmin: http://localhost:8983/solr/#/biblio/query allfields:psychology

solr author

solr  psychology

Screenshot from 2021-12-16 10-31-27

Wo sind Unterschiede? SolrBenutzer: sofort 3 Suchanfragen waren ersichtlich in der Benutzeroberfläche. Terminal: Um die Suchanfrage im Terminal mitzuverfolgen musste folgender Befehl eingegeben werden: less +F /usr/local/vufind/solr/vufind/logs/solr.log dieser konnte mit Control + C und dann Q=quit wieder verlassen werden. Es gibt Hauptanfragen und Hintergrundanfragen. Es gab Hits =3 , Status 0. 3 Treffer bei allen 3. AHA: Ich kann auch das Ranking/Gewichtung im Terminal sehen! Z.b. Untertitel ( 750) wichtiger als Titel (600), darum mehr Gewichtung. ranking

AHA-Moment: Autoverfollständigung meiner Suche bei SolrBenutzer, rechts im Terminal kommt dann die Anfrage dazu gleichzeitig Screenshot from 2021-12-16 10-59-17

Datenintegration: Import der Daten aus Koha, Archive Space, Dspace und DOAJ mithilfe von VUFind Die Testdaten wurden gelöscht=leeren Index. Ich nahm die empfohlenen Beispieldaten, welche dann als Ordner Koha, ArchiveSpace, DOJA, Dspace heruntergeladen werden konnten. Die Daten von DSpace in Marc XML, Kohar war schon in Marc XML. Dann mit dem Befehl gedit /usr/local/vufind/import/marc_local.properties kam man auf die Marc Properties- Config-Datei. Das war im Editor, dort musste man die Raute wegnehmen, dann muss koha, dpace, archivespace, doaj jedes Mal da einfügen bei der Collection. Danach mit dem Befehl for f in ~/Downloads/koha/.xml; do /usr/local/vufind/import-marc.sh $f; done konnte ich die gesammelten Daten aus koha, dpace, archivespace, Doaj raufladen ins VuFind.

Finale Ergebnisse:

Wir haben alle 11 Resultate bekommen aus den 4 Bib-und Archivsystemen:

  • Koha hat funktioniert
  • Doja hat funktioniert
  • Dspace nicht funktioniert
  • Archive Space nicht funktioniert

Warum hat nicht funktioniert? Erste Lösung: In Texteditor also die 001 manuell reinfügen, aber sicher nicht für viele Datensätze. Zweite Lösung: Oder wir machen in den marc properties Nimm titelfeld und nicht 001, aber es würde ein Problem geben dann weil Titel ist nicht eindeutiger Identifier. Ursache für Fehler? id ist nicht vorhanden (Fehlermeldung - id: null & Document is missing mandatory uniqueKey field: id) Die Dateien von DSpace und Archive Space hat es nicht genommen, weil eben dieses Feld001 nicht ausgefüllt war.

Screenshot from 2021-12-16 12-01-20

Tschau liebes Tagebuch!