Skip to content

deutsche-nationalbibliothek/pica-rs

Repository files navigation

CI Documentation dependency status


Das Toolkit pica-rs ermöglicht eine effiziente Verarbeitung von bibliografischen Metadaten, die in PICA+, dem internen Format des OCLC-Katalogsystems, kodiert sind. Mithilfe verschiedener Kommandos können aus den Metadaten elementare statistische Größen ermittelt und aufbereitet werden. Zudem kann das Toolkit als Brückentechnologie fungieren, um Metadaten für populäre Frameworks wie Pandas oder Polars (Python), in Programmiersprachen wie R oder für Excel nutzbar zu machen.

Das Projekt ist eine Entwicklung des Referats Automatische Erschließungsverfahren; Netzpublikationen (AEN) der Deutschen Nationalbibliothek (DNB). Es wird für die Erstellung von Datenanalysen sowie für die Automatisierung von Metadaten-Workflows (Datenmanagement) im Rahmen der automatischen Inhaltserschließung genutzt. Weiterhin wird es zur Unterstützung der Forschungsarbeiten im Projekt Automatisches Erschließungssystem und für diverse andere Datenanalysen in der DNB eingesetzt.

Die Mitwirkung an pica-rs ist sehr erwünscht. Wir würden Sie bitten, mögliche Fehler, Fragen und neue Ideen als GitHub-Issues anzulegen. Diese werden wir dann intern beraten und möglichst zeitnah ein Feedback geben.

Die Installation des Toolkits und alle Kommandos sind in der Dokumentation beschrieben.

Kommandos

  • cat — Zusammenfügen (Konkatenieren) von Datensätzen
  • completions — Erzeugung von Shell-Skripten zur Autovervollständigung
  • convert — Konvertierung zwischen verschiedenen PICA-Formaten
  • count — Zählen von Datensätzen, Feldern und Unterfeldern
  • explode — Teilt Datensätze in Lokal- oder Exemplardatensätze auf
  • filter — Filtert Datensätze anhand eines Kriteriums
  • frequency — Ermitteln einer Häufigkeitsverteilung über ein oder mehrere Unterfelder
  • hash — Erzeugt SHA-256-Hashwerte von Datensätzen
  • invalid — Findet ungültige Zeilen in der Eingabe
  • partition — Partitioniert Datensätze anhand eines Unterfelds
  • print — Gibt Datensätze in einer menschenlesbaren Form aus
  • sample — Wählt eine Zufallsstichprobe eines bestimmten Umfangs aus
  • select — Selektiert ein oder mehrere Unterfelder und gibt die Daten im CSV- bzw. TSV-Format aus
  • slice — Ausschneiden eines zusammenhängenden Teilbereichs aus der Eingabe
  • split — Teilt eine Menge an Datensätzen in Dateien fester Größe

Verwandte Projekte

Lizenz

Der Quellcode sowie die Releases sind lizenziert unter der EUPL-1.2.