Pollin, Christopher; christopher.pollin@uni-graz.at
Um fachspezifische Forschungsfragen mittels Digitaler Editionen bearbeiten zu können, umfassen diese textuelle, visuelle und ggf. auch quantitative Daten und erfordern häufig spezielle Benutzeroberflächen. Neben editionsspezifischen Anforderungen lassen sich einige Schritte identifizieren, die für Editionsprojekte im Allgemeinen erforderlich sind. Die Abfolge dieser Schritte kann als Pipeline betrachtet werden.
Der Begriff "Pipeline" wird in der Informatik unterschiedlich verwendet. Unter dem informationstechnologischen Begriff Pipeline wird in der Regel ein Prozess verstanden, der aus einer organisierten Abfolge von Arbeitsschritten oder Werkzeugen besteht, wobei der vorhergehende Output den Input für den nachfolgenden darstellt. Es wird zwischen HTTP-, XML-, Unix-, Software- oder Daten-Pipelines unterschieden. Die beiden letztgenannten entsprechen am ehesten den technischen Workflows und Werkzeugen, die für die Realisierung einer digitalen Edition erforderlich sind. Dies umfasst die folgenden Schritte:
- Datenmanagement und Digitalisierung: Die notwendigen Quellenmaterialien (z. B. historische Dokumente und Bilder) müssen gesammelt, digitalisiert und verwaltet werden.
- Transkription: Umwandlung von Text aus digitalen Faksimiles in (strukturierten) Text.
- Optionale Preprocessing zur Aufbereitung der Daten.
- Textmodellierung: Modellierung relevanter Textphänomene mittels geeigneter Auszeichnungssprachen (z. B. TEI).
- Annotation: Auszeichnung von Textphänomenen sowie von semantischen Informationen und Named Entities. Damit verbunden ist die Erstellung von Indizes und die Nutzung von kontrollierten Vokabularien.
- Publikation: Veröffentlichung der Daten und deren Nutzbarmachung im Sinne der FAIR-Kriterien.
- Langzeitarchivierung: die infrastrukturelle Einbettung der Edition, um deren Erhalt sicherzustellen.
Oft ist es notwendig, die Ergebnisse eines Arbeitsschrittes, z. B. die Transkriptionen aus dem Softwaretool Transkribus, in ein anderes System wie bspw. ediarum zu übertragen, um dort die Annotationen vorzunehmen. Dieser Übergang lässt sich als Transition bezeichnen. Als Transition wird ein Paradigma der Informatik im Kontext von Kommunikationssystemen verstanden, das den Wechsel von Kommunikationsmechanismen wie Dienst- und Protokollkomponenten beschreibt. Ziel ist es, eine nahtlose und konsistente Qualität in einem Kommunikationssystem zu gewährleisten. In der Softwareentwicklung beschreibt ein Transitionsplan, wie eine Projektlösung oder ein System eingeführt, installiert und in den Betrieb einer Organisation überführt werden soll.
Literatur:
- Chiffoleau, Floriane; Baillot, Anne; Ovide, Manon. 2021. A TEI-based publication pipeline for historical egodocuments - the DAHN project. In: Next Gen TEI, 2021 - TEI Conference and Members’ Meeting.
- Demri, Stéphane; Goranko, Valentin; Lange, Martin. 2016. Transition Systems. In: Temporal Logics in Computer Science: Finite-State Systems. New York, NY, S. 35-82.
- Fritze, Christiane. 2019. Wohin mit der digitalen Edition? Ein Beitrag aus der Perspektive der Österreichischen Nationalbibliothek. In: BIBLIOTHEK - Forschung und Praxis 43, S. 432-440.
- Munappy, Aiswarya Raj; Bosch, Jan; Olsson, Helena Homström. 2020. Data Pipeline Management in Practice: Challenges and Opportunities. In: Product-Focused Software Process Improvement International Conference on Product-Focused Software Process Improvement, S. 168-184.
- Pierazzo, Elena. 2019. What Future for Digital Scholarly Editions? From Haute Couture to Prêt-à-Porter. In: International Journal of Digital Humanities 1, S. 209-220.
- Vogeler, Georg. 2019. Digitale Editionspraxis. Vom pluralistischen Textbegriff zur pluralistischen Softwarelösung.. In: Textgenese in der digitalen Edition editio/Beihefte. Hrsg. von Anke Bosse und Walter Fanta. Berlin, Boston, S. 117–136.