KONDE - Kompetenznetzwerk Digitale Edition

Weißbuch

Einführung: Was ist XML/TEI? TEI Download PDF Download

Lisa Rieger; lrieger@edu.aau.at

XML (eXtensible Markup Language) ist ein Standard, der vom World Wide Web-Konsortium (W3C) als Vereinfachung der älteren SGML (Standard Generalized Markup Language, ISO 8879) zur strukturierten Darstellung von Dokumenten und Daten, v. a. auch für den Gebrauch im Zusammenhang mit dem Internet, entwickelt wurde. Auf der W3C-Homepage (W3C o. J.) finden sich sowohl einführende Erläuterungen und Tutorials als auch sämtliche Dokumente, in denen die Standards definiert werden:

  • Extensible Markup Language (XML) 1.0 (Fifth Edition) (W3C Recommendation 2008)
  • Namespaces in XML 1.0 (Third Edition) (W3C Recommendation 2009a)
  • XML Inclusions (XInclude) Version 1.0 (Second Edition) (W3C Recommendation 2006)
  • XML Information Set (Second Edition) (W3C Recommendation 2004)
  • xml:id Version 1.0 (W3C Recommendation 2005)
  • XML Fragment Interchange (W3C Recommendation 2001)
  • XML Base (Second Edition) (W3C Recommendation 2009b)
  • Associating Style Sheets with XML documents 1.0 (Second Edition) (W3C Recommendation 2010)

Die Hauptbausteine eines XML-Dokuments sind Elemente, die aus einem öffnenden Tag (<) und einem schließenden Tag (/>) bestehen. Der Text zwischen den Tags gilt dann als Teil des Elements und unterliegt seinen Bestimmungen. Elemente ohne Text zwischen öffnendem und schließendem Tag sind leere Elemente (z. B. <empty/>), die dem Text Zusatzinformationen hinzufügen. Attribute können ein Element genauer bestimmen. Sie werden im Starttag der Elementbezeichnung nachgestellt und ihr Wert wird nach einem Gleichheitszeichen durch Anführungszeichen begrenzt (<Substantiv Kasus=“Nominativ“>Edition</Substantiv>). (Eckstein 2000, S. 6 ff.) Zudem können XML-Dokumente noch Deklarationen, Kommentare, Zeichenreferenzen und Verarbeitungsanweisungen enthalten. Damit ein XML-Dokument gültig ist, muss es sowohl hinsichtlich seiner physikalischen Struktur wohlgeformt als auch, vorgegeben durch den Dokumenttyp, valide sein (vgl. Schema). (Doss 2000, S. 43–46)

Das TEI (TEI Consortium a) ist ein Konsortium, das auf Basis eines erweiterbaren XML-Schemas eine Markup-Sprache – ebenfalls TEI genannt – zur Auszeichnung der Eigenschaften von Dokumenten im Bereich der Geistes- und Sozialwissenschaften entwickelt und mit einer Open-Source-Lizenz veröffentlicht hat. Der Schwerpunkt liegt dabei auf der Beschreibung von Primärquellen für Forschung und Analysen. Wie bei XML werden Leitfäden (aktuellste Version: P5 Guidelines) und andere wichtige Dokumente (TEI Consortium b) direkt auf der Homepage zur Verfügung gestellt. TEI erweist sich gerade für literaturwissenschaftliche Arbeiten wie die Edition von Texten als besonders geeignet, da es sowohl die Repräsentation der Zeichensequenz und Textstruktur als auch das Annotieren editionswissenschaftlicher und dokumentenbezogener Metadaten ermöglicht und zudem langfristig und plattformübergreifend nutzbar ist. (Schöch 2016, S. 335)

Literatur:

Zitiervorschlag:

Rieger, Lisa. 2021. Einführung: Was ist XML/TEI?. In: KONDE Weißbuch. Hrsg. v. Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner im HRSM Projekt "Kompetenznetzwerk Digitale Edition". Aufgerufen am: . Handle: hdl.handle.net/11471/562.50.79. PID: o:konde.79