Raunig, Elisabeth; elisabeth.raunig@uni-graz.at
Die eXtensible Markup Language, kurz XML, ist ein einfaches, hierarchisch aufgebautes Textformat, dass 1998 vom World-Wide- Web-Konsortium entwickelt wurde. Es wurde vor allem zum Aufzeigen von Strukturen in Texten oder Datenbeständen, zum Austausch und zur Speicherung von Daten im Web entwickelt. Es ist sowohl menschenlesbar als auch maschinenlesbar, da für die Beschreibung die gleichen Zeichen verwendet werden wie die Zeichen des Beschriebenen.
XML fügt in einen Text oder Datenbestand Auszeichnungen ein, indem beispielsweise
ein Wort oder eine Wortkombination getagged wird. Beim Tagging wird das Wort von einem Auszeichnungselement
oder ‘Tag’ eingeschlossen und damit beschrieben. Dieses Markup steht immer zwischen den Spitzklammern <
und >, der Fließtext oder die Daten stehen außerhalb der Klammern. In folgendem
Beispiel ist deutlich erkennbar, dass das Markup den Text innerhalb der Klammern
genauer beschreibt und ihm eine Bedeutung gibt:
<name>
Franz</name>
.
Die Kombination aus Anfangstag, Endtag und Text bildet ein Element. Jedes Element
muss mit dem Anfangstag (<name>
) geöffnet und mit dem Endtag
(</name>
) geschlossen werden, letzteres wird immer durch
den, dem Endtag vorangestellten Schrägstrich gekennzeichnet. Jedes Element kann
weiters über Attribute und Attributwerte verfügen. Bei obigem Beispiel könnte das
sein: <name typ=“vorname“>
Franz</name>
.
Dabei ist ‘typ’ das Attribut, das mit seinem Wert ‘vorname’ angibt, dass es sich
bei dem getaggten Namen nicht um einen Nachnamen, sondern um einen Vornamen
handelt.
XML-Notation unterscheidet auch zwischen Groß- und Kleinschreibung:
<name>
hat als Tag eine andere Bedeutung als
<Name>
. Weitere Regeln, denen XML unterliegt, sind: leere
Tags können von der Schreibung <name></name>
zu der
gleichwertigen Schreibung <name/>
verkürzt werden; Tags können
innerhalb der spitzen Klammern Buchstaben, Zahlen und Striche enthalten,
Leerzeichen jedoch sind nur für die Trennung von einem oder mehreren Attributen
erlaubt.
XML folgt einer hierarchischen Struktur. Das bedeutet, dass ein Element andere Elemente beinhalten kann, sich Elemente jedoch nicht überlappen können.
Richtig ist die Auszeichnungsvariante:
<name><vorname>
Franz</vorname></name>
,
falsch wäre:
<name><vorname>
Franz</name></vorname>
.
Zusätzlich müssen alle Elemente in einem Wurzelelement enthalten sein, um eine
Baumstruktur zu bilden. Dieses Wurzelelement bildet ein Elternelement für alle
darin enthaltenen Elemente, die Kindelemente oder Child-Elements genannt werden. Unter diesen Kindelementen kann es
Geschwisterelemente geben, damit sind Elemente gemeint, die auf derselben Ebene
liegen und nicht ineinander verschachtelt sind. Jedes Element unter dem
Wurzelelement kann weitere Kindelemente einschließen. Wenn alle diese Regeln
eingehalten werden, wird von einem wohlgeformten Dokument gesprochen.
Damit bietet XML unendlich viele Möglichkeiten, um Daten hierarchisch zu modellieren und zu annotieren. Daher gibt es unterschiedliche XML-Dialekte, um Standards für den Datenaustausch zu schaffen, wie z. B. XHTML, MathML, SVG oder TEI.
Literatur:
- Quin, Liam. XML. URL: https://www.w3.org/XML/
- Vogeler, Georg; Sahle, Patrick. 2017. XML. In: Digital Humanities. Eine Einführung. Stuttgart, S. 128–148.