
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml" xmlns:t="http://www.tei-c.org/ns/1.0">
  <teiHeader xml:lang="de">
    <fileDesc>
      <titleStmt>
        <title type="main">xsl-tokenizer</title>
        <author>
          <persName>
            <forename>Daniel</forename>
            <surname>Schopper</surname>
          </persName>
        </author>
        <respStmt>
          <resp>Projektleitung</resp>
          <persName>
            <forename>Helmut W.</forename>
            <surname>Klug</surname>
          </persName>
        </respStmt>
        <respStmt>
          <resp>Datenmodellierung</resp>
          <persName>
            <forename>Selina</forename>
            <surname>Galka</surname>
          </persName>
        </respStmt>
        <respStmt>
          <resp>Datenmodellierung</resp>
          <persName>
            <forename>Elisabeth</forename>
            <surname>Steiner</surname>
          </persName>
        </respStmt>
        <funder>Bundesministerium für Wissenschaft, Forschung und Wirtschaft
                    </funder>
      </titleStmt>
      <publicationStmt>
        <publisher>
          <orgName corresp="https://informationsmodellierung.uni-graz.at" ref="http://d-nb.info/gnd/1137284463">Zentrum für
                        Informationsmodellierung - Austrian Centre for Digital Humanities,
                        Karl-Franzens-Universität Graz</orgName>
          <country>Austria</country>
        </publisher>
        <authority>
          <orgName corresp="https://informationsmodellierung.uni-graz.at" ref="http://d-nb.info/gnd/1137284463">Zentrum für
                        Informationsmodellierung - Austrian Centre for Digital Humanities,
                        Karl-Franzens-Universität Graz</orgName>
          <country>Austria</country>
        </authority>
        <distributor>
          <orgName ref="https://gams.uni-graz.at">GAMS - Geisteswissenschaftliches
                        Asset Management System</orgName>
        </distributor>
        <availability>
          <licence target="https://creativecommons.org/licenses/by-nc/4.0">Creative Commons
                            BY 4.0</licence>
        </availability>
        <date when="2021">2021</date>
        <pubPlace>Graz</pubPlace>
        <idno type="PID">o:konde.216</idno>
      </publicationStmt>
      <seriesStmt>
        <title ref="http://gams.uni-graz.at/konde">KONDE Weißbuch</title>
        <respStmt>
          <resp>Projektleitung</resp>
          <persName>
            <forename>Helmut W.</forename>
            <surname>Klug</surname>
          </persName>
        </respStmt>
      </seriesStmt>
      <sourceDesc>
        <bibl>
          <title>Weißbuchartikel: xsl-tokenizer</title>
          <author>Daniel Schopper</author>
          <publisher>Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner</publisher>
          <date>2021</date>
          <country>Austria</country>
        </bibl>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <projectDesc>
        <ab>
          <ref target="info:fedora/context:konde" type="context">KONDE Weißbuch</ref>
        </ab>
        <p>Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird,
                        beschäftigten sich sieben universitäre Partner und drei weitere
                        Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und
                        praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes
                        stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale
                        Edition umfasst. Die behandelten Themenkomplexe reichen dabei über
                        Digitale Editionswissenschaft im Allgemeinen, Annotation und
                        Modellierung, Interfaces, Archivierung und Metadaten bis hin zu
                        rechtlichen Aspekten.</p>
      </projectDesc>
    </encodingDesc>
    <profileDesc>
      <langUsage>
        <language ident="de">Deutsch</language> 
     </langUsage>
    </profileDesc>
  </teiHeader>
  <text xml:lang="de">
    <body>
      <div>
        <head>xsl-tokenizer</head>
        <div>
          <head>Schopper, Daniel; daniel.schopper@oeaw.ac.at </head>

          <p>Unter Tokenisierung versteht man die Zerlegung eines Fließtextes in Einzelsegmente
                  (Tokens), in aller Regel in Wörter, aber auch kleinere (Zeichen) oder größere
                  Einheiten (<hi rend="italic">Multi Word Items</hi>). Tokenisierung stellt den
                  ersten Verarbeitungsschritt zur (semi-)automatischen linguistischen (<ref target="/o:konde.156" type="internal">
              <hi rend="italic">Part-of-Speech</hi>-Tagging</ref> oder <ref target="/o:konde.115" type="internal">Lemmatisierung</ref>) oder semantischen
                     <ref target="/o:konde.17" type="internal">Annotation</ref> (<hi rend="italic">
              <ref target="/o:konde.151" type="internal">Named Entity Recognition/NER</ref>
            </hi>) dar; gleichzeitig ist sie auch Teil des Indizierungsprozesses für die <ref target="/o:konde.211" type="internal">Volltextsuche</ref>.</p>
          <p>In <ref target="/o:konde.59" type="internal">Digitalen Editionen</ref> häufig
                  notwendige komplexe <ref target="/o:konde.126" type="internal">Markup</ref>-Strukturen, insbesondere voneinander unabhängige Textflüsse in einem
                  Dokument (wie z. B. in den Haupttext eingebettete Fußnoten oder ein textkritischer
                  Variantenapparat), stellen eine Herausforderung für die Tokenisierung dar.</p>
          <p>Der <hi rend="italic">xsl-tokenizer</hi> ist eine auf <ref target="/o:konde.86" type="internal">XSLT</ref> 2.0 aufbauende Softwarelösung, die es
                  ermöglicht, <ref target="/o:konde.215" type="internal">XML</ref>-Instanzen
                  regelbasiert zu tokenisieren und dabei bestehende Dokumentstrukturen zu erhalten.
                  Er ist vollständig parametrierbar und kann somit für unterschiedliche
                  XML-Schemata, <ref target="/o:konde.177" type="internal">Tagsets</ref> und
                  Annotationsrichtlinien verwendet werden. Das Ergebnis der Prozessierung wird im
                  Quelldokument mit den <ref target="/o:konde.178" type="internal">TEI</ref>-Elementen <code>&lt;w&gt;</code> bzw. <code>&lt;pc&gt;</code> kodiert. Wo durch die Tokenisierung
                  überlappende XML-Hierarchien <bibl>(TEI Guidelines, Kapitel 20: Non-hierarchical
                     Structures)</bibl> entstünden, wird ein Token in mehreren Elemente abgebildet,
                  die mit <code ana="https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-att.fragmentable.html">@part</code> markiert und durch <code ana="https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-att.global.linking.html">@prev</code> bzw. <code ana="https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-att.global.linking.html">@next</code> verbunden sind. Weiters besteht die Option, eine verflachte
                  Tokenliste mit vereinfachter Dokumentstruktur auszugeben, die von einem <ref target="/o:konde.176" type="internal">Tagger</ref> angereichert und
                  anschließend wieder in das Quelldokument integriert werden kann.</p>
          <div type="literature">
            <listBibl>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/Q69C338C" type="webpage" xml:id="TEI_Consortiuma">
                <analytic>
                  <title level="a">16 Linking, Segmentation, and Alignment</title>
                  <author>
                    <name>TEI Consortium</name>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">The TEI P5 Guidelines</title>
                  <imprint>
                    <date></date>              
      <note type="accessed">2020-01-21T16:06:55Z</note>
                    <note type="url">https://tei-c.org/release/doc/tei-p5-doc/en/html/SA.html</note>
                  </imprint>
                </monogr>
              </biblStruct>
            </listBibl>
          </div>
          <div type="subsection" xml:id="software">
            <list>
              <item>
                <ref target="https://github.com/acdh-oeaw/xsl-tokenizer" type="external">xsl-tokenizer</ref>
              </item>
              <item>
                <ref target="https://github.com/acdh-oeaw/acdh-spacytei" type="external">acdh-spacytei</ref>
              </item>
              <item>
                <ref target="https://nlp.fi.muni.cz/trac/noske" type="external">No Sketch
                           Engine </ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="links">
            <list>
              <item>
                <ref target="/o:konde.145" type="internal">NLP</ref>
              </item>
              <item>
                <ref target="/o:konde.17" type="internal">Textannotation</ref>
              </item>
              <item>
                <ref target="/o:konde.115" type="internal">Lemmatisierung</ref>
              </item>
              <item>
                <ref target="/o:konde.141" type="internal">Named Entity Recognition /
                           NER</ref>
              </item>
              <item>
                <ref target="/o:konde.156" type="internal">POS-Tagging</ref>
              </item>
              <item>
                <ref target="/o:konde.176" type="internal">Tagger</ref>
              </item>
              <item>
                <ref target="/o:konde.177" type="internal">Tagsets</ref>
              </item>
              <item>
                <ref target="/o:konde.86" type="internal">XSLT</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="projects">
            <list>
              <item>
                <ref target="https://www.corpusthomisticum.org/wintrode.html" type="external">Corpus
                           Thomasticum</ref>
              </item>
              <item>
                <ref target="http://mhdbdb.sbg.ac.at/" type="external">Mittelhochdeutsche
                           Begriffsdatenbank (MHDBDB)</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="topics">
            <list>
              <item>Natural Language Processing</item>
              <item>Software und Softwareentwicklung</item>
            </list>
          </div>
        </div>
      </div>
    </body>
  </text>
</TEI>
