
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml" xmlns:t="http://www.tei-c.org/ns/1.0">
  <teiHeader xml:lang="de">
    <fileDesc>
      <titleStmt>
        <title type="main">Tagger</title>
        <author>
          <persName>
            <forename>Elisabeth</forename>
            <surname>Eder</surname>
          </persName>
        </author>
        <respStmt>
          <resp>Projektleitung</resp>
          <persName>
            <forename>Helmut W.</forename>
            <surname>Klug</surname>
          </persName>
        </respStmt>
        <respStmt>
          <resp>Datenmodellierung</resp>
          <persName>
            <forename>Selina</forename>
            <surname>Galka</surname>
          </persName>
        </respStmt>
        <respStmt>
          <resp>Datenmodellierung</resp>
          <persName>
            <forename>Elisabeth</forename>
            <surname>Steiner</surname>
          </persName>
        </respStmt>
        <funder>Bundesministerium für Wissenschaft, Forschung und Wirtschaft
                    </funder>
      </titleStmt>
      <publicationStmt>
        <publisher>
          <orgName corresp="https://informationsmodellierung.uni-graz.at" ref="http://d-nb.info/gnd/1137284463">Zentrum für
                        Informationsmodellierung - Austrian Centre for Digital Humanities,
                        Karl-Franzens-Universität Graz</orgName>
          <country>Austria</country>
        </publisher>
        <authority>
          <orgName corresp="https://informationsmodellierung.uni-graz.at" ref="http://d-nb.info/gnd/1137284463">Zentrum für
                        Informationsmodellierung - Austrian Centre for Digital Humanities,
                        Karl-Franzens-Universität Graz</orgName>
          <country>Austria</country>
        </authority>
        <distributor>
          <orgName ref="https://gams.uni-graz.at">GAMS - Geisteswissenschaftliches
                        Asset Management System</orgName>
        </distributor>
        <availability>
          <licence target="https://creativecommons.org/licenses/by-nc/4.0">Creative Commons
                            BY 4.0</licence>
        </availability>
        <date when="2021">2021</date>
        <pubPlace>Graz</pubPlace>
        <idno type="PID">o:konde.176</idno>
      </publicationStmt>
      <seriesStmt>
        <title ref="http://gams.uni-graz.at/konde">KONDE Weißbuch</title>
        <respStmt>
          <resp>Projektleitung</resp>
          <persName>
            <forename>Helmut W.</forename>
            <surname>Klug</surname>
          </persName>
        </respStmt>
      </seriesStmt>
      <sourceDesc>
        <bibl>
          <title>Weißbuchartikel: Tagger</title>
          <author>Elisabeth Eder</author>
          <publisher>Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner</publisher>
          <date>2021</date>
          <country>Austria</country>
        </bibl>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <projectDesc>
        <ab>
          <ref target="info:fedora/context:konde" type="context">KONDE Weißbuch</ref>
        </ab>
        <p>Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird,
                        beschäftigten sich sieben universitäre Partner und drei weitere
                        Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und
                        praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes
                        stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale
                        Edition umfasst. Die behandelten Themenkomplexe reichen dabei über
                        Digitale Editionswissenschaft im Allgemeinen, Annotation und
                        Modellierung, Interfaces, Archivierung und Metadaten bis hin zu
                        rechtlichen Aspekten.</p>
      </projectDesc>
    </encodingDesc>
    <profileDesc>
      <langUsage>
        <language ident="de">Deutsch</language>
      </langUsage>
    </profileDesc>
  </teiHeader>
  <text xml:lang="de">
    <body>
      <div>
        <head>Tagger</head>
        <div>
          <head>Eder, Elisabeth; elisabeth.eder@aau.at </head>
          <p>Tagger sind Programme, die Text, meistens in tokenisierter Form (<hi rend="italic">
              <ref target="/o:konde.216" type="internal">Tokenizer</ref>
            </hi>), automatisch mit entsprechenden Tags aus festgelegten <ref target="/o:konde.177" type="internal">Tagsets</ref> annotieren. Sie basieren großteils auf <hi rend="italic">Machine Learning</hi> und wurden auf ausgewählten Korpora trainiert, die bereits <ref target="/o:konde.17" type="internal">Annotationen</ref> nach bestimmten Tagsets enthalten. In vielen Fällen lassen sich die Tagger auch auf eigenen annotierten Daten trainieren, zum Beispiel auf einer neuen Sprache oder mit einem alternativen Tagset. In Bezug auf <hi rend="italic">
              <ref target="/o:konde.156" type="internal">Part-of-Speech-Tagging</ref>

            </hi> sind hier der TreeTagger <bibl>(Schmid 1994; Schmid 1995)</bibl> sowie der neuere RNNTagger <bibl>(Schmid 2019)</bibl>, die beide zudem die jeweiligen Lemmata der einzelnen Token ausgeben (<ref target="/o:konde.115" type="internal">Lemmatisierung</ref>), zu erwähnen. Neben einer Auswahl von PoS-Taggern ist auch der TreeTagger in <hi rend="italic">
              <ref target="/o:konde.212" type="internal">WebLicht</ref>
            </hi> inkludiert. Der SoMeWeTa (<hi rend="italic">Social Media and Web Tagger</hi>) <bibl>(Proisl 2018)</bibl> eignet sich speziell für deutsche Texte aus dem Social Media- und Web-Bereich. Die <hi rend="italic">Python-Libraries</hi>
            <hi rend="italic">
              <ref target="/o:konde.170" type="internal">spaCy</ref>
            </hi>, <hi rend="italic">Natural Language Toolkit</hi> (nltk) und <hi rend="italic">flair</hi> bieten ebenfalls PoS-Tagging an.</p>
          <div type="literature">
            <listBibl>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/QF8Q6MZT" type="conferencePaper" xml:id="Akbik2018">
                <analytic>
                  <title level="a">Contextual String Embeddings for Sequence Labeling</title>
                  <author>
                    <forename>Alan</forename>
                    <surname>Akbik</surname>
                  </author>
                  <author>
                    <forename>Duncan</forename>
                    <surname>Blythe</surname>
                  </author>
                  <author>
                    <forename>Roland</forename>
                    <surname>Vollgraf</surname>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">Proceedings of the 27th International Conference on Computational Linguistics</title>
                  <title type="conferenceName">COLING</title>
                  <imprint>
                    <pubPlace>Santa Fe, New Mexico, USA</pubPlace>
                    <biblScope unit="page">1638–1649</biblScope>
                    <publisher>Association for Computational Linguistics</publisher>
                    <date>2018</date>
                    <note type="url">https://www.aclweb.org/anthology/C18-1139</note>
                  </imprint>
                </monogr>
              </biblStruct>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/C6H2ZPND" type="conferencePaper" xml:id="Proisl2018">
                <analytic>
                  <title level="a">SoMeWeTa: A Part-of-Speech Tagger for German Social Media and Web Texts</title>
                  <author>
                    <forename>Thomas</forename>
                    <surname>Proisl</surname>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)</title>            
      <title type="conferenceName">LREC</title>
                  <imprint>
                    <pubPlace>Miyazaki, Japan</pubPlace>
                    <publisher>European Language Resources Association (ELRA)</publisher>
                    <date>2018</date>
                    <note type="url">https://www.aclweb.org/anthology/L18-1106</note>
                  </imprint>
                </monogr>
              </biblStruct>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/EQQ676WR" type="conferencePaper" xml:id="Schmid1994">
                <analytic>
                  <title level="a">Probabilistic Part-of-Speech Tagging Using Decision Trees</title>
                  <author>
                    <forename>Helmut</forename>
                    <surname>Schmid</surname>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">Proceedings of International Conference on New Methods in Language Processing</title>
                  <imprint>
                    <pubPlace>Manchester, United Kingdom</pubPlace>
                    <date>1994</date>
                    <note type="url">https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf</note>
                  </imprint>
                </monogr>
              </biblStruct>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/35MDAASP" type="conferencePaper" xml:id="Schmid1995">
                <analytic>
                  <title level="a">Improvements in Part-of-Speech Tagging with an Application to German</title>
                  <author>
                    <forename>Helmut</forename>
                    <surname>Schmid</surname>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">Proceedings of the ACL SIGDAT-Workshop</title>
                  <imprint>
                    <date>1995</date>
                    <note type="url">https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf</note>
                  </imprint>
                </monogr>
              </biblStruct>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/UCVESZ45" type="conferencePaper" xml:id="Schmid2019">
                <analytic>
                  <title level="a">Deep Learning-Based Morphological Taggers and Lemmatizers for Annotating Historical Texts</title>
                  <author>
                    <forename>Helmut</forename>
                    <surname>Schmid</surname>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage</title>
                  <title type="conferenceName">DaTeCH</title>
                  <imprint>
                    <pubPlace>Brussels, Belgium</pubPlace>
                    <date>2019</date>
                    <note type="url">https://www.cis.uni-muenchen.de/~schmid/papers/Datech2019.pdf</note>
                  </imprint>
                </monogr>
              </biblStruct>
            </listBibl>
          </div>
          <div type="subsection" xml:id="software">
            <list>
              <item>
                <ref target="https://spacy.io/" type="external">spacy </ref>
              </item>
              <item>
                <ref target="https://github.com/zalandoresearch/flair" type="external">flair</ref>
              </item>
              <item>
                <ref target="https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/" type="external">TreeTagger</ref>
              </item>
              <item>
                <ref target="https://www.cis.uni-muenchen.de/~schmid/tools/RNNTagger/" type="external">RNNTagger</ref>
              </item>
              <item>
                <ref target="https://github.com/tsproisl/SoMeWeTa" type="external">SoMeWeTa</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="projects">
            <list>
              <item>
                <ref target="https://github.com/tsproisl/SoMeWeTa" type="external">SoMeWeTa</ref>
              </item>
              <item>
                <ref target="https://nlp.stanford.edu/links/statnlp.html#Taggers" type="external">Liste von Part of Speech Taggern</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="links">
            <list>
              <item>
                <ref target="/o:konde.156" type="internal">Part-of-Speech-Tagging</ref>
              </item>
              <item>
                <ref target="/o:konde.177" type="internal">Tagsets</ref>
              </item>
              <item>
                <ref target="/o:konde.170" type="internal">spaCy</ref>
              </item>
              <item>
                <ref target="/o:konde.212" type="internal">WebLicht</ref>
              </item>
              <item>
                <ref target="/o:konde.115" type="internal">Lemmatisierung</ref>
              </item>
              <item>
                <ref target="/o:konde.216" type="internal">Tokenizer</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="topics">
            <list>
              <item>Natural Language Processing</item>
            </list>
          </div>
        </div>
      </div>
    </body>
  </text>
</TEI>
