Tagger Elisabeth Eder Projektleitung Helmut W. Klug Datenmodellierung Selina Galka Datenmodellierung Elisabeth Steiner Bundesministerium für Wissenschaft, Forschung und Wirtschaft Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria Zentrum für Informationsmodellierung - Austrian Centre for Digital Humanities, Karl-Franzens-Universität Graz Austria GAMS - Geisteswissenschaftliches Asset Management System Creative Commons BY 4.0 2021 Graz o:konde.176 KONDE Weißbuch Projektleitung Helmut W. Klug Weißbuchartikel: Tagger Elisabeth Eder Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner 2021 Austria KONDE Weißbuch

Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.

Deutsch
Tagger
Eder, Elisabeth; elisabeth.eder@aau.at

Tagger sind Programme, die Text, meistens in tokenisierter Form ( Tokenizer ), automatisch mit entsprechenden Tags aus festgelegten Tagsets annotieren. Sie basieren großteils auf Machine Learning und wurden auf ausgewählten Korpora trainiert, die bereits Annotationen nach bestimmten Tagsets enthalten. In vielen Fällen lassen sich die Tagger auch auf eigenen annotierten Daten trainieren, zum Beispiel auf einer neuen Sprache oder mit einem alternativen Tagset. In Bezug auf Part-of-Speech-Tagging sind hier der TreeTagger (Schmid 1994; Schmid 1995) sowie der neuere RNNTagger (Schmid 2019), die beide zudem die jeweiligen Lemmata der einzelnen Token ausgeben (Lemmatisierung), zu erwähnen. Neben einer Auswahl von PoS-Taggern ist auch der TreeTagger in WebLicht inkludiert. Der SoMeWeTa (Social Media and Web Tagger) (Proisl 2018) eignet sich speziell für deutsche Texte aus dem Social Media- und Web-Bereich. Die Python-Libraries spaCy , Natural Language Toolkit (nltk) und flair bieten ebenfalls PoS-Tagging an.

Contextual String Embeddings for Sequence Labeling Alan Akbik Duncan Blythe Roland Vollgraf Proceedings of the 27th International Conference on Computational Linguistics COLING Santa Fe, New Mexico, USA 1638–1649 Association for Computational Linguistics 2018 https://www.aclweb.org/anthology/C18-1139 SoMeWeTa: A Part-of-Speech Tagger for German Social Media and Web Texts Thomas Proisl Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018) LREC Miyazaki, Japan European Language Resources Association (ELRA) 2018 https://www.aclweb.org/anthology/L18-1106 Probabilistic Part-of-Speech Tagging Using Decision Trees Helmut Schmid Proceedings of International Conference on New Methods in Language Processing Manchester, United Kingdom 1994 https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf Improvements in Part-of-Speech Tagging with an Application to German Helmut Schmid Proceedings of the ACL SIGDAT-Workshop 1995 https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf Deep Learning-Based Morphological Taggers and Lemmatizers for Annotating Historical Texts Helmut Schmid Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage DaTeCH Brussels, Belgium 2019 https://www.cis.uni-muenchen.de/~schmid/papers/Datech2019.pdf
spacy flair TreeTagger RNNTagger SoMeWeTa
SoMeWeTa Liste von Part of Speech Taggern
Part-of-Speech-Tagging Tagsets spaCy WebLicht Lemmatisierung Tokenizer
Natural Language Processing