Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird, beschäftigten sich sieben universitäre Partner und drei weitere Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale Edition umfasst. Die behandelten Themenkomplexe reichen dabei über Digitale Editionswissenschaft im Allgemeinen, Annotation und Modellierung, Interfaces, Archivierung und Metadaten bis hin zu rechtlichen Aspekten.
Tagger sind Programme, die Text, meistens in tokenisierter Form (
Tokenizer
), automatisch mit entsprechenden Tags aus festgelegten Tagsets annotieren. Sie basieren großteils auf Machine Learning und wurden auf ausgewählten Korpora trainiert, die bereits Annotationen nach bestimmten Tagsets enthalten. In vielen Fällen lassen sich die Tagger auch auf eigenen annotierten Daten trainieren, zum Beispiel auf einer neuen Sprache oder mit einem alternativen Tagset. In Bezug auf
Part-of-Speech-Tagging
sind hier der TreeTagger
WebLicht
inkludiert. Der SoMeWeTa (Social Media and Web Tagger) Python-Libraries
spaCy
, Natural Language Toolkit (nltk) und flair bieten ebenfalls PoS-Tagging an.