KONDE - Kompetenznetzwerk Digitale Edition

Weißbuch

NLP TEI Download PDF Download

Bleier, Roman; roman.bleier@uni-graz.at

Natural Language Processing (NLP) oder auch maschinelle Sprachverarbeitung beschäftigt sich mit der algorithmengestützten Verarbeitung von natürlicher Sprache. Teilaufgaben von NLP beschäftigen sich unter anderem mit Spracherkennung, Tokenisierung von Texten, Part-Of-Speech-Tagging/PoS, Named Entity Recognition/NER und dem automatisierten Erkennen und der Extraktion der Bedeutung von Wörtern im Satzgefüge und den Beziehungen zu anderen Wörtern sowie von Sätzen zueinander. In sogenannten NLP-Pipelines werden mehrere dieser Teilbereiche aufeinanderfolgend ausgeführt und ein Text (plain text) schrittweise mit Information angereichert. Ein Beispiel dafür ist das Onlineservice WebLicht. Es erlaubt der Nutzerin bzw. dem Nutzer, eine NLP-Pipeline mit austauschbaren Teilaufgaben, die von Drittanbietern zur Verfügung gestellt werden, zusammenzustellen und auf Texte anzuwenden.

Im Kontext von Digitalen Editionen kann NLP bei der Aufbereitung und Normalisierung von Texten und der automatisierten Anreicherung mit semantischen Informationen zum Einsatz kommen, zum Beispiel beim automatisierten Erkennen von Sätzen und dem Taggen von Personen und Orten. Die Daten von Digitalen Editionen können aber auch als Grundlage für NLP-Analysen dienen. In diesem Falle ist es der fertig edierte, elektronische Text, der mit NLP-Methoden für die Expertenanalyse aufbereitet wird. Ein weiterer Anwendungsfall wäre, dass die Editionsdaten als Trainingsdaten für Machine Learning verwendet werden (z. B. Personen- und Ortsdaten für NER).

Literatur:

Zitiervorschlag:

Bleier, Roman. 2021. NLP. In: KONDE Weißbuch. Hrsg. v. Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner im HRSM Projekt "Kompetenznetzwerk Digitale Edition". Aufgerufen am: . Handle: hdl.handle.net/11471/562.50.145. PID: o:konde.145