Digitale Edition

Weißbuch

Sentimentanalyse TEI Download PDF Download

Krušić, Lucija; lucija.krusic@uni-graz.at / Sarić, Sanja; sanja.saric@uni-graz.at / Scholger, Martina; martina.scholger@uni-graz.at

Sentimentanalyse, die Identifizierung und Klassifizierung von Gefühlen, Emotionen, Einstellungen und Meinungen in Texten, ist ein schnell wachsendes Forschungsfeld in den Digital Humanities (DH). Sie hat ihren Ursprung im Natural Language Processing (NLP) und wird häufig in den Medien-, Kommunikations- und Sozialwissenschaften eingesetzt (Dang et al. 2020). In den DH kommt sie in zahlreichen Forschungskontexten zur Anwendung, wie zum Beispiel der Analyse von historischen Zeitschriften (Koncar et al. 2022), Romanen (Stanković et al. 2022), Theaterstücken (Schmidt et al. 2021), Gedichten (Sprugnoli et al. 2022), Märchen (Zehe et al. 2017), Liedtexten (Hernández-Lorenzo et al. 2022) und Holocaust-Zeugnissen (Blanke et al. 2020).

Der Begriff Sentimentanalyse (auch: Stimmungsanalyse oder Opinion Mining) umfasst sowohl die Polaritäts- als auch Emotionsanalyse (Liu 2012). Die Polaritätsanalyse zielt darauf ab, Texte auf Basis von Sentimentwerten als tendenziell positiv oder negativ einzustufen. Neben der binären Unterscheidung (positiv, negativ) wird häufig eine neutrale Kategorie ergänzt. Zudem sind auch detailliertere Abstufungen möglich, die von ‘sehr positiv’ zu ‘sehr negativ’ reichen und sich neben einer kategorialen Bezeichnung auch auf einer numerischen Skala (z. B. von -1 bis +1) bewegen können. Die Emotionsanalyse hingegen basiert auf differenzierteren Kategorien etablierter Emotionsmodelle aus der Psychologie, z. B. Paul Ekmans Basisemotionen (1993) wie Angst, Freude, Trauer usw. (Acheampong et al. 2020).

Für die Sentimentanalyse haben sich zwei unterschiedliche Ansätze etabliert: Lexikonbasierte und Machine-Learning-Verfahren. Sentiment-Lexika sind Sammlungen von Wörtern und Phrasen, die mit Sentimentwerten versehen sind (Schmidt et al. 2021). Aufgrund der großen Bandbreite an Textsorten, den sprachlichen Unterschieden, Bedeutungsverschiebungen und der orthografischen Varianz der für die DH üblichen Texte unterschiedlicher historischer Herkunft müssen diese Ressourcen jedoch häufig für ein spezifisches Projekt maßgeschneidert werden – ein ressourcen- und zeitaufwändiger Prozess. Ein alternativer Ansatz ist die Verwendung von Methoden des maschinellen Lernens.

Machine-Learning-Methoden gelten inzwischen als Stand der Technik für die Stimmungsanalyse, insbesondere in den Bereichen Finanz und Marketing (Hartman et al. 2023). Dabei reicht das Methodenspektrum von statischen Sprachmodellen wie etwa Word2Vec (Mikolov et al. 2013), GloVe (Pennington et al. 2014) und fastText [(Bojanowski et al. 2017) bis hin zu transfromer-basierten Modellen wie BERT (Devlin et al. 2020), RoBERTa (Liu et al. 2019) und GPT (OpenAI et al. 2023). Insbesondere letztere ermöglichen eine genauere Klassifizierung der Stimmungen aufgrund des Potenzials kontextbezogenes Wissen einzubeziehen, erfordern jedoch eine große Menge annotierter Trainingskorpora (Schmidt et al. 2021). Der Mangel an annotierten Daten zum Trainieren solcher Algorithmen und die Notwendigkeit der Domänenanpassung sind die zentralen Herausforderungen, denen sich die DH-Community bei der Anwendung dieser Methoden gegenübersieht (Suissa et al. 2022). Die Erstellung annotierter Korpora ist eine anspruchsvolle Aufgabe, die die Einbeziehung von Domänenexpertinnen und -experten (Sprugnoli 2020) sowie die Bereitstellung klarer Anweisungen und ausreichender Schulung für Nichtexpertinnen und -experten (Schmidt et al. 2021) erfordert, um einen ausgewogenen Basisdatensatz für die Modellanpassung zu erstellen. Bei der Sentimentanalyse stellen das Erkennen von Sarkasmus oder Ironie, das Handling von Negationen, die Disambiguierung von Wortbedeutungen (Word Sense Disambiguation), die Analyse von Sprachen mit geringen Ressourcen, die Verarbeitung mehrsprachiger Korpora und die Berücksichtigung von Intensifiern nach wie vor wesentliche Herausforderungen dar, weshalb es umso wichtiger ist, die Ergebnisse nicht unreflektiert zu akzeptieren, sondern sie sowohl durch computergestützte Methoden als auch durch manuelle Evaluierung zu überprüfen. In den letzten Jahren gab es bereits erfolgreiche Versuche, annotierte Datensätze zu generieren und Deep-Learning-Methoden für die Sentimentanalyse von DH-Korpora einzusetzen (Sprugnoli et al. 2022; Schmidt et al. 2021; Blanke et al. 2019).

Als Eingabedaten für die Sentimentanalyse werden in der Regel Rohtexte verwendet. Im Kontext Digitaler Editionen ermöglicht eine mittels der Text Encoding Initiative (TEI) annotierte Datenbasis eine umfassendere und detailliertere Analyse. Dies ist möglich durch das Extrahieren und das separate Analysieren von annotierten Strukturen, wie etwa verschiedenen narrativen Formen. Zudem können die Ergebnisse der Stimmungsanalyse wieder in die TEI-Kodierung zurückgeführt und für Digitale Editionen nutzbar gemacht werden, zum Beispiel um Visualisierungen der Stimmungsverteilung oder der Entwicklung der Stimmung im Laufe eines größeren Zeitraumes zu erstellen.

Die Sentimentanalyse erweist sich sowohl für die DH als auch für die breite Öffentlichkeit als wertvolle Methode zur Erkennung von Stimmungen und Emotionen in geistes- und kulturwissenschaftlichen Texten und Datensätzen.

Literatur:

  • Acheampong, Francisca Adoma; Wenyu, Chen; Nunoo‐Mensah, Henry. 2020. Text‐based emotion detection: Advances, challenges, and opportunities. In: Engineering Reports 2, S. 1-24.
  • Blanke, Tobias; Bryant, Michael; Hedges, Mark. 2020. Understanding memories of the Holocaust—A new approach to neural networks in the digital humanities. In: Digital Scholarship in the Humanities 35, S. 17-33.
  • Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas. Enriching Word Vectors with Subword Information. URL: http://arxiv.org/abs/1607.04606
  • Dang, Nhan Cach; Moreno-García, María N; De La Prieta, Fernando. 2020. Sentiment Analysis Based on Deep Learning: A Comparative Study. In: Electronics 9, S. 483 (1-29).
  • Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: NAACL-HLT 2019 NAACL-HLT 2019. Minneapolis, Minnesota,US, S. 4171-4186.
  • Ekman, Paul. 1993. Facial expression and emotion. In: American psychologist 48, S. 384-392.
  • Hartmann, Jochen; Heitmann, Mark; Siebert, Christian; Schamp, Christina. 2023. More than a Feeling: Accuracy and Application of Sentiment Analysis. In: International Journal of Research in Marketing 40, S. 75-87.
  • Hernández-Lorenzo, Laura; Diaz, Aitor; Perez, Alvaro; Ros, Salvador; González-Blanco, Elena. 2022. Exploring Spanish contemporary song lyrics through Digital Humanities methods: Some thematic and structural properties. In: Digital Scholarship in the Humanities 37, S. 738-746.
  • Koncar, Phillip; Geiger, Bernhard C; Glatz, Christina; Hobisch, Elisabeth; Sarić, Sanja; Scholger, Martina; Völkl, Yvonne; Helic, Denis. 2021. A Sentiment Analysis Tool Chain for 18th Century Periodicals: Experimente in den Digital Humanities. In: Fabrikation von Erkenntnis. Experimente in den Digital Humanities.. Hrsg. von Manuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels-Oliver Walkowski, Joelle Weis und Ulrike Wuttke. Luxemburg.
  • Liu, Yinhan; Ott, Myle; Goyal, Naman; Du, Jingfei; Joshi, Mandar; Chen, Danqi; Levy, Omer; Lewis, Mike; Zettlemoyer, Luke; Stoyanov, Veselin. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach.
  • Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey. 2013. Efficient Estimation of Word Representations in Vector Space.
  • OpenAI. GPT-4 Technical Report. URL: http://arxiv.org/abs/2303.08774
  • Pennington, Jeffrey; Socher, Richard; Manning, Christopher. 2014. Glove: Global Vectors for Word Representation. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar, S. 1532-1543.
  • Schmidt, Thomas; Dennerlein, Katrin; Wolff, Christian. 2021. Using Deep Learning for Emotion Analysis of 18th and 19th Century German Plays. In: Fabrikation von Erkenntnis Teilband 1. Hrsg. von Manuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels-Oliver Walkowski, Joëlle Weis und Ulrike Wuttke. Esch-sur-Alzette, S. 1-34.
  • Sprugnoli, Rachele; Passarotti, Marco; Cecchini, Flavio Massimiliano; Pellegrini, Matteo. 2020. Overview of the EvaLatin 2020 Evaluation Campaign. In: Proceedings of LT4HALA 2020 – 1st Workshop on Language Technologies for Historical and Ancient Languages LT4HALA 2020. Marseille, France, S. 105–110.
  • Sprugnoli, Rachele; Mambrini, Francesco; Passarotti, Marco; Moretti, Giovanni. 2021. Sentiment Analysis of Latin Poetry: First Experiments on the Odes of Horace. In: Proceedings of the Eighth Italian Conference on Computational Linguistics (CLiC-it 2021) CLiC-it 2021. Milan, S. 1-7.
  • Stanković, Ranka; Košprdić, Miloš; Ikonić Nešić, Milica; Radović, Tijana. 2022. Sentiment Analysis of Serbian Old Novels. In: Proceedings of the 2nd Workshop on Sentiment Analysis and Linguistic Linked Data SALLD 2022. Marseille, France, S. 31-38.
  • Suissa, Omri; Elmalech, Avshalom; Zhitomirsky‐Geffet, Maayan. 2022. Text analysis using deep neural networks in digital humanities and information science. In: Journal of the Association for Information Science and Technology 73, S. 268-287.
  • Zehe, Albin; Becker, Martin; Jannidis, Fotis; Hotho, Andreas. 2017. Towards Sentiment Analysis on German Literature. In: KI 2017: Advances in Artificial Intelligence 10505. Hrsg. von Gabriele Kern-Isberner, Johannes Fürnkranz und Matthias Thimm. Cham, S. 387-394.

Zitiervorschlag:

Krušić, Lucija; Sarić, Sanja; Scholger, Martina 2024. Sentimentanalyse. In: KONDE Weißbuch. Hrsg. v. Selina Galka und Helmut W. Klug unter Mitarbeit von Susanne Höfer im Projekt "Enlarging 'Weißbuch Digitale Edition'". Aufgerufen am: . Handle: hdl.handle.net/11471/562.50.274. PID: o:konde.232

Metadata:

Hier finden Sie umfangreiche Metadaten; außerdem auch ältere Versionen der Weißbucheinträge: Metadaten

Für diesen Artikel existiert eine ältere Version, die Sie hier einsehen können.