
<TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:h="http://www.w3.org/1999/xhtml" xmlns:t="http://www.tei-c.org/ns/1.0">
  <teiHeader xml:lang="de">
    <fileDesc>
      <titleStmt>
        <title type="main">Text Mining</title>
        <author>
          <persName>
            <forename>Sarah</forename>
            <surname>Lang</surname>
          </persName>
        </author>
        <respStmt>
          <resp>Projektleitung</resp>
          <persName>
            <forename>Helmut W.</forename>
            <surname>Klug</surname>
          </persName>
        </respStmt>
        <respStmt>
          <resp>Datenmodellierung</resp>
          <persName>
            <forename>Selina</forename>
            <surname>Galka</surname>
          </persName>
        </respStmt>
        <respStmt>
          <resp>Datenmodellierung</resp>
          <persName>
            <forename>Elisabeth</forename>
            <surname>Steiner</surname>
          </persName>
        </respStmt>
        <funder>Bundesministerium für Wissenschaft, Forschung und Wirtschaft
                    </funder>
      </titleStmt>
      <publicationStmt>
        <publisher>
          <orgName corresp="https://informationsmodellierung.uni-graz.at" ref="http://d-nb.info/gnd/1137284463">Zentrum für
                        Informationsmodellierung - Austrian Centre for Digital Humanities,
                        Karl-Franzens-Universität Graz</orgName>
          <country>Austria</country>
        </publisher>
        <authority>
          <orgName corresp="https://informationsmodellierung.uni-graz.at" ref="http://d-nb.info/gnd/1137284463">Zentrum für
                        Informationsmodellierung - Austrian Centre for Digital Humanities,
                        Karl-Franzens-Universität Graz</orgName>
          <country>Austria</country>
        </authority>
        <distributor>
          <orgName ref="https://gams.uni-graz.at">GAMS - Geisteswissenschaftliches
                        Asset Management System</orgName>
        </distributor>
        <availability>
          <licence target="https://creativecommons.org/licenses/by-nc/4.0">Creative Commons
                            BY 4.0</licence>
        </availability>
        <date when="2021">2021</date>
        <pubPlace>Graz</pubPlace>
        <idno type="PID">o:konde.194</idno>
      </publicationStmt>
      <seriesStmt>
        <title ref="http://gams.uni-graz.at/konde">KONDE Weißbuch</title>
        <respStmt>
          <resp>Projektleitung</resp>
          <persName>
            <forename>Helmut W.</forename>
            <surname>Klug</surname>
          </persName>
        </respStmt>
      </seriesStmt>
      <sourceDesc>
        <bibl>
          <title>Weißbuchartikel: Text Mining</title>
          <author>Sarah Lang</author>
          <publisher>Herausgegeben von Helmut W. Klug unter Mitarbeit von Selina Galka und Elisabeth Steiner</publisher>
          <date>2021</date>
          <country>Austria</country>
        </bibl>
      </sourceDesc>
    </fileDesc>
    <encodingDesc>
      <projectDesc>
        <ab>
          <ref target="info:fedora/context:konde" type="context">KONDE Weißbuch</ref>
        </ab>
        <p>Im KONDE-Projekt, das aus Hochschulraumstrukturmitteln finanziert wird,
                        beschäftigten sich sieben universitäre Partner und drei weitere
                        Einrichtungen aus unterschiedlichen Blickwinkeln mit theoretischen und
                        praktischen Aspekten der Digitalen Edition. Ein Outcome des Projektes
                        stellt das Weißbuch dar, welches über 200 Artikel zum Thema Digitale
                        Edition umfasst. Die behandelten Themenkomplexe reichen dabei über
                        Digitale Editionswissenschaft im Allgemeinen, Annotation und
                        Modellierung, Interfaces, Archivierung und Metadaten bis hin zu
                        rechtlichen Aspekten.</p>
      </projectDesc>
    </encodingDesc>
    <profileDesc>
      <langUsage>
        <language ident="de">Deutsch</language>
      </langUsage>
    </profileDesc>
  </teiHeader>
  <text xml:lang="de">
    <body>
      <div>
        <head>Text Mining</head>
        <div>
          <head>Lang, Sarah; sarah.lang@uni-graz.at </head>
          <p>Der Begriff des <hi rend="italic">Text Mining</hi> (TM) wurde 1995 durch Ronen Feldman und Ido Dagan unter dem Titel <hi rend="italic">Knowledge Discovery from Text</hi> (KDT) eingeführt; er bleibt jedoch bis heute wenig klar abgegrenzt. Allgemein wird TM aus dem Blickwinkel der Informatik als “a subfield devoted to the extraction of knowledge from unstructured text” angesehen <bibl>(Jockers/Underwood 2016, S. 292)</bibl>. Zugehörig zur Domäne von <hi rend="italic">
              <ref target="/o:konde.48" type="internal">Data Mining</ref>
            </hi> und <hi rend="italic">Data Science</hi>, wird es als ‘<hi rend="italic">Data Mining</hi> unter Benutzung von Textdaten’ definiert und mitunter auch <hi rend="italic">Text Data Mining</hi> genannt. Ziele dabei sind <hi rend="italic">Information Extraction</hi> (IE), <hi rend="italic">Information Retrieval</hi> (IR) und <hi rend="italic">Knowledge Discovery</hi>. </p>
          <p>Zur Datenverarbeitung wird <hi rend="italic">
              <ref target="/o:konde.145" type="internal">Natural Language Processing (NLP)</ref>
            </hi> verwendet, wodurch eine Nähe zum Feld der Computerlinguistik entsteht. Im Gegensatz zum <hi rend="italic">
              <ref target="/o:konde.71" type="internal">Distant Reading</ref>
            </hi> wird der Begriff <hi rend="italic">Text Mining</hi> eher im Kontext der Informatik verwendet. Distant Reading findet sich in den Digital Humanities zumeist in Form von Computerphilologie (<hi rend="italic">Computational Literary Studies</hi>), wobei digitale Analysemethoden für die <ref target="/o:konde.100" type="internal">Interpretation</ref> von Text fruchtbar gemacht werden sollen. <hi rend="italic">Text Mining</hi> dagegen verfolgt Ziele aus dem Bereich der <hi rend="italic">Information Extraction</hi>. <hi rend="italic">Text Mining</hi> versteht Text als reines Datenbündel (vgl. <hi rend="italic">bag-of-words</hi>) oder als Datenlieferanten, der selbst in der Analyse keine weitere Bedeutung mehr haben muss. Die Resultate werden dem Text nur ‘entnommen’. Also ist <hi rend="italic">Text Mining</hi> nicht primär ein hermeneutisches Tool zur Textinterpretation, sondern eher ein Werkzeug zur Textauswertung. </p>
          <p>Die Aufgabe des <hi rend="italic">Text Mining</hi> besteht in statistischer Pattern-Erkennung, die in Anwendungen wie <hi rend="italic">Text Clustering</hi>, <hi rend="italic">Text Categorization</hi>, <hi rend="italic">Entity Extraction</hi>, <hi rend="italic">Document Summarization</hi> oder auch <hi rend="italic">Sentiment Analysis</hi> vorkommt. Aber auch TF-IDF (<hi rend="italic">term frequency-inverse document frequency</hi>), Intertextualitäts- oder Plagiatserkennung (<hi rend="italic">Intertextuality / Text Reuse / Plagiarism Detection</hi>) gehören dazu sowie das Pre-Processing von Inputtext durch Parsen und <hi rend="italic">
              <ref target="/o:konde.145" type="internal">Natural Language Processing (NLP)</ref>

            </hi>, um eine gewisse Strukturierung der ansonsten als  unstrukturiert bezeichneten Datengattung ‘Text’ zu erzielen. Die Bezeichnung des ‘Mining’ verweist auch besonders auf die Analyse der Big Data des Internet (<hi rend="italic">Web Mining</hi>). Mitunter wird <hi rend="italic">Text Mining</hi> auch mithilfe von <hi rend="italic">Machine Learning</hi>-Algorithmen betrieben. Ressourcen, die speziell zum <hi rend="italic">Text Mining</hi> erarbeitet wurden, sind außerdem zumeist nicht primär für die Anwendung auf historische Texte und Sprachen beziehungsweise  überhaupt auf geisteswissenschaftliche Anwendungsszenarien ausgelegt. Im Fall von <hi rend="italic">Text Mining</hi> wird außerdem tendenziell eher von Big Data-Anwendungen ausgegangen, wohingegen <hi rend="italic">Distant Reading</hi>-Methoden zur quantitativen Textanalyse auch schon mit verhältnismäßig kleineren Textkorpora durchgeführt werden. </p>
          <div type="literature">
            <listBibl>
              <biblStruct corresp="http://zotero.org/groups/1332658/items/T5P8NIXK" type="bookSection" xml:id="Jockers2016">
                <analytic>
                  <title level="a">Text‐Mining the Humanities</title>
                  <author>
                    <forename>Matthew L.</forename>
                    <surname>Jockers</surname>
                  </author>
                  <author>
                    <forename>Ted</forename>
                    <surname>Underwood</surname>
                  </author>
                </analytic>
                <monogr>
                  <title level="m">A New Companion to Digital Humanities</title>
                  <editor>
                    <forename>Susan</forename>
                    <surname>Schreibman</surname>
                  </editor>
                  <editor>
                    <forename>Ray</forename>
                    <surname>Siemens</surname>
                  </editor>
                  <editor>
                    <forename>Jon</forename>
                    <surname>Unsworth</surname>
                  </editor>
                  <imprint>
                    <pubPlace>Chichester</pubPlace>
                    <biblScope unit="page">291–306</biblScope>
                    <publisher>Wiley</publisher>
                    <date>2016</date>
                    <note type="url">https://doi.org/10.1002/9781118680605.ch20</note>
                  </imprint>
                </monogr>
                <series>
                  <title level="s">Companions to Literature and Culture</title>
                  <biblScope unit="volume">93</biblScope>
                </series>
              </biblStruct>
            </listBibl>
          </div>
          <div type="subsection" xml:id="software">
            <list>
              <item>
                <ref target="https://www.nltk.org/" type="external">Natural Language Toolkit (nltk)</ref>
              </item>
              <item>
                <ref target="https://www.r-project.org" type="external">R</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="links">
            <list>
              <item>
                <ref target="/o:konde.48" type="internal">Data Mining</ref>
              </item>
              <item>
                <ref target="/o:konde.71" type="internal">Distant Reading</ref>
              </item>
              <item>
                <ref target="/o:konde.145" type="internal">NLP</ref>
              </item>
              <item>
                <ref target="/o:konde.16" type="internal">Analysemethoden</ref>
              </item>
              <item>
                <ref target="/o:konde.141" type="internal">NER</ref>
              </item>
              <item>
                <ref target="/o:konde.54" type="internal">Datenvisualisierung</ref>
              </item>
              <item>
                <ref target="/o:konde.100" type="internal">Interpretation</ref>
              </item>
            </list>
          </div>
          <div type="subsection" xml:id="topics">
            <list>
              <item>Datenanalyse</item>
            </list>
          </div>
        </div>
      </div>
    </body>
  </text>
</TEI>
