CASoTex

Computergestützte Analyse Sozialwissenschaftlicher Texte mit Hilfe maschineller Lernverfahren – ein kooperatives Projekt des Instituts für E-Beratung, Fakultät Sozialwissenschaften, Prof. Robert Lehmann und der Fakultät für Informatik, Prof. Jens Albrecht. Gefördert durch Vorlaufforschungsmittel der TH Nürnberg 2019


Onlineberatung wird computervermittelt durchgeführt, somit sind alle Elemente des Beratungsprozesses digital vorhanden. Da Onlineberatung in den letzten Jahren bereits in vielen Kontexten eingesetzt wurde, liegen an verschiedenen Stellen große Mengen dieser Daten vor.
Damit entsteht die für Soziale Arbeit relativ einmalige Situation, dass das fachliche Handeln der BeraterInnen nahezu vollständig dokumentiert ist. Weiterhin bietet diese Tatsache die Chance, durch geeignete Datenanalyseverfahren ein tieferes Verständnis des Beratungsprozesses und der Wirkungszusammenhänge der beraterischen Interventionen zu erlangen. Bisher konnten diese Daten mit den klassischen Methoden der sozialwissenschaftlichen Text- und Inhaltsanalyse untersucht werden. Da diese Verfahren alle sehr aufwändig sind, konnten damit nie größere Datenbestände vollständig untersucht werden, sondern es mussten relativ kleine Stichproben gebildet werden. Mit Hilfe maschineller Lernverfahren aus den Bereichen Big Data, Text Mining und Natural Language Processing besteht nun die Möglichkeit, auch sehr großen Datenmengen wissenschaftlich zu analysieren.
In dem Kooperationsprojekt sollen gespeicherte Forenberatungen mit unterschiedlichen Verfahren untersucht werden:

  1. Deskriptive statistische Analysen: In der ersten Phase sollen deskriptive Ergebnisse zu den Inhalten produziert werden. Beispiele dafür sind häufig genannte Begriffe, das zeitliche Nutzungsverhalten, die Anzahl der Interaktionen in bestimmten Beratungsfeldern etc.
  2. Unüberwachte Lernverfahren: Die verschiedenen Ansätze nicht-überwachter Lernverfahren sollen an dem Datenbestand eingesetzt werden, um latente, d.h. nicht offensichtliche, Konzepte und Strukturen in der Kommunikation aufzudecken. Ein Beispiel dafür ist die Topic-Analyse, welche implizite Themenfelder in den Texten identifiziert.
  3. Klassische Sozialwissenschaftliche Inhaltsanalyse: Mit der Qualitativen Inhaltsanalyse nach Mayring soll an einer kleinen Stichprobe des Materials ein Kategoriensystem zur Beschreibung der relevanten Inhalte der Beratungsprozesse entstehen. Dabei sollen Muster in der Kommunikation aufgedeckt und gekennzeichnet werden. Diese Muster werden mit Ankerbeispielen aus dem Material hinterlegt, sodass neben den direkten Ergebnissen ein Trainingsdatensatz für maschinelle Lernverfahren entsteht
  4. Überwachte Lernverfahren: Auf der Basis der Ergebnisse aus 2 und 3 werden algorithmische Modelle trainiert, die im Gesamtdatensatz die Reproduzierbarkeit der bisher gefundenen Strukturen überprüfen und weitere Zusammenhangsstrukturen entdecken sollen.


Studentische Arbeiten:

Prof. Dr. Jens Albrecht an der Fakultät Informatik und Prof. Dr. Robert Lehmann an der Sozialwissenschaftlichen Fakultät bieten in Zusammenarbeit mit dem Institut für E-Beratung interessierten Bachelor- oder Masterstudierenden der TH Nürnberg Unterstützung bei studentischen Arbeiten an.

  • Erkennung forenübergreifender, psychosozialer Fragestellungen über computergestützte Textanalyse. Lena Kallenbach, Sandra Schumann, Saskia Spengler, Dominik Wagner, Valeria Wilhelm (IT-Projekt Informatik, Prof. Jens Albrecht, Institut für E-Beratung Prof. Robert Lehmann, 2019)
  • Qualitativen Inhaltsanalyse nach Mayring an Datensätzen zur psychosozialen Forenberatung: Erstellung eines prototypischen Kategoriensystems nach Mayring. Überprüfung des Kategoriensystems am Material. Übertragung des Kategoriensystems in die Casotex-Software. Kodieren möglichst großer Teile der Datenbasis. (Projektgruppe (WiSe 2018/19) aus dem Master Soziale Arbeit bei Prof. Lehmann)
  • Parametrisierte Visualisierungsinstrumente von Ergebnissen automatisierter Inhaltsanalyse, Simona Pankatova, (Bachelorarbeit Wirtschaftsinformatik, Prof. Jens Albrecht 2919)
  • Inhaltsanalyse von sozialen Beratungsforen mit maschinellen Lernverfahren, Jean-Pierre Widerhold, (Bachelorarbeit Wirtschaftsinformatik, Prof. Jens Albrecht 2018/2919)
  • Analyse der bke Elternberatungsforums mit unüberwachten Lernverfahren. Vistor Schuller, Jean-Pierre Widerhold, Anna Zvurszka (Arbeitsgruppe (SoSe 2018) im Rahmen der Informatik Vorlesung „Text Analytics“ von Prof. Jens Albrecht)