Datensatz E-Beratung

Erstellung eines öffentlichen Datensatzes für die Untersuchung maschineller Lernverfahren in der psychosozialen Online-Beratung. Ein kooperatives Projekt der Fakultät für Informatik, Prof. Jens Albrecht und des Instituts für E-Beratung, Fakultät Sozialwissenschaften, Prof. Robert Lehmann. (Gefördert durch Vorlaufforschungsmittel der TH Nürnberg 2023)


Ziel des Projektes ist die Erstellung und Veröffentlichung eines ersten deutschsprachigen Datensatzes für die Inhaltsanalyse in der psychosozialen Beratung. Er soll frei verfügbare Trainingsdaten bieten, mit denen entsprechende Modelle erforscht werden können. Außerdem soll auch eine bereits trainierte Klassifikation publiziert werden, die direkt für die Textkategorisierung eingesetzt und als Benchmark für andere Modelle genutzt werden kann. Dafür werden inhaltliche Kategorien definiert und Daten gelabelt  (z.B. „Mitgefühl“, „Reflexion“, „offene Frage“).

Dieser Datensatz wird nach Veröffentlichung den englischen Namen GECCo (German E-Counseling Conversations Dataset) tragen.

Studentische Arbeit

  • Konzeption und Aufbau eines Daten-Pools für Analyse- und Trainingsdaten einschließlich Möglichkeiten zur Datenkatalogisierung, Suche und rechtebasierter Zugriffsteuerung. Andreas Bendheimer (BA 2023, Wirtschaftsinformatik: Prof. Dr. Jens Albrecht)
  • Analyse und Training von Transformer-Modellen für die Kategorisierung von Dialog-Daten aus der psychosozialen Beratung. Jens Altstädter (BA 2023, Informatik: Prof. Dr. Jens Albrecht)

Ähnliche Themen