Skip to content

Grizzly127/Wertung-von-Therapiegespraechen

Repository files navigation

Wertung-von-Therapiegespraechen

  1. Ich möchte testen, ob Sprachmodelle Therapiegespräche simulieren können und anschließend bewerten können, ob es gut/schlecht lief, ob der therapeutische Ansatz sehr wertend oder eher neutral war und somit Testproband/innen ersetzen könnten. Die ursprünglichen Studie wurde von einer Kommilitonin als Masterarbeit erstellt, es ging darum, wie vertrauenswürdig es ist ein Therapiegespräch mit einem Chatbot anstatt mit einem Menschen durchzuführen. Der Chatbot hat zum Beispiel gefragt: "Wodurch fühlen Sie sich aktuell gestresst im Leben?", und der/die Probant/in konnte in einem freien Feld antworten, das möchte ich nun das Sprachmodell machen lassen. Durch Zufall wurde man entweder einem neutralen oder einem sehr wertenden Chatbot zugeteilt. Davor bekam man noch einen Text, der den Chatbot auch eher wertend oder neutral beschreibt. Es gab also vier Möglichkeiten: Man wurde manipuliert durch einen Text und wurde dem entsprechend anderen Chatbot zugeteilt (wertender Text - neutraler Chatbot, neutraler Text - wertdender Chatbot) oder man wurde dem Chatbot zugeteilt, der auch dem Text entsprach (wertender Text - wertender Chatbot, neutraler Text - neutraler Chatbot). Anschließen wurden einige Fragen gestellt, bei denen man auf einer Skala von 1-7 angeben sollte, ob der Chatbot vertrauenswürdig rüber kam oder ob man sich in dem Gespräch verurteilt gefühlt hat. Diese Fragen möchte ich auch anschließend an das LLM stellen. Mir geht es jedoch nicht so sehr um die Frage, ob das Sprachmodell findet, es kann das Gespräch auch mit einem Chatbot anstatt mit einem Menschen führen, sondern eher allgemein darum, wie gut funktioniert es, so ein Gespräch über Gefühle mit einem LLM zu simulieren, wie reagiert es, wenn der "Therapeut" wertend gegenüber den "Gefühlen" des LLMs wird und kann das LLM beurteilen, ob es ein einfühlsames Gespräch war oder nicht.

  2. Der Chatbot ist geskriptet und ich werde ihn mir so umschreiben, dass er für das Experiment passt, also wenn man als Proband/in mehrere Möglichkeiten zum anklicken bekommen hat, formuliere ich das eher um als Frage. Die Umfrage kann ich auch aus der Studie nehmen, somit kann ich anschließend vergleichen wie Menschen und wie LLMs im Schnitt antoworten. Wie genau ich weiter vorgehe mit den Daten oder was für Code, ich zum scrapen / präprozessieren / promptgenerieren / analysieren der Daten geschrieben / verwenden möchte, weiß ich nocht nicht.

  3. Open LLM: (vorläufige Entscheidung) LLama 3

  4. Der erste Prompt wird in etwa so sein: "Hi, kannst du ein Rollenspiel mit mir durchführen? Ich möchte testen wie meine Antworten als Therapeutin ankommen. Dafür möchte ich ein Therapiegespräch mit dir simulieren. Ich werde dir Fragen stellen zu deinem persönlichen Befinden und du spielst die Rolle meines Patienten und antwortest mir wie ein Patient antworten würde, dabei kannst du dir ausdenken, wie gerade dein Befinden ist, es sollte nur menschlich möglichen Emotionen und Empfindungen entsprechen." Anschließend werde ich das Gespräch simuieren, dabei lasse ich den geskripteten Chatbot mit dem LLM "sprechen". Die Fragen und Antworten kopiere ich manuell. Zum Schluss lasse ich das LLM noch die Umfrage ausfüllen. Hierfür werde ich eventuell mehrere Wege ausprobieren (muss aber selber noch schauen welche Wege es gibt und wie das geht). Wie genau ich es auswerte weiß ich auch noch nicht, aber ich möchte die Antworten sammeln und visualisieren. Zum Beispiel graphisch darstellen wie das OpenLLM geanwortet hat, wie das geschlossene und wie der Mittelwert der menschlichen Antworten war. Daran kann ich auch beurteilen, ob die Sprachmodelle wie menschliche Probanden reagieren und diese sogar ersetzen könnten.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published