Folgende Aufgabenstellung soll einzeln oder in 2er-Gruppe bearbeitet werden: https://www.kaggle.com/competitions/titanic
Das bereitgestellte Datenset (siehe Link) liefert eine Passagierliste mit div. Zusatzinformationen (Geschlecht, Alter, sozioökonomoscher Status, etc.) von Personen, welche am 15. April 1912 im Zuge der Kollision der Titanic mit einem Eisberg ums Leben kamen. Es soll durch eine explorative Datenanalyse (EDA) und Training eines ML-Modells festgestellt werden, ob bestimmte Personengruppen eine höhere Überlebenschance besitzen bzw. deren Überlebenschance vorhergesagt werden.
Analysieren sie das Datenset mit Hilfe von Pandas, Matplotlib, Seaborn wie wir es in der VO gemacht haben. Ziel der Analyse ist die Beantwortung der Frage welche Faktoren maßgeblich für ein Überleben des Titanic Unglücks waren.
Um diese Frage zu beantworten könnten bspw. folgende Aspekte interessant sein?
- Wie viele Passagiere waren an Board? Wie groß ist der Anteil der Personen welche überlebt haben?
- Gibt es eine Korrelation (und ggf. kausalen Zusammenhang) zwischen der Überlebenschance und Eigenschaften wie Alter, Geschlecht, etc.?
- Welchen Einfluss hatten Faktoren wie die Reiseklasse, Familiengröße, der Einschiffungszeitpunkt, usw.?
- Welche Kombination von Eigenschaften besaß die höchste Überlebenschance?
Trainieren sie mind. 3 ML-Modellen (bspw. jene aus der VO). Die optimalen Hyperparameter sollen mittels k-Fold Cross-Validation und einer "Grid Search" bestimmt werden.
- Welches Modell erzielt die beste Vorhersagegenauigkeit?
- Was sind die aus der Sicht des Modells relevanten Features und deckt sich dies mit der zuvor durchgeführten Analyse? (*)
(*) Diese Frage ist für alle tree-basierten Verfahren (Decision Trees, Random Forests, usw.) leicht zu beantworten.
Die Abgabe erfolgt über Github Classroom. Hierzu dem folgenden Link folgen und entsprechend den Instruktionen ein Team auswählen/erstellen. Es wird dann automatisch ein Repository erstellt in dem die Aufgabe bearbeitet werden kann. Bitte die Instruktionen im Readme-File für die Namenskonvention beachten.
Invite-Link: https://classroom.github.com/a/NaUZE3z9
Deadline: 10. Jänner 2024 (23:59)