Cross-cultural Inspiration Detection and Analysis in Real and LLM-generated Social Media Data

This repository contains the dataset and code for our paper.

Task Description

We compare AI-generated and human-written inspiring Reddit content across India and the UK. Although there may not be any visible differences to the human eye, by using linguistic methods, we find significant syntactic and lexical cross-cultural differences between generated and real inspiring posts.

Data

The final data is available at all_data All annotations are available in `all_annotations'

Features

Topic Modeling features can be accessed interactively in topic_analysis

Models

GPT-4 generation

All generation code is available at LLM_generation.

Inspiration Detection models

Random Forest, Naive Bayes, SVM models are available at baselines.

XLM-Roberta is available at roberta.

Llama-2-7b model with LoRA fine-tuning is available at llama.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
img		img
topic_analysis		topic_analysis
.gitignore		.gitignore
LICENSE		LICENSE
LLM_generation.py		LLM_generation.py
README.md		README.md
baselines.ipynb		baselines.ipynb
llama.ipynb		llama.ipynb
xlm_roberta_multilabel.ipynb		xlm_roberta_multilabel.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Cross-cultural Inspiration Detection and Analysis in Real and LLM-generated Social Media Data

Task Description

Data

Features

Models

GPT-4 generation

Inspiration Detection models

About

Releases

Packages

Languages

License

MichiganNLP/cross_inspiration

Folders and files

Latest commit

History

Repository files navigation

Cross-cultural Inspiration Detection and Analysis in Real and LLM-generated Social Media Data

Task Description

Data

Features

Models

GPT-4 generation

Inspiration Detection models

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages