Skip to content

This project analyzes Spanish speech data, focusing on acoustic features and demographics. It includes data cleaning, outlier detection, clustering, and time series modeling (ARIMA, Holt-Winters) to uncover patterns in speech duration and word frequency.

Notifications You must be signed in to change notification settings

deliprofesor/Behavioral-Insights-and-Data-Exploration

Repository files navigation

Behavioral Insights and Data Exploration

Bu proje, İspanyolca Konuşma Verilerinin Analizi üzerine odaklanan bir veri analitiği ve makine öğrenimi projesidir. Veri seti, İspanyolca konuşma sırasında kaydedilen akustik özellikleri ve bazı demografik bilgileri içerir. Aşağıda, projede kullanılan yöntemler ve veri setinin detayları açıklanmıştır:

spanish

Veri Seti Parametreleri:

  • cdur: Konuşma sırasında ölçülen sürenin bir bölümü.
  • vdur: Sesli harf süresi.
  • place: Artikülasyon yeri (ör. Velar, Dental).
  • stress: Vurgunun tipi (ör. Tonic, Unstressed).
  • prevowel ve posvowel: Önceki ve sonraki sesli harfler.
  • wordpos: Kelime içindeki pozisyon (ör. Initial, Medial).
  • wordfreq: Kelimenin frekansı (kullanım sıklığı).
  • speechrate: Konuşma hızı.
  • sex: Konuşmacının cinsiyeti (Kadın veya Erkek).
  • speaker: Konuşmacı kimliği (ör. s01).

Projenin Hedefleri

  • Veriyi temizlemek ve analiz etmek.
  • Aykırı değerleri tespit etmek ve kaldırmak.
  • Eksik verileri doldurmak.
  • Akustik özellikler arasındaki ilişkileri incelemek.
  • Veriyi normalizasyon ve standardizasyon gibi yöntemlerle ön işleme tabi tutmak.
  • Özellik mühendisliği ile yeni değişkenler oluşturmak.
  • Kümeleme analizi ve zaman serisi modelleme gibi ileri düzey analitik yöntemler uygulamak.

Veri İncelemesi ve Eksik Veri Analizi

Veri setindeki eksik değerler ortalama ile dolduruldu. Eksik değerlerin görselleştirilmesi için Missingno kullanıldı.

Aykırı Değerlerin Tespiti

cdur değişkeni için IQR (Interquartile Range) yöntemi kullanılarak aykırı değerler kaldırıldı.

Veri Normalizasyonu ve Standardizasyon

cdur, vdur ve wordfreq değişkenleri Min-Max Skalası kullanılarak %0-100 aralığına normalleştirildi. vdur değişkeni, Standart Skalası ile yeniden ölçeklendirildi.

Kutu Grafikleri ve Yoğunluk Analizi

Histogram, kutu grafiği ve yoğunluk grafikleri ile cdur ve vdur değişkenlerinin dağılımı görselleştirildi. Korelasyon analizi için bir ısı haritası oluşturuldu. _ cdur_to_vdur_ratio: cdur ve vdur oranı hesaplandı. _ log_wordfreq: wordfreq değişkeninin logaritması alındı.

vdur_o_s

cdur

cdur-2

Korelasyon Analizi

Bu bölüm, seçilen sütunlar arasındaki ilişkinin yönünü ve gücünü analiz eder.

korelasyon

Kümeleme (Clustering)

K-Means algoritması, veri setindeki benzer özelliklere sahip veri noktalarını gruplamak (kümelemek) için kullanılan bir denetimsiz makine öğrenimi algoritmasıdır. Veri setindeki farklı grupları (ses süreleri ve frekans değerleri açısından benzerlik gösteren konuşma örnekleri) belirlemek için kullandık. Özellikle ‘cdur’ (ses süresi), ‘vdur’ (sesli harf süresi) ve ‘wordfreq’ (kelime frekansı) gibi sayısal verilerdeki gizli yapıları anlamak ve görselleştirmek amacıyla kullanıldı. Kümeleme sonuçları bir dağılım grafiği ile görselleştirildi.

k-means

Zaman Serisi Analizi

cdur değişkeni üzerinde ARIMA ve Holt-Winters Exponential Smoothing modelleri ile tahminlemeler yapıldı. Zaman serisi verisinin trend ve mevsimsellik gibi bileşenleri seasonal_decompose yöntemi ile analiz edildi.

zaman cdur

ARIMA (AutoRegressive Integrated Moving Average)

ARIMA modeli, zaman serisi verilerinin trendlerini ve desenlerini modellemek ve gelecekteki değerleri tahmin etmek için kullanılan bir yöntemdir. ‘cdur’ (ses süresi) zaman serisi verisinin geçmiş değerlerine dayanarak, gelecekteki olası değerleri tahmin etmek için kullanıldı. ARIMA, trend (artış/azalış) ve sezonsal (dönemsel) bileşenlerin analizi için uygundur. Verideki geçmiş bağımlılıkları dikkate alır.

ARIMA

Holt-Winters Exponential Smoothing

Holt-Winters yöntemi, zaman serisi verilerindeki trend ve sezonsallık bileşenlerini modellemek için kullanılan bir yöntemdir. ‘cdur’ (ses süresi) verisinin hem trend hem de dönemsel (sezonsal) yapıya sahip olabileceğini varsaydık.

exponential

Sonuç ve Çıkarımlar

cdur, vdur ve wordfreq değişkenleri arasındaki korelasyon, konuşma süresi ve kelime sıklığına dair anlamlı bilgiler sundu. Kümeleme analizi, veriyi üç gruba ayırarak akustik özelliklerdeki benzerlikleri gösterdi. Zaman serisi analizi, konuşma süresindeki trendleri ve mevsimselliği ortaya çıkardı.

About

This project analyzes Spanish speech data, focusing on acoustic features and demographics. It includes data cleaning, outlier detection, clustering, and time series modeling (ARIMA, Holt-Winters) to uncover patterns in speech duration and word frequency.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages