Bu proje, İspanyolca Konuşma Verilerinin Analizi üzerine odaklanan bir veri analitiği ve makine öğrenimi projesidir. Veri seti, İspanyolca konuşma sırasında kaydedilen akustik özellikleri ve bazı demografik bilgileri içerir. Aşağıda, projede kullanılan yöntemler ve veri setinin detayları açıklanmıştır:
Veri Seti Parametreleri:
- cdur: Konuşma sırasında ölçülen sürenin bir bölümü.
- vdur: Sesli harf süresi.
- place: Artikülasyon yeri (ör. Velar, Dental).
- stress: Vurgunun tipi (ör. Tonic, Unstressed).
- prevowel ve posvowel: Önceki ve sonraki sesli harfler.
- wordpos: Kelime içindeki pozisyon (ör. Initial, Medial).
- wordfreq: Kelimenin frekansı (kullanım sıklığı).
- speechrate: Konuşma hızı.
- sex: Konuşmacının cinsiyeti (Kadın veya Erkek).
- speaker: Konuşmacı kimliği (ör. s01).
- Veriyi temizlemek ve analiz etmek.
- Aykırı değerleri tespit etmek ve kaldırmak.
- Eksik verileri doldurmak.
- Akustik özellikler arasındaki ilişkileri incelemek.
- Veriyi normalizasyon ve standardizasyon gibi yöntemlerle ön işleme tabi tutmak.
- Özellik mühendisliği ile yeni değişkenler oluşturmak.
- Kümeleme analizi ve zaman serisi modelleme gibi ileri düzey analitik yöntemler uygulamak.
Veri setindeki eksik değerler ortalama ile dolduruldu. Eksik değerlerin görselleştirilmesi için Missingno kullanıldı.
cdur değişkeni için IQR (Interquartile Range) yöntemi kullanılarak aykırı değerler kaldırıldı.
cdur, vdur ve wordfreq değişkenleri Min-Max Skalası kullanılarak %0-100 aralığına normalleştirildi. vdur değişkeni, Standart Skalası ile yeniden ölçeklendirildi.
Histogram, kutu grafiği ve yoğunluk grafikleri ile cdur ve vdur değişkenlerinin dağılımı görselleştirildi. Korelasyon analizi için bir ısı haritası oluşturuldu. _ cdur_to_vdur_ratio: cdur ve vdur oranı hesaplandı. _ log_wordfreq: wordfreq değişkeninin logaritması alındı.
Bu bölüm, seçilen sütunlar arasındaki ilişkinin yönünü ve gücünü analiz eder.
K-Means algoritması, veri setindeki benzer özelliklere sahip veri noktalarını gruplamak (kümelemek) için kullanılan bir denetimsiz makine öğrenimi algoritmasıdır. Veri setindeki farklı grupları (ses süreleri ve frekans değerleri açısından benzerlik gösteren konuşma örnekleri) belirlemek için kullandık. Özellikle ‘cdur’ (ses süresi), ‘vdur’ (sesli harf süresi) ve ‘wordfreq’ (kelime frekansı) gibi sayısal verilerdeki gizli yapıları anlamak ve görselleştirmek amacıyla kullanıldı. Kümeleme sonuçları bir dağılım grafiği ile görselleştirildi.
cdur değişkeni üzerinde ARIMA ve Holt-Winters Exponential Smoothing modelleri ile tahminlemeler yapıldı. Zaman serisi verisinin trend ve mevsimsellik gibi bileşenleri seasonal_decompose yöntemi ile analiz edildi.
ARIMA modeli, zaman serisi verilerinin trendlerini ve desenlerini modellemek ve gelecekteki değerleri tahmin etmek için kullanılan bir yöntemdir. ‘cdur’ (ses süresi) zaman serisi verisinin geçmiş değerlerine dayanarak, gelecekteki olası değerleri tahmin etmek için kullanıldı. ARIMA, trend (artış/azalış) ve sezonsal (dönemsel) bileşenlerin analizi için uygundur. Verideki geçmiş bağımlılıkları dikkate alır.
Holt-Winters yöntemi, zaman serisi verilerindeki trend ve sezonsallık bileşenlerini modellemek için kullanılan bir yöntemdir. ‘cdur’ (ses süresi) verisinin hem trend hem de dönemsel (sezonsal) yapıya sahip olabileceğini varsaydık.
cdur, vdur ve wordfreq değişkenleri arasındaki korelasyon, konuşma süresi ve kelime sıklığına dair anlamlı bilgiler sundu. Kümeleme analizi, veriyi üç gruba ayırarak akustik özelliklerdeki benzerlikleri gösterdi. Zaman serisi analizi, konuşma süresindeki trendleri ve mevsimselliği ortaya çıkardı.