Skip to content

This project analyzes health and lifestyle factors influencing heart attack risk using statistical methods and machine learning, with Ridge Regression identified as the best predictive model.

Notifications You must be signed in to change notification settings

deliprofesor/Breast-Cancer-Detection-Using-SVM-with-SMOTE-and-Model-Optimization

Repository files navigation

Breast-Cancer-Detection-Using-SVM-with-SMOTE-and-Model-Optimization

caner

Bu proje, meme kanseri teşhisi için kullanılan bir veri seti üzerinde çalışır. Amaç, tümörlerin iyi huylu (Benign) veya kötü huylu (Malignant) olduğunu sınıflandırmaktır. Projede, Destek Vektör Makineleri (Support Vector Machines - SVM) algoritması kullanılarak bu sınıflandırma yapılır. Ayrıca, sınıf dengesizliği problemini çözmek için SMOTE (Synthetic Minority Oversampling Technique) uygulanır ve model performansı değerlendirilir.

1. Veri Setinin Hazırlanması

Proje, meme kanseri veri setini kullanır. Bu veri seti, bir hastanın çeşitli biyopsi özelliklerini içerir: Örneğin: Tümör çapı (radius_mean), yüzey pürüzsüzlüğü (smoothness_mean) ve diğer biyopsi sonuçları. Amaç, bu özelliklere bakarak tümörün iyi huylu (B) veya kötü huylu (M) olduğunu sınıflandırmaktır.

X ve id gibi sınıflandırmaya katkı sağlamayan sütunlar veri setinden çıkarılır. Diagnosis sütunu, 0 (Benign) ve 1 (Malignant) olarak yeniden kodlanır. Eksik veri olup olmadığı analiz edilir. Varsa uygun doldurma işlemleri yapılır.

2. Veri Görselleştirme

Verilerin genel dağılımını ve sınıf ayrımlarını görmek için görselleştirme yapılır: Scatter Plot: Tümör çapı (radius_mean) ve yüzey dokusu (texture_mean) arasındaki ilişki, sınıflara göre ayrılarak görselleştirilir. Pairplot: Seçilen birkaç özelliğin birbiriyle ilişkisi ve sınıflar arasındaki ayrım analiz edilir. Bu görselleştirmeler, verilerin sınıflar arasında ayrılabilir olup olmadığını anlamaya yardımcı olur.

scatter_plot pairplot

3. Verilerin Standartlaştırılması

SVM algoritması, özelliklerin ölçeklerine duyarlıdır. Bu nedenle tüm sayısal özellikler, StandardScaler ile normalize edilir. Bu işlem, model performansını artırır.

ROC Curve

4. Model Eğitimi ve Değerlendirilmesi

Farklı SVM Modelleri:

  • Linear: Doğrusal olarak ayrılabilir sınıflar için uygundur.
  • Radial (RBF): Daha karmaşık sınıflar için esneklik sağlar.
  • Polynomial: Çoklu doğrusal olmayan sınıflar için uygundur.
  • Sigmoid: Özellikle probabilistik sınıflandırmalarda tercih edilir.

linear svm radial svm polynominal svm sigmoid svm

model_accuracy_comparison

Her bir model, eğitim veri setinde eğitilir ve test setinde değerlendirilir.

Performans Değerlendirmesi:

  • Confusion Matrix: Gerçek ve tahmin edilen sınıflar arasındaki ilişki. _ Classification Report: Doğruluk, hassasiyet, özgüllük ve F1 skoru gibi metriklerle performans ölçülür.

5. Hiperparametre Optimizasyonu

Özellikle Radial SVM için GridSearchCV kullanılarak en iyi parametreler (C ve gamma) aranır. Optimize edilmiş model yeniden eğitilir ve performansı test edilir.

6. Sınıf Dengesizliğini Çözme (SMOTE)

Verilerde sınıf dengesizliği varsa, bu dengesizlik SMOTE yöntemi ile çözülür:Azınlık sınıfı için sentetik örnekler üretilir. Dengeli veri seti ile modeller yeniden eğitilir. SMOTE sonrası, sınıfların dağılımı görselleştirilir ve modelin performansı iyileştirilir.

7. Model Performansının Görselleştirilmesi

Her modelin doğruluk skorları bir çubuk grafik ile karşılaştırılır. ROC Eğrisi ve AUC Skoru: Özellikle RBF çekirdekli SVM modelinin sınıflandırma performansı analiz edilir.

Projenin Avantajları

  • Hassas Tespit: Meme kanseri gibi kritik bir alanda doğru sınıflandırma yapmak hayati önem taşır. Farklı modeller denenerek en iyi sonucu veren model seçilir.
  • Sınıf Dengesizliği Çözümü: SMOTE, sınıf dengesizliğini giderir ve azınlık sınıfının (kötü huylu tümör) daha doğru sınıflandırılmasını sağlar.
  • Farklı Çekirdeklerin Karşılaştırılması: Her çekirdek fonksiyonunun performansı karşılaştırılır, böylece hangi çekirdeğin hangi tür verilerde daha iyi çalıştığı anlaşılır.
  • Optimizasyon: Hiperparametre optimizasyonu ile modellerin performansı en üst düzeye çıkarılır.
  • Kapsamlı Değerlendirme: Confusion Matrix, ROC Eğrisi ve diğer metriklerle modeller detaylı olarak analiz edilir.

About

This project analyzes health and lifestyle factors influencing heart attack risk using statistical methods and machine learning, with Ridge Regression identified as the best predictive model.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages