Bu proje, meme kanseri teşhisi için kullanılan bir veri seti üzerinde çalışır. Amaç, tümörlerin iyi huylu (Benign) veya kötü huylu (Malignant) olduğunu sınıflandırmaktır. Projede, Destek Vektör Makineleri (Support Vector Machines - SVM) algoritması kullanılarak bu sınıflandırma yapılır. Ayrıca, sınıf dengesizliği problemini çözmek için SMOTE (Synthetic Minority Oversampling Technique) uygulanır ve model performansı değerlendirilir.
Proje, meme kanseri veri setini kullanır. Bu veri seti, bir hastanın çeşitli biyopsi özelliklerini içerir: Örneğin: Tümör çapı (radius_mean), yüzey pürüzsüzlüğü (smoothness_mean) ve diğer biyopsi sonuçları. Amaç, bu özelliklere bakarak tümörün iyi huylu (B) veya kötü huylu (M) olduğunu sınıflandırmaktır.
X ve id gibi sınıflandırmaya katkı sağlamayan sütunlar veri setinden çıkarılır. Diagnosis sütunu, 0 (Benign) ve 1 (Malignant) olarak yeniden kodlanır. Eksik veri olup olmadığı analiz edilir. Varsa uygun doldurma işlemleri yapılır.
Verilerin genel dağılımını ve sınıf ayrımlarını görmek için görselleştirme yapılır: Scatter Plot: Tümör çapı (radius_mean) ve yüzey dokusu (texture_mean) arasındaki ilişki, sınıflara göre ayrılarak görselleştirilir. Pairplot: Seçilen birkaç özelliğin birbiriyle ilişkisi ve sınıflar arasındaki ayrım analiz edilir. Bu görselleştirmeler, verilerin sınıflar arasında ayrılabilir olup olmadığını anlamaya yardımcı olur.
SVM algoritması, özelliklerin ölçeklerine duyarlıdır. Bu nedenle tüm sayısal özellikler, StandardScaler ile normalize edilir. Bu işlem, model performansını artırır.
Farklı SVM Modelleri:
- Linear: Doğrusal olarak ayrılabilir sınıflar için uygundur.
- Radial (RBF): Daha karmaşık sınıflar için esneklik sağlar.
- Polynomial: Çoklu doğrusal olmayan sınıflar için uygundur.
- Sigmoid: Özellikle probabilistik sınıflandırmalarda tercih edilir.
Her bir model, eğitim veri setinde eğitilir ve test setinde değerlendirilir.
Performans Değerlendirmesi:
- Confusion Matrix: Gerçek ve tahmin edilen sınıflar arasındaki ilişki. _ Classification Report: Doğruluk, hassasiyet, özgüllük ve F1 skoru gibi metriklerle performans ölçülür.
Özellikle Radial SVM için GridSearchCV kullanılarak en iyi parametreler (C ve gamma) aranır. Optimize edilmiş model yeniden eğitilir ve performansı test edilir.
Verilerde sınıf dengesizliği varsa, bu dengesizlik SMOTE yöntemi ile çözülür:Azınlık sınıfı için sentetik örnekler üretilir. Dengeli veri seti ile modeller yeniden eğitilir. SMOTE sonrası, sınıfların dağılımı görselleştirilir ve modelin performansı iyileştirilir.
Her modelin doğruluk skorları bir çubuk grafik ile karşılaştırılır. ROC Eğrisi ve AUC Skoru: Özellikle RBF çekirdekli SVM modelinin sınıflandırma performansı analiz edilir.
- Hassas Tespit: Meme kanseri gibi kritik bir alanda doğru sınıflandırma yapmak hayati önem taşır. Farklı modeller denenerek en iyi sonucu veren model seçilir.
- Sınıf Dengesizliği Çözümü: SMOTE, sınıf dengesizliğini giderir ve azınlık sınıfının (kötü huylu tümör) daha doğru sınıflandırılmasını sağlar.
- Farklı Çekirdeklerin Karşılaştırılması: Her çekirdek fonksiyonunun performansı karşılaştırılır, böylece hangi çekirdeğin hangi tür verilerde daha iyi çalıştığı anlaşılır.
- Optimizasyon: Hiperparametre optimizasyonu ile modellerin performansı en üst düzeye çıkarılır.
- Kapsamlı Değerlendirme: Confusion Matrix, ROC Eğrisi ve diğer metriklerle modeller detaylı olarak analiz edilir.