Skip to content

Latest commit

 

History

History
81 lines (75 loc) · 6.76 KB

README.md

File metadata and controls

81 lines (75 loc) · 6.76 KB

Легирование сталей

Прогнозирование химического состава шлака

В данной работе мы изучили данные физико-химического процесса легирования сталей и создали алгоритм определения химического состава шлака по исходным данным.

План работ

1. Сделать EDA (exploratory data analysis):

  • Пропуски
  • Выбросы
  • Дисперсия

2. Чистка датасета

  • Убрать ненужные столбцы:
    • Несущие бесполезную информацию (Например, признак "nplv")
    • Сильно коррелирующие с другими (Например, признаки "t обработка" и "t продувка"; "t под током" и "эл. энергия")
  • Удалить строки содержащие малое количество информации
  • Удалить строки, в которых значения таргета неизвестно
  • Удаление шумов (выбросов) с помощью IsolationForest

3. Заполнение пропущенных значений

  • Заполнение с помощью метода MICE (Multiple Imputation by Chained Equations) Image

4. Нормализация вещественных признаков

5. Разбиение датасета на обучающую и тестовую выборки

6. Выбор модели для прогнозирования

  • Была выдвинута и подтверждена теория, что одну целевую переменную можно предсказывать основываясь на других
  • Нами было принято решение использовать GradientBoostingRegressor

7. Подбор гиперпараметров модели

  • Подбор гиперпаметров происходил по n_estimators и lr (learning rate). Эти параметры являются важнейшими для GBR

8. Обучение модели на обучающей выборке

  • Мы обучали 4 модели для каждого таргета. Для этого создали 4 датасета, каждый из которых включал в себя помимо первоначальных признаков, 3 оставшихся таргета. Мы выбрали данный подход, так как заметили сильную корреляцию между целевыми переменными на этапе обработки данных.

9. Получение предсказаний модели на тестовой выборке по самой популярной марки

Были получены следующие результаты для таргетов:

  • химшлак последний Al2O3
    Image
  • химшлак последний CaO
    Image
  • химшлак последний R
    Image
  • химшлак последний SiO2
    Image Image

Описание репозитория

Репозиторий содержит в себе папку src, где хранятся папки для отборочного и финального тура. EDA.ipynb содержит в себе выполнение пунктов 1-6, GBR.ipynb выполнение пунктов 7-9. Каталог data содержит исходный датасет, и полученные в результате выполнения EDA.ipynb обучающую и тестовую выборки. Каталог source содержит графики, полученные при анализе данных.

Выводы по EDA

  • График распределения целевой переменной "химшлак последний Al2O3" Image
  • График распределения целевой переменной "химшлак последний CaO" Image
  • График распределения целевой переменной "химшлак последний R" Image
  • График распределения целевой переменной "химшлак последний SiO2" Image
  • График корреляций между признаками Image
  • График корреляции между таргетами Image
  • Дисперсия признакового пространства до обработки Image
  • Дисперсия признакового пространства после обработки Image

Финальный тур

  • График корреляции между целевой переменной и признаками Image
  • График предсказанных значений, используя LinearRegression Image
  • График предсказанных значений, используя GBR Image
  • График предсказанных значений, используя CatBoostRegressor Image

Обертка

Мы обернули обученную модель в чат-бота Telegram. О нем вы можете узнать больше, посетив эту страницу