Skip to content

PSImera/Yandex.practicum.ds

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Yandex.practicum Data Science projects

Repository structure/Структура репозитория

link Discription/Описание Skills
Project_sprint_04_bank Research on the reliability of borrowers
Pre-processing of data was carried out. Histograms, boxplots, and scatter diagrams were constructed. The main task: to determine the factors influencing the market value of real estate
python, pandas
Исследование надежности заемщиков
Проведена предобработка данных. Построены гистограммы, боксплоты, диаграммы рассеивания. Основная задача: определить факторы, влияющие на рыночную стоимость объектов недвижимости
Project_sprint_05_appartments Research on apartment listings
Determining the market value of real estate. The objective is to set the parameters. This will allow us to build an automated system: it will track anomalies and fraudulent activity
pandas, numpy, missingpy
Исследование объявлений о продаже квартир
Определение рыночной стоимость объектов недвижимости. Задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность
Project_sprint_06_calls Statistical data analysis. «Rates»
The tariffs of the federal mobile operator were analyzed. The study of objects and their interrelations using statistical methods. Anomalies were identified and processed
python, pandas, numpy, seaborn,matplotlib.pyplot, scipy
Статистический анализ данных. "Тарифы"
Проанализированы тарифы федерального оператора сотовой связи. Изучение объектов и их взаимосвязей методами статистики. Выявлены и обработаны аномалии
Project_sprint_08_sbor1_games Project for the game store «Streamchik»
Historical data on game sales, user and expert ratings, genres, and platforms are available. It is necessary to identify patterns that determine the success of a game. This will allow you to bet on a potentially popular product and plan advertising campaigns. We have data up to 2016. It is necessary to plan the company for 2017
python, pandas, numpy, scipy, matplotlib.pyplot
Проект для магазина игр «Стримчик»
Доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры, платформы. Необходимо выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные компании. Перед нами данные до 2016 года. Необходимо спланировать компанию на 2017 год
Project_sprint_09_rates Rates recommendation
We have data on the behavior of customers who have already switched to these rates. We need to build a model for the classification problem that will select the appropriate rates. Task: build a model with the highest possible accuracy value. It is necessary to bring the proportion of correct answers to at least 0.75. accuracy must be checked on the test sample
python, pandas, numpy, seaborn, sklearn
Рекомендация тарифов
В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Задача: построить модель с максимально большим значением accuracy. Нужно довести долю правильных ответов по крайней мере до 0.75. accuracy необходимо проверить на тестовой выборке
project_sprint_10_customer_churn Customer Churn
A model for predicting a client's departure from the bank in the near future has been developed. For training used client behavior historical data and termination of contracts with the bank. The metric used is the F1 score. ROC-AUC curves were constructed. F1 = 0.6189 was achieved on the test sample, and the ROC-AUC score = 0.86.
python, pandas, numpy, matplotlib.pyplot, seaborn, sklearn
Отток клиентов
Разработана модель прогнозирования ухода клиента из банка в ближайшее время. Для обучения использованны исторические данные о поведении клиентов и расторжении договоров с банком. Использованая метрика F1-мера. построены ROC-AUC кривые. На тестовой выборке достигнута F1 = 0.6189, а метрика ROC-AUC = 0.86.
project_sprint_11_oil_wells Selecting a Well Location
Project for the mining company «GlavRosGosNeft». It is necessary to decide where to drill a new well. Oil samples were provided in three regions: 10,000 fields in each, where the quality of oil and the volume of its reserves were measured. A machine learning model was built that will help determine the region where production will bring the greatest profit. The Bootstrap technique was used to analyze the potential profit and risks
python, pandas, numpy, matplotlib.pyplot, seaborn, sklearn, scipy
Выбор локации для скважины
роект для добывающей компании «ГлавРосГосНефть». Необходимо решить, где бурить новую скважину. Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Построена модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Техникой Bootstrap проанализированна возможная прибыль и риски
project_sprint_12_sbor2_gold_recovery Recovery of gold from ore
prototype of a machine learning model was prepared for «Cifra». The company develops solutions for the efficient operation of industrial enterprises. The model predicts the gold recovery coefficient from gold-bearing ore. Data with production and purification parameters were used. The model will help optimize production so as not to launch an enterprise with unprofitable characteristics
python, pandas, numpy, matplotlib.pyplot, seaborn, plotly, sklearn
Восстановление золота из руды
Подготовлен прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель предсказывает коэффициент восстановления золота из золотосодержащей руды. Использованны данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками
project_sprint_13_linalg Protection of personal data of clients
A data transformation method has been developed to protect the data of clients of the insurance company "Hot Potol" so that it would be difficult to restore personal information from them, and the quality of machine learning models would not deteriorate and the correctness of its operation was substantiated
python, pandas, numpy, matplotlib.pyplot, sklearn, linear algebra
Защита персональных данных клиентов
Разработан метод преобразования данных для защиты данные клиентов страховой компании «Хоть потоп», чтобы по ним было сложно восстановить персональную информацию, а качество моделей машинного обучения не ухудшилось и обоснована корректность его работы
project_sprint_14_autos Determining the cost of cars
A model was built to determine the market value of cars for the used car sales service «Not beaten, not painted». Historical data was used: technical characteristics, trim levels and prices of cars
python, pandas, numpy, matplotlib.pyplot, seaborn, lightgbm, sklearn, category_encoders
Определение стоимости автомобилей
остроена модель для определения рыночной стоимости автомобилей для сервиса по продаже автомобилей с пробегом «Не бит, не крашен». Использованы исторические данные: технические характеристики, комплектации и цены автомобилей
project_sprint_15_taxi Taxi order forecasting
Based on historical data on taxi orders at airports for the company "Chёtenkoe taxi", the following was done: resampling and data analysis; different models with different hyperparameters were trained and tested. The constructed model forecasts the number of taxi orders for the next hour
python, pandas, numpy, matplotlib.pyplot, sklearn, statsmodels, catboost
Прогнозирование заказов такси
На основании исторические данные о заказах такси в аэропортах для компании «Чётенькое такси» выполнено: ресемплирование и анализ данных; обучены и протестированы разные модели с различными гиперпараметрами. Построенная модель прогнозирует количество заказов такси на следующий час
project_sprint_17_toxic_comments Project for «Wikishop»
For the online store «Wikishop», on a data set with toxicity markup, a model for classifying comments into positive and negative was trained. Now users can edit and supplement product descriptions, as in wiki communities, and toxic comments will be sent for moderation
python, pandas, numpy, matplotlib.pyplot, sklearn, nltk, torch, transformers, imblearn.pipelineneural language processing (NLP), BERT model used
Проект для «Викишоп»
Для интернет-магазин «Викишоп», на наборе данных с разметкой о токсичности, обучена модель классифицикации комментариев на позитивные и негативные. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах и токсичные комментарии будут отправлены на модерацию
project_sprint_19_computer_vision Determining the age of buyers
The «Khleb-Sol» supermarket chain is implementing a computer vision system for processing photos of buyers. Photo recording in the checkout area will help determine the age of customers in order to analyze purchases and offer goods and control the integrity of cashiers when selling alcohol. A model has been built that determines a person's approximate age based on a photograph. The ResNet50 model was used and further trained on the provided labeled dataset
python, pandas, matplotlib.pyplot, tensorflow, keras, ResNet50, computer vision (CV)
Определение возраста покупателей
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы анализировать покупки и предлагать товары и контролировать добросовестность кассиров при продаже алкоголя. Построена модель, которая по фотографии определяет приблизительный возраст человека. Использована модель ResNet50 и дообучена на предоставленном размеченном наборе данных
project_sprint_22_final Determining the churn of telecom company customers
A model has been built for the telecom operator «Niedinorazryva.com» to predict customer churn. If it turns out that the user is planning to leave, they will be offered promotional codes and special conditions. Personal data about some customers, information about their tariffs and contracts were used to train the model
python, pandas, numpy, matplotlib.pyplot, seaborn, imblearn, phik, sklearn, lightgbm
Определение оттока клиентов телеком-компании
Для оператор связи «Ниединогоразрыва.ком» построена модель прогнозирующая отток клиентов. Если выяснится, что пользователь планирует уйти, ему будут предложены промокоды и специальные условия. Для обучения модели использованы персональные данные о некоторых клиентах, информацию об их тарифах и договорах

About

Yandex.Practicum DataScience projects

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published