Boas-vindas a mais um curso de Data Science da Alura!
Esse Github foi produzido com muito carinho para você montar o seu portfólio com as atividades do curso e elaborar suas próprias hipóteses, testar as técnicas exploradas dentro do curso e também adicionar outras durante a prática conciliando a linguagem Python e os conhecimentos de Machine Learning voltado a técnica de Regressão Linear.
Este projeto possibilita sair da leitura de dados de arquivos .CSV extraído deste repositório até a criação de um modelo de Regressão Linear com transformação de variáveis para a precificação de casas de acordo com algumas características.
É importante que você tenha um bom conhecimento nas bibliotecas de manipulação de dados e visualização do Python como Pandas, Numpy, Matplotlib e Seaborn, bem como um conhecimento básico de uma das mais utlizadas bibliotecas de Machine Learning, a Scikit-Learn.
Este projeto tem como objetivo estimar o preço de casas utilizando um modelo de regressão linear com transformação de variáveis. Através da análise de diversas características das propriedades, como área e localização, vamos desenvolver um modelo capaz de prever os preços de mercado para casas em diferentes cenários e condições. O storytelling do projeto gira em torno do desafio de tornar as avaliações de imóveis mais acessíveis e precisas, auxiliando tanto vendedores quanto compradores no processo de negociação.
Vamos utilizar a base precos_casa.csv
adaptada de uma base bem conhecida no Kaggle chamada House Prices. Fizemos algumas transformações e ajustes na base original para garantir um melhor aprendizado das técnicas apresentadas neste curso.
Você pode acessar a base de dados na pasta dados
deste repositório ou seguir as instruções da aula em que leremos estes dados a partir deste repositório por meio de uma url.
Observe abaixo, os dados disponíveis em nossa base:
- valor: valor da venda do imóvel em reais. Essa é a variável alvo que é o que se deseja prever de acordo com os atributos da propriedad
- area_primeiro_andar: a área do primeiro andar do imóvel, medida em metros quadrados;
- existe_segundo_andar: variável binária que indica se o imóvel possui ou não um segundo andar. Pode ser representada como 1 para "sim" e 0 para "não";
- area_quintal: a área do primeiro quintal do imóvel, medida em metros quadrados;
- dist_metro: distância do imóvel até o metrô mais próximo, em quilômetros;
- dist_parque: distância do imóvel até o parque/praça mais próximo(a), em quilômetros;
O desafio deste projeto consiste em:
- Implementar um modelo de regressão linear que utiliza múltiplas variáveis para prever o preço das casas;
- Realizar a transformação de variáveis para o melhor resultado do modelo;
- Avaliar a precisão do modelo através de métricas conhecidas da biblioteca Scikit-Learn;
- Interpretar os coeficientes do modelo para entender o impacto de cada variável no preço das casas.
Para acessar o projeto final criado ao longo curso clique nesse link. Você pode acessar aqui também o notebook com a resolução da precificação de mais casas e aqui para a resolução final dos desafios do curso.
Este README serve como um guia inicial para qualquer pessoa que esteja interessada em trabalhar com o projeto de precificação de casas e aprender mais sobre técnincas de Machine Learning aplicadas à regressão linear.
Ao concluir este curso, você será capaz de gerar um Jupyter Notebook (Google Colab) com o processo da análise exploratória dos dados, transformação de variáveis, implementação e teste de um modelo de regressão linear de múltiplas variáveis, além de compreender o impacto dos coeficientes do modelo gerado para o exemplo de precificação de casas.
Sinta-se à vontade para fazer o fork desse projeto e construir o seu portfólio 😊