New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Add files via upload #3

Open

MirandaAGab wants to merge 1 commit into master from MirandaAGab-patch-2

Collaborator

MirandaAGab commented Nov 30, 2020

No description provided.


          Add files via upload

cb5e775

Daniel-EST reviewed

View reviewed changes

Member

Daniel-EST left a comment

Diversos links de imagem estão quebrados, não receberam upload ou se encontram na pasta errada. Apontei alguns mas eram muitos.
Desculpe a demora para comentar o commit, estava atarefado com TCC, trabalho e as atividades de final de período.
@MirandaAGab Poderia fazer o upload das imagens?

_posts/2020-11-21-GradienteBoost.markdown

+              gbm.perf(modelo)
+              ```
+              ![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/unnamed-chunk-177-1.png)

Member

Daniel-EST Dec 14, 2020

Esta imagem não existe.

_posts/2020-11-21-GradienteBoost.markdown


		Queremos predizer se uma pessoa ama o filme Troll 2 baseado em seu gosto por pipoca, idade e cor favorita. Assim como em regressão, começamos o método de Gradiente Boosting usando uma árvore raiz que represente nossa predição inicial para cada observação. Em regressão usamos a média das observações, em classificação vamos usar o log(chances). Olhando na base de dados, podemos dizer que as chances de alguém amar Troll 2 é $$chances= \frac{Quantidade\ de\ indivíduos\ que\ amaram}{Quantidade\ de\ indivíduos\ que\ odiaram} = \frac{4}{2}$$ portanto, o $log(chances)=log(\frac{4}{2}) = 0.6932$ e é isso que colocaremos na folha inicial.

		![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-GradienteBoost.markdown

+              O jeito mais fácil de usar o log(chances) para classificar é convertendo em probabilidade, e fazemos isso usando a seguinte função: $$ Probabilidade = \frac{e^{log(chances)}}{1+e^{log(chances)}}$$
+              Sendo assim, A $Probabilidade\ de\ alguém\ amar\ Troll2 = \frac{e^{log(\frac{4}{2})}}{1+e^{log(\frac{4}{2})}} = \frac{2}{3}=0.6667$.
+              ![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC2.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-GradienteBoost.markdown


		Agora construímos uma árvore utilizando as variáveis explicativas para predizer o pseudo-resíduo. Assim como o Gradiente Boosting para regressão, temos que definir um número máximo de folhas em cada árvore. Aqui vamos limitar a 3 folhas, mas na prática geralmente é um número entre 8 e 32.

		![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC3.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-GradienteBoost.markdown


		> Por enquanto, a probabilidade anterior é a mesma para todos, mas a partir da próxima árvore isso muda.

		![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC4.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-GradienteBoost.markdown

+              gbm.perf(modelo)
+              ```
+              ![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/unnamed-chunk-185-1.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-RegressaoLinear.markdown

+                    zlab = "Vendas", main = "Vendas de 40 Empresas baseado nos Gastos com Propagandas")
+              ```
+              ![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-295-1.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-RegressaoLinear.markdown


		*1) Residuals*

		![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-295-1.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-RegressaoLinear.markdown

+                      main = "Boxplot: Resíduos do Modelo de Regressão Linear")
+              ```
+              ![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-298-1.png)

Member

Daniel-EST Dec 14, 2020

Imagem não existe

_posts/2020-11-21-RegressaoLinear.markdown


		*2) Coefficients*

		![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/lm2.png)

Member

Daniel-EST Dec 14, 2020

Diretório errado e a imagem tbm não existe no qual seria o diretório correto

Collaborator Author

MirandaAGab commented Dec 14, 2020 via email

Olhei aqui no GitHub Desktop e já estava a pasta atualizada, os cadernos que eu tinha colocado que não estão mais na pasta _posts. De qualquer forma, coloquei novamente. Coloquei os outros cadernos que faltavam também. Em seg., 14 de dez. de 2020 às 13:38, Daniel dos Santos < [email protected]> escreveu:

***@***.**** commented on this pull request. Diversos links de imagem estão quebrados, não receberam upload ou se encontram na pasta errada. Apontei alguns mas eram muitos. Desculpe a demora para comentar o commit, estava atarefado com TCC, trabalho e as atividades de final de período. @MirandaAGab <https://github.com/MirandaAGab> Poderia fazer o upload das imagens? ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > +caret::defaultSummary(data.frame(obs = teste$wage, pred = predicao)) +``` + +``` +## RMSE Rsquared MAE +## 0.7297289 0.9996961 0.1742759 +``` + +Note que utilizamos 300 árvores. Mas pode ser que não seja necessário essa quantidade de árvores pra alcançar esses valores de $R^2$, RMSE e MAE. Para saber a quantidade ideal de árvores, isto é, quando erro se estabiliza, podemos utilizar a função `gbm.perf()`. + + +```r +gbm.perf(modelo) +``` + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/unnamed-chunk-177-1.png) Esta imagem não existe. ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > + +``` +## # A tibble: 6 x 4 +## `Gosta de Pipoca` Idade `Cor Favorita` `Troll 2` +## <chr> <dbl> <chr> <chr> +## 1 Sim 12 Azul Ama +## 2 Sim 87 Verde Ama +## 3 Nao 44 Azul Odeia +## 4 Sim 19 Vermelho Odeia +## 5 Nao 32 Verde Ama +## 6 Nao 14 Azul Ama +``` + +Queremos predizer se uma pessoa ama o filme Troll 2 baseado em seu gosto por pipoca, idade e cor favorita. Assim como em regressão, começamos o método de Gradiente Boosting usando uma árvore raiz que represente nossa predição inicial para cada observação. Em regressão usamos a média das observações, em classificação vamos usar o log(chances). Olhando na base de dados, podemos dizer que as chances de alguém amar Troll 2 é $$chances= \frac{Quantidade\ de\ indivíduos\ que\ amaram}{Quantidade\ de\ indivíduos\ que\ odiaram} = \frac{4}{2}$$ portanto, o $log(chances)=log(\frac{4}{2}) = 0.6932$ e é isso que colocaremos na folha inicial. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC.png) Imagem não existe ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > +## 2 Sim 87 Verde Ama +## 3 Nao 44 Azul Odeia +## 4 Sim 19 Vermelho Odeia +## 5 Nao 32 Verde Ama +## 6 Nao 14 Azul Ama +``` + +Queremos predizer se uma pessoa ama o filme Troll 2 baseado em seu gosto por pipoca, idade e cor favorita. Assim como em regressão, começamos o método de Gradiente Boosting usando uma árvore raiz que represente nossa predição inicial para cada observação. Em regressão usamos a média das observações, em classificação vamos usar o log(chances). Olhando na base de dados, podemos dizer que as chances de alguém amar Troll 2 é $$chances= \frac{Quantidade\ de\ indivíduos\ que\ amaram}{Quantidade\ de\ indivíduos\ que\ odiaram} = \frac{4}{2}$$ portanto, o $log(chances)=log(\frac{4}{2}) = 0.6932$ e é isso que colocaremos na folha inicial. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC.png) + + +O jeito mais fácil de usar o log(chances) para classificar é convertendo em probabilidade, e fazemos isso usando a seguinte função: $$ Probabilidade = \frac{e^{log(chances)}}{1+e^{log(chances)}}$$ +Sendo assim, A $Probabilidade\ de\ alguém\ amar\ Troll2 = \frac{e^{log(\frac{4}{2})}}{1+e^{log(\frac{4}{2})}} = \frac{2}{3}=0.6667$. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC2.png) Imagem não existe ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > + +``` +## # A tibble: 6 x 5 +## `Gosta de Pipoca` Idade `Cor Favorita` `Troll 2` `Ps. Res. 1` +## <chr> <dbl> <chr> <chr> <dbl> +## 1 Sim 12 Azul Ama 0.3 +## 2 Sim 87 Verde Ama 0.3 +## 3 Nao 44 Azul Odeia -0.7 +## 4 Sim 19 Vermelho Odeia -0.7 +## 5 Nao 32 Verde Ama 0.3 +## 6 Nao 14 Azul Ama 0.3 +``` + +Agora construímos uma árvore utilizando as variáveis explicativas para predizer o pseudo-resíduo. Assim como o Gradiente Boosting para regressão, temos que definir um número máximo de folhas em cada árvore. Aqui vamos limitar a 3 folhas, mas na prática geralmente é um número entre 8 e 32. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC3.png) Imagem não existe ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > +## 5 Nao 32 Verde Ama 0.3 +## 6 Nao 14 Azul Ama 0.3 +``` + +Agora construímos uma árvore utilizando as variáveis explicativas para predizer o pseudo-resíduo. Assim como o Gradiente Boosting para regressão, temos que definir um número máximo de folhas em cada árvore. Aqui vamos limitar a 3 folhas, mas na prática geralmente é um número entre 8 e 32. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC3.png) + + +Em regressão, os valores das folhas representavam os resíduos. Mas em classificação isso é mais complexo. Isso porque a predição está em log(chances) e as folhas são provenientes de probabilidade. Portanto não podemos apenas tirar a média para uma nova predição sem alguma transformação. A transformação mais comum por folha é $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}$$ + +Assim, da esquerda pra direita, para primeira folha temos $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}=\frac{-0.7}{0.7*(1-0.7)}=-3.3333,$$ para a segunda $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}=\frac{0.3+(-0.7)}{(0.7*(1-0.7))+(0.7*(1-0.7))}=-0.9524$$ e para a última $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}=$$ $$\frac{0.3+0.3+0.3}{(0.7*(1-0.7))+(0.7*(1-0.7))+(0.7*(1-0.7))}=\frac{3*0.3}{3*(0.7*(1-0.7))}=1.4286$$ + +> Por enquanto, a probabilidade anterior é a mesma para todos, mas a partir da próxima árvore isso muda. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC4.png) Imagem não existe ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > + +``` +## # A tibble: 6 x 5 +## `Gosta de Pipoca` Idade `Cor Favorita` `Troll 2` `Ps. Res. 2` +## <chr> <dbl> <chr> <chr> <dbl> +## 1 Sim 12 Azul Ama 0.1 +## 2 Sim 87 Verde Ama 0.5 +## 3 Nao 44 Azul Odeia -0.5 +## 4 Sim 19 Vermelho Odeia -0.1 +## 5 Nao 32 Verde Ama 0.1 +## 6 Nao 14 Azul Ama 0.1 +``` + +Construímos uma segunda árvore agora para prever os novos pseudo-resíduos e fazemos a transformação para log(chances) para cada folha. + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/tocoGBC5.png) Imagem não existe ------------------------------ In _posts/2020-11-21-GradienteBoost.markdown <#3 (comment)> : > +for (i in 1:k){ + classe[i] = names(which.max(predicao[i,1:4,1])) +} +head(classe) +``` + +``` +## [1] "van" "van" "opel" "van" "bus" "saab" +``` + +```r +# verificando quantidade de arvores necessarias +gbm.perf(modelo) +``` + +![tela_0]({{ site.url }}/assets/python/courses/machine_learning/06/images/unnamed-chunk-185-1.png) Imagem não existe ------------------------------ In _posts/2020-11-21-RegressaoLinear.markdown <#3 (comment)> : > +## 5 9.00 3.4 2.9 +## 6 9.34 6.1 3.4 +``` + +Vamos construir o diagrama de dispersão entre a variável Vendas e as demais. + + +```r +# Pacote para plotar gráfico de pontos em 3 dimensões: +library(lattice) +cloud(Venda~Prop_outros_meios*Prop_nacional, data = vendas, + xlab = "Prop. Outros Meios", ylab = "Prop. Mídia Nacional", + zlab = "Vendas", main = "Vendas de 40 Empresas baseado nos Gastos com Propagandas") +``` + +![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-295-1.png) Imagem não existe ------------------------------ In _posts/2020-11-21-RegressaoLinear.markdown <#3 (comment)> : > +## (Intercept) 0.7184 1.3531 0.531 0.5987 +## Prop_outros_meios 1.5217 0.1764 8.628 0.000000000218 *** +## Prop_nacional 0.8145 0.3947 2.063 0.0461 * +## --- +## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 +## +## Residual standard error: 1.868 on 37 degrees of freedom +## Multiple R-squared: 0.7411, Adjusted R-squared: 0.7271 +## F-statistic: 52.96 on 2 and 37 DF, p-value: 0.00000000001387 +``` + +Vamos ver o que cada informação liberada por essa função representa. + +***1) Residuals*** + +![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-295-1.png) Imagem não existe ------------------------------ In _posts/2020-11-21-RegressaoLinear.markdown <#3 (comment)> : > +Vamos ver o que cada informação liberada por essa função representa. + +***1) Residuals*** + +![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-295-1.png) + + +Em *Residuals* são apresentadas medidas estatísticas sobre os resíduos do modelo: o mínimo, o 1º quartil, a mediana, o 3º quartil e o máximo. Os resíduos são as diferenças entre os valores estimados das vendas das empresas pelo modelo e os valores reais delas. Eles refletem a qualidade do ajuste, visto que resíduos altos indicam que o modelo não se adequou muito bem aos dados. Podemos observar melhor o comportamento dos resíduos através de um *boxplot* deles. + + +```r +boxplot(modelo$residuals, col = "lightblue", horizontal = T, xlab = "Resíduos do Modelo", + main = "Boxplot: Resíduos do Modelo de Regressão Linear") +``` + +![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-298-1.png) Imagem não existe ------------------------------ In _posts/2020-11-21-RegressaoLinear.markdown <#3 (comment)> : > + +Em *Residuals* são apresentadas medidas estatísticas sobre os resíduos do modelo: o mínimo, o 1º quartil, a mediana, o 3º quartil e o máximo. Os resíduos são as diferenças entre os valores estimados das vendas das empresas pelo modelo e os valores reais delas. Eles refletem a qualidade do ajuste, visto que resíduos altos indicam que o modelo não se adequou muito bem aos dados. Podemos observar melhor o comportamento dos resíduos através de um *boxplot* deles. + + +```r +boxplot(modelo$residuals, col = "lightblue", horizontal = T, xlab = "Resíduos do Modelo", + main = "Boxplot: Resíduos do Modelo de Regressão Linear") +``` + +![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/unnamed-chunk-298-1.png) + +Note que os resíduos estão centrados aproximadamente em torno de 0 e não estão muito dispersos. Além disso, estão distribuídos de forma aproximadamente simétrica. + +***2) Coefficients*** + +![tela_0]({{ site.url }}/assets/r/courses/machine_learning/01/images/images/lm2.png) Diretório errado e a imagem tbm não existe no qual seria o diretório correto — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#3 (review)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AOYHNT4L46Z55K46V7N6ZUDSUY5PDANCNFSM4UIDD4FA> .

Member

Daniel-EST commented Dec 14, 2020

falta você colocar os arquivos no commit, eu posso fechar esses 2 pull requests e esperar você colocar. Até poderia deixar subir sem as imagens, mas não acho o ideal.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet