-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Add files via upload #3
base: master
Are you sure you want to change the base?
Conversation
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Diversos links de imagem estão quebrados, não receberam upload ou se encontram na pasta errada. Apontei alguns mas eram muitos.
Desculpe a demora para comentar o commit, estava atarefado com TCC, trabalho e as atividades de final de período.
@MirandaAGab Poderia fazer o upload das imagens?
gbm.perf(modelo) | ||
``` | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Esta imagem não existe.
|
||
Queremos predizer se uma pessoa ama o filme Troll 2 baseado em seu gosto por pipoca, idade e cor favorita. Assim como em regressão, começamos o método de Gradiente Boosting usando uma árvore raiz que represente nossa predição inicial para cada observação. Em regressão usamos a média das observações, em classificação vamos usar o log(chances). Olhando na base de dados, podemos dizer que as chances de alguém amar Troll 2 é $$chances= \frac{Quantidade\ de\ indivíduos\ que\ amaram}{Quantidade\ de\ indivíduos\ que\ odiaram} = \frac{4}{2}$$ portanto, o $log(chances)=log(\frac{4}{2}) = 0.6932$ e é isso que colocaremos na folha inicial. | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
O jeito mais fácil de usar o log(chances) para classificar é convertendo em probabilidade, e fazemos isso usando a seguinte função: $$ Probabilidade = \frac{e^{log(chances)}}{1+e^{log(chances)}}$$ | ||
Sendo assim, A $Probabilidade\ de\ alguém\ amar\ Troll2 = \frac{e^{log(\frac{4}{2})}}{1+e^{log(\frac{4}{2})}} = \frac{2}{3}=0.6667$. | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
|
||
Agora construímos uma árvore utilizando as variáveis explicativas para predizer o pseudo-resíduo. Assim como o Gradiente Boosting para regressão, temos que definir um número máximo de folhas em cada árvore. Aqui vamos limitar a 3 folhas, mas na prática geralmente é um número entre 8 e 32. | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
|
||
> Por enquanto, a probabilidade anterior é a mesma para todos, mas a partir da próxima árvore isso muda. | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
gbm.perf(modelo) | ||
``` | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
zlab = "Vendas", main = "Vendas de 40 Empresas baseado nos Gastos com Propagandas") | ||
``` | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
|
||
***1) Residuals*** | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
main = "Boxplot: Resíduos do Modelo de Regressão Linear") | ||
``` | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Imagem não existe
|
||
***2) Coefficients*** | ||
|
||
 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Diretório errado e a imagem tbm não existe no qual seria o diretório correto
Olhei aqui no GitHub Desktop e já estava a pasta atualizada, os cadernos
que eu tinha colocado que não estão mais na pasta _posts. De qualquer
forma, coloquei novamente. Coloquei os outros cadernos que faltavam também.
Em seg., 14 de dez. de 2020 às 13:38, Daniel dos Santos <
[email protected]> escreveu:
… ***@***.**** commented on this pull request.
Diversos links de imagem estão quebrados, não receberam upload ou se
encontram na pasta errada. Apontei alguns mas eram muitos.
Desculpe a demora para comentar o commit, estava atarefado com TCC,
trabalho e as atividades de final de período.
@MirandaAGab <https://github.com/MirandaAGab> Poderia fazer o upload das
imagens?
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +caret::defaultSummary(data.frame(obs = teste$wage, pred = predicao))
+```
+
+```
+## RMSE Rsquared MAE
+## 0.7297289 0.9996961 0.1742759
+```
+
+Note que utilizamos 300 árvores. Mas pode ser que não seja necessário essa quantidade de árvores pra alcançar esses valores de $R^2$, RMSE e MAE. Para saber a quantidade ideal de árvores, isto é, quando erro se estabiliza, podemos utilizar a função `gbm.perf()`.
+
+
+```r
+gbm.perf(modelo)
+```
+
+
Esta imagem não existe.
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +
+```
+## # A tibble: 6 x 4
+## `Gosta de Pipoca` Idade `Cor Favorita` `Troll 2`
+## <chr> <dbl> <chr> <chr>
+## 1 Sim 12 Azul Ama
+## 2 Sim 87 Verde Ama
+## 3 Nao 44 Azul Odeia
+## 4 Sim 19 Vermelho Odeia
+## 5 Nao 32 Verde Ama
+## 6 Nao 14 Azul Ama
+```
+
+Queremos predizer se uma pessoa ama o filme Troll 2 baseado em seu gosto por pipoca, idade e cor favorita. Assim como em regressão, começamos o método de Gradiente Boosting usando uma árvore raiz que represente nossa predição inicial para cada observação. Em regressão usamos a média das observações, em classificação vamos usar o log(chances). Olhando na base de dados, podemos dizer que as chances de alguém amar Troll 2 é $$chances= \frac{Quantidade\ de\ indivíduos\ que\ amaram}{Quantidade\ de\ indivíduos\ que\ odiaram} = \frac{4}{2}$$ portanto, o $log(chances)=log(\frac{4}{2}) = 0.6932$ e é isso que colocaremos na folha inicial.
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +## 2 Sim 87 Verde Ama
+## 3 Nao 44 Azul Odeia
+## 4 Sim 19 Vermelho Odeia
+## 5 Nao 32 Verde Ama
+## 6 Nao 14 Azul Ama
+```
+
+Queremos predizer se uma pessoa ama o filme Troll 2 baseado em seu gosto por pipoca, idade e cor favorita. Assim como em regressão, começamos o método de Gradiente Boosting usando uma árvore raiz que represente nossa predição inicial para cada observação. Em regressão usamos a média das observações, em classificação vamos usar o log(chances). Olhando na base de dados, podemos dizer que as chances de alguém amar Troll 2 é $$chances= \frac{Quantidade\ de\ indivíduos\ que\ amaram}{Quantidade\ de\ indivíduos\ que\ odiaram} = \frac{4}{2}$$ portanto, o $log(chances)=log(\frac{4}{2}) = 0.6932$ e é isso que colocaremos na folha inicial.
+
+
+
+
+O jeito mais fácil de usar o log(chances) para classificar é convertendo em probabilidade, e fazemos isso usando a seguinte função: $$ Probabilidade = \frac{e^{log(chances)}}{1+e^{log(chances)}}$$
+Sendo assim, A $Probabilidade\ de\ alguém\ amar\ Troll2 = \frac{e^{log(\frac{4}{2})}}{1+e^{log(\frac{4}{2})}} = \frac{2}{3}=0.6667$.
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +
+```
+## # A tibble: 6 x 5
+## `Gosta de Pipoca` Idade `Cor Favorita` `Troll 2` `Ps. Res. 1`
+## <chr> <dbl> <chr> <chr> <dbl>
+## 1 Sim 12 Azul Ama 0.3
+## 2 Sim 87 Verde Ama 0.3
+## 3 Nao 44 Azul Odeia -0.7
+## 4 Sim 19 Vermelho Odeia -0.7
+## 5 Nao 32 Verde Ama 0.3
+## 6 Nao 14 Azul Ama 0.3
+```
+
+Agora construímos uma árvore utilizando as variáveis explicativas para predizer o pseudo-resíduo. Assim como o Gradiente Boosting para regressão, temos que definir um número máximo de folhas em cada árvore. Aqui vamos limitar a 3 folhas, mas na prática geralmente é um número entre 8 e 32.
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +## 5 Nao 32 Verde Ama 0.3
+## 6 Nao 14 Azul Ama 0.3
+```
+
+Agora construímos uma árvore utilizando as variáveis explicativas para predizer o pseudo-resíduo. Assim como o Gradiente Boosting para regressão, temos que definir um número máximo de folhas em cada árvore. Aqui vamos limitar a 3 folhas, mas na prática geralmente é um número entre 8 e 32.
+
+
+
+
+Em regressão, os valores das folhas representavam os resíduos. Mas em classificação isso é mais complexo. Isso porque a predição está em log(chances) e as folhas são provenientes de probabilidade. Portanto não podemos apenas tirar a média para uma nova predição sem alguma transformação. A transformação mais comum por folha é $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}$$
+
+Assim, da esquerda pra direita, para primeira folha temos $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}=\frac{-0.7}{0.7*(1-0.7)}=-3.3333,$$ para a segunda $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}=\frac{0.3+(-0.7)}{(0.7*(1-0.7))+(0.7*(1-0.7))}=-0.9524$$ e para a última $$\frac{\sum resíduos}{\sum[prob.\ anterior * (1-prob.\ anterior)]}=$$ $$\frac{0.3+0.3+0.3}{(0.7*(1-0.7))+(0.7*(1-0.7))+(0.7*(1-0.7))}=\frac{3*0.3}{3*(0.7*(1-0.7))}=1.4286$$
+
+> Por enquanto, a probabilidade anterior é a mesma para todos, mas a partir da próxima árvore isso muda.
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +
+```
+## # A tibble: 6 x 5
+## `Gosta de Pipoca` Idade `Cor Favorita` `Troll 2` `Ps. Res. 2`
+## <chr> <dbl> <chr> <chr> <dbl>
+## 1 Sim 12 Azul Ama 0.1
+## 2 Sim 87 Verde Ama 0.5
+## 3 Nao 44 Azul Odeia -0.5
+## 4 Sim 19 Vermelho Odeia -0.1
+## 5 Nao 32 Verde Ama 0.1
+## 6 Nao 14 Azul Ama 0.1
+```
+
+Construímos uma segunda árvore agora para prever os novos pseudo-resíduos e fazemos a transformação para log(chances) para cada folha.
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-GradienteBoost.markdown
<#3 (comment)>
:
> +for (i in 1:k){
+ classe[i] = names(which.max(predicao[i,1:4,1]))
+}
+head(classe)
+```
+
+```
+## [1] "van" "van" "opel" "van" "bus" "saab"
+```
+
+```r
+# verificando quantidade de arvores necessarias
+gbm.perf(modelo)
+```
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-RegressaoLinear.markdown
<#3 (comment)>
:
> +## 5 9.00 3.4 2.9
+## 6 9.34 6.1 3.4
+```
+
+Vamos construir o diagrama de dispersão entre a variável Vendas e as demais.
+
+
+```r
+# Pacote para plotar gráfico de pontos em 3 dimensões:
+library(lattice)
+cloud(Venda~Prop_outros_meios*Prop_nacional, data = vendas,
+ xlab = "Prop. Outros Meios", ylab = "Prop. Mídia Nacional",
+ zlab = "Vendas", main = "Vendas de 40 Empresas baseado nos Gastos com Propagandas")
+```
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-RegressaoLinear.markdown
<#3 (comment)>
:
> +## (Intercept) 0.7184 1.3531 0.531 0.5987
+## Prop_outros_meios 1.5217 0.1764 8.628 0.000000000218 ***
+## Prop_nacional 0.8145 0.3947 2.063 0.0461 *
+## ---
+## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
+##
+## Residual standard error: 1.868 on 37 degrees of freedom
+## Multiple R-squared: 0.7411, Adjusted R-squared: 0.7271
+## F-statistic: 52.96 on 2 and 37 DF, p-value: 0.00000000001387
+```
+
+Vamos ver o que cada informação liberada por essa função representa.
+
+***1) Residuals***
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-RegressaoLinear.markdown
<#3 (comment)>
:
> +Vamos ver o que cada informação liberada por essa função representa.
+
+***1) Residuals***
+
+
+
+
+Em *Residuals* são apresentadas medidas estatísticas sobre os resíduos do modelo: o mínimo, o 1º quartil, a mediana, o 3º quartil e o máximo. Os resíduos são as diferenças entre os valores estimados das vendas das empresas pelo modelo e os valores reais delas. Eles refletem a qualidade do ajuste, visto que resíduos altos indicam que o modelo não se adequou muito bem aos dados. Podemos observar melhor o comportamento dos resíduos através de um *boxplot* deles.
+
+
+```r
+boxplot(modelo$residuals, col = "lightblue", horizontal = T, xlab = "Resíduos do Modelo",
+ main = "Boxplot: Resíduos do Modelo de Regressão Linear")
+```
+
+
Imagem não existe
------------------------------
In _posts/2020-11-21-RegressaoLinear.markdown
<#3 (comment)>
:
> +
+Em *Residuals* são apresentadas medidas estatísticas sobre os resíduos do modelo: o mínimo, o 1º quartil, a mediana, o 3º quartil e o máximo. Os resíduos são as diferenças entre os valores estimados das vendas das empresas pelo modelo e os valores reais delas. Eles refletem a qualidade do ajuste, visto que resíduos altos indicam que o modelo não se adequou muito bem aos dados. Podemos observar melhor o comportamento dos resíduos através de um *boxplot* deles.
+
+
+```r
+boxplot(modelo$residuals, col = "lightblue", horizontal = T, xlab = "Resíduos do Modelo",
+ main = "Boxplot: Resíduos do Modelo de Regressão Linear")
+```
+
+
+
+Note que os resíduos estão centrados aproximadamente em torno de 0 e não estão muito dispersos. Além disso, estão distribuídos de forma aproximadamente simétrica.
+
+***2) Coefficients***
+
+
Diretório errado e a imagem tbm não existe no qual seria o diretório
correto
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#3 (review)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AOYHNT4L46Z55K46V7N6ZUDSUY5PDANCNFSM4UIDD4FA>
.
|
falta você colocar os arquivos no commit, eu posso fechar esses 2 pull requests e esperar você colocar. Até poderia deixar subir sem as imagens, mas não acho o ideal. |
No description provided.