diff --git a/.idea/workspace.xml b/.idea/workspace.xml index 1637c11..3e23e9f 100644 --- a/.idea/workspace.xml +++ b/.idea/workspace.xml @@ -2,9 +2,8 @@ - - + @@ -29,8 +28,8 @@ - - + + @@ -53,8 +52,8 @@ - - + + @@ -279,7 +278,7 @@ - + @@ -1200,8 +1199,8 @@ - - + + @@ -1222,8 +1221,8 @@ - - + + diff --git a/README.md b/README.md index 1ed0842..a5fae6f 100644 --- a/README.md +++ b/README.md @@ -347,6 +347,7 @@ - [主要使用了什么机制](推荐/DIN.md#L164) - [activation unit的作用](推荐/DIN.md#L164) - [DICE怎么设计的](推荐/DIN.md#L164) + - [DICE使用的过程中,有什么需要注意的地方](推荐/DIN.md#L164) - DeepFM - [DNN与DeepFM之间的区别](推荐/DeepFM.md#L164) - [Wide&Deep与DeepFM之间的区别](推荐/DeepFM.md#L164) diff --git "a/\346\216\250\350\215\220/DIN.md" "b/\346\216\250\350\215\220/DIN.md" index bbe52c6..98fc79d 100644 --- "a/\346\216\250\350\215\220/DIN.md" +++ "b/\346\216\250\350\215\220/DIN.md" @@ -8,5 +8,10 @@ Attention机制,针对不同的广告,用户历史行为与该广告的权 - activation unit在这种思路上,认为面对不同的对象Va兴趣的权重Wi应该也是变换而不是固定的,所以用了g(ViVa)来动态刻画不同目标下的历史行为的不同重要性 # DICE怎么设计的 -- x_p=tf.sigmoid(tf.layers.batch_normalization(x, center=False, scale=False)) -- aplha*(1-x_p)*x+x_p*x \ No newline at end of file +- 先对input数据进行bn,在进行sigmoid归一化到0-1,再进行一个加权平衡alpha*(1-x_p)`*`x+x_p`*`x + - x_p=tf.sigmoid(tf.layers.batch_normalization(x, center=False, scale=False,training=True)) + - aplha*(1-x_p)*x+x_p*x + +# DICE使用的过程中,有什么需要注意的地方 +- 在用batch_normalization的时候,需要设置traning=True,否则在做test的时候,获取不到training过程中的各batch的期望 +- test的时候,方差计算利用的是期望的无偏估计计算方法:E(u^2)`*`m/(m-1) \ No newline at end of file