Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【机器学习算法基础】问题收集 #9

Open
km1994 opened this issue Apr 26, 2020 · 5 comments
Open

【机器学习算法基础】问题收集 #9

km1994 opened this issue Apr 26, 2020 · 5 comments

Comments

@km1994
Copy link

km1994 commented Apr 26, 2020

这里主要用于收集 【机器学习算法基础】 所遇到的问题和解决方法

@hongbojia
Copy link

hongbojia commented Apr 26, 2020

关于Task3 EM算法的一个问题

高斯混合分布中

$$\gamma_{j k}=\left{\begin{array}{ll}1 & \text { 第j个双?数据来?于第k个?型 } \ 0 & \text { 否则 }\end{array}\right.$$
这里假设的是任何某一个观测数据只能来自于一个高斯模型而不是多个高斯模型的叠加,对于整个观测数据集是有=由很多个不同权重高斯模型叠加而成

@ccs258
Copy link

ccs258 commented Apr 26, 2020

Task3 EM算法的问题

请教下 EM算法 这个三硬币过程 Y=1和Y=0这个事件的概率算法 是把两种不相容的可能事件加起来计算该概率了 可是我理解不应该是 要么取到B,要么取到C,那 Y=1和Y=0这个事件的概率要么是等于取到B的概率,要么是等于取到C的概率,它俩不可能同时发生,为什么这里可以相加呢

群内伙伴解答:
第一个硬币掷出正面则接着掷第二个硬币, 然后记录第二个硬币的结果, 第一个硬币的结果不记录;第一个硬币掷出反面,则不掷第二枚硬币, 而是掷第三枚硬币, 然后记录第三枚硬币的结果

但是会多次掷啊. 一次基本事件是, 先掷第一枚硬币, 根据结果是正面还是反面,掷第二枚或者第三枚硬币, 并记录第二或者第三枚硬币的观测结果.这就完成了一次基本事件.

所以观测到的结果是第二枚或第三枚的正面或反面, 但到底是第二还是第三并不知道. 因为第一枚硬币的结果没有记录.

按照队友的解答,发觉自己对统计学基本概念理解得不是很好,就补充了试验、简单事件、事件概率相关的知识,基本理解了;补充的知识如下:
试验定义:获得一次观测或测量的过程;
假设有3枚硬币,分别记做A、B、C,这些硬币正面出现的概率分别是π、p、q,进行如下实验
step1:先掷硬币A,根据结果选出硬币B和硬币C,正面选硬币B,反面选硬币C
step2:通过选择出的硬币,掷硬币的结果出现正面为1,反面为0
如此独立地重复n次实验,我们当前规定n=10,则10次的结果如下所示:1,1,0,1,0,0,1,0,1,1

本案例中的试验可以这样定义:先掷硬币A,选出硬币B和硬币C,再根据选择出的硬币投掷出现正面的过程

简单事件定义:是一个试验的基本结果,它不能分解为更简单的结果。
基于试验定义,本试验中的简单事件可以定义为: (1)投掷硬币A选出B,投掷B为正面;
                                        (2)投掷硬币A选出C,投掷C为正面;

事件定义:是简单事件的一个指定集合。
本案例中的事件是:先掷硬币A,选出硬币B和硬币C,再根据选择出的硬币投掷出现正面,此事件是上述简单事件的集合; 

事件的概率:事件A的概率等于事件A中所包含的简单事件的概率之和
因此,本试验中事件的概率为:P(1∣θ)=πp+(1−π)q   」

@ccs258
Copy link

ccs258 commented Apr 26, 2020

Task1 梯度下降的问题

请教下各位大神,问个比较白痴的问题,这个梯度下降这种迭代方式怎么保证,迭代后误差是变小了的,我只能从几何图形上大致明白一点,但公式层面怎么证明呢?

经群内队友解答:发觉自己对梯度定义理解有偏差,梯度是函数变化最快的方向,重在变化;另外也要注意个前提,函数是凸函数,即只有一个极值,要么是极小值要么是极大值,只能有一个;因此变化率最快的方向迭代,就是逐步逼近到极值的过程。

@km1994
Copy link
Author

km1994 commented Apr 29, 2020

【问题】step 1 : 先抛砖引玉,CRF 模型 可以 解决什么问题?
【问题解答】

  1. 例子
    假设有Bob一天从早到晚的一系列照片,Bob想考考我们,要我们猜这一系列的每张照片对应的活动,比如: 工作的照片,吃饭的照片,唱歌的照片等等。一个比较直观的办法就是,我们找到Bob之前的日常生活的一系列照片,然后找Bob问清楚这些照片代表的活动标记,这样我们就可以用监督学习的方法来训练一个分类模型,比如逻辑回归,接着用模型去预测这一天的每张照片最可能的活动标记。
    这种办法虽然是可行的,但是却忽略了一个重要的问题,就是这些照片之间的顺序其实是有很大的时间顺序关系的,而用上面的方法则会忽略这种关系。比如我们现在看到了一张Bob闭着嘴的照片,那么这张照片我们怎么标记Bob的活动呢?比较难去打标记。但是如果我们有Bob在这一张照片前一点点时间的照片的话,那么这张照片就好标记了。如果在时间序列上前一张的照片里Bob在吃饭,那么这张闭嘴的照片很有可能是在吃饭咀嚼。而如果在时间序列上前一张的照片里Bob在唱歌,那么这张闭嘴的照片很有可能是在唱歌。

  2. 核心点
    举个例子把,比如 天气预测,序列标注,还是这个 图片排序,都是有一个特点,那就是 有 相互依赖关系,就是 根据 观测序列去 计算隐藏序列,以及满足 每个 观测序列 节点 间 具有 依赖关系就好

@km1994
Copy link
Author

km1994 commented Apr 29, 2020

【问题】step 2 : CRF 模型的历史?(随机场->HMM->MEMM->CRF)
【问题解答】


聊聊 随机场呗:每个位置按照某种分布随机赋予一个值 所构成 的 整体。」


马尔可夫过程:由于 每个状态间 是以 有向直线连接,也就是 当前时刻状态 仅与上一时刻状态相关。」


HMM 比较核心了,首先需要 找到他的一些东西,比如 两序列:观测序列和隐藏序列,其实 只要 能够 转化为 已知一个序列,然后去预测另外一个序列 的 问题 , 而且 每个节点相关, 都可以用 CRF,」


「9~大雄的多啦a梦~韩绘锦:【问题】就还是HMM的那两个基本假设;CRF解除了这两个假设?」


HMM 提出了两个假设:- 假设一:输出观测值间严格独立,仅取决于对应隐状态
  - 假设二:状态转移过程中,当前状态只与前一状态相关」


MEMM 通过 常用 局部归一化 的方法,解决了 假设一:输出观测值间严格独立,仅取决于对应隐状态」


CRF 通过 利用全局归一化的方法 解决 假设二:状态转移过程中,当前状态只与前一状态相关

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants