所有机器学习系统的基本思想是人工神经元,即感知器,对来自各种输入突触的加权信号进行求和。诚然,在生物神经元模型中确实有少数情况看起来能工作。然而,在大多数情况下,它不能。
生物神经元具有一个膜电位或电压,我称之为“电荷”。神经元从其输入突触中积累电荷,各个突触具有对应于它们贡献电荷量的“权重”。突触权重可以是正的也可以是负的。当电荷超过阈值时,神经元会发射神经冲动,向所有连接的神经元发送信号,并重置内部电荷。为了方便起见,我们将静息电荷称为 0,阈值水平称为 1。
生物神经元有三个特征,使得信号求和变得困难或不可能:
-
在神经元发射信号后,它在约 4 毫秒内不能再次发射,这段时间称为“绝对不应期”。在绝对不应期内,所有输入信号都被忽略。
-
无论输入信号的水平如何,神经元的发射速度都不能超过其最大速率。
-
内部电荷不能低于 0。如果内部电荷为 0,负权重的输入信号将被忽略。你可以看到,忽略任何输入信号都会扰乱求和的准确性。
-
内部电荷不能超过 1。如果电荷达到了 1,神经元将发射信号,因此在绝对不应期内,额外的输入信号(无论是正的还是负的)都将被忽略。这一点加上前面提到的内容意味着,如果任何部分和低于 0 或高于 1,总体求和将无法正确进行。
以一个简单的例子来说明。假设我们的神经元在 40 毫秒的时间段内表示一个 0 到 1 之间的值,这个值由该时间段内发射的神经冲动数量表示。为了表示 0.6,我们需要 6 个冲动,这些冲动可能均匀分布,但更可能是在 40 毫秒的时间段内随机分布。我们将图中的信号值 0.6 分配给“In1”,将另一个值 0.1 分配给“In2”。为了确保总和的准确性,我们希望“Out”在该时间段内发射 7 次冲动。
仅从 6 的值来看,在 40 毫秒的时间段内,Out 会处于其不应期 24 毫秒,因此我们的信号从 In2 到达不应期并被忽略的概率为 60%。如果 6 个脉冲均匀分布,它们每隔 6.7 毫秒发生一次,因此如果我们的 in2 脉冲恰好在此期间到达,来自 In1 的下一个脉冲将到达不应期并被忽略。因此,如果脉冲均匀分布,6 个脉冲+1 个脉冲永远不会等于除 6 个脉冲之外的任何值。
如果脉冲是随机分布的,神经元有可能计算出 6+1=7,但概率较小,并且与脉冲的分布有关。如果信号值相对于时间段总是较小,你可能会通过神经元获得更好的加总。要做到这一点,你需要进一步减少允许的值的数量和/或延长时间段。使用 400 毫秒的时间段,你可以获得类似 6+1 的小值的合理加总,但这对于机器学习来说速度太慢且限制太多。
考虑到以上第 3 和第 4 点,感知机有类似的限制,这就是为什么会有一个函数,通常是 sigmoid,将加总的输入映射回 0-1 范围(或-1,1)。问题在于生物神经元会在加总完成之前“剪裁”输入信号,因此没有办法用等效的 sigmoid 函数来清理。
尽管神经元无法执行最基本的机器学习功能,但它们在识别多个信号中哪个先到达方面要好得多。这就是你如何通过在两只耳朵之间仅相差毫秒的信号来识别声音的方向。神经元在确定两个输入信号中哪个脉冲更快方面也非常擅长。这种功能被用于识别视觉领域中的边界,其中边界一侧的神经元的发放速率与另一侧的不同。机器学习算法通常忽略了生物神经元的这些能力。
就像之前文章中讨论的神经元具有有限的值范围一样,突触的限制更大。这也是我们九部分系列文章中下一个主题——为什么机器学习不像你的大脑。
6+1=6,表明脉冲神经元并不像人工感知器那样执行求和操作。神经元的“时序”只是每 40 毫秒发射一次标记。“In1”稍微随机化,在每个时间段内产生 6 个脉冲,而“In2”每个周期仅发射一次。两者都通过权重为 1 的突触连接到“Out”。通过观察 Out,你可以看到哪个脉冲落在 Out 的不应期中并被丢失。在左侧情况下,In2 的脉冲在不应期内到达。在右侧情况下,In2 的脉冲导致 Out 发射,但 In1 的下一个脉冲在不应期内到达。在任何情况下,求和显然都不能正常工作。
你可以在这个视频中了解更多关于这个话题。
查尔斯·西蒙 是一位全国认可的企业家和软件开发者,未来人工智能公司的首席执行官。西蒙是《计算机会叛变吗?:为人工智能的未来做准备》的作者,也是脑模拟器 II 的开发者,这是一个 AGI 研究软件平台。更多信息,请访问这里。