对英文句子识别好像不太好 #20

springtty · 2018-09-10T10:10:32Z

不知道是不是因为识别机制，如果识别英文句子，或者句子中有出现空格的，都会被模型过滤掉。举个例子：The fox jump over the dog. 会被识别成Thefoxjumpoverthedog
是不是因为cnn对空白部分发现没有特征可以识别？这个问题应该怎么办呢？

xiaomaxiao · 2018-09-21T08:07:50Z

把空格当作单独的一个类别加入训练就可以了，这个模型主要做的汉字，英语料少也没有加入空格训练

springtty · 2018-09-29T01:28:07Z

1、对，这个也是我在思考的解决方案。实际我们识别过程的语料，经常会出现中英文混合的情况，需要增加这种情况，然后还需要增加带空格的语料。字体方面，还需要增加多样性。
2、另外我发现因为训练样本数量级太大了，训练实在费时间，我用一块GTX1070显卡，完成一个epoch需要4个小时，不过基本在2～3个迭代之后，ACC提升就非常非常微小，那是否可以只考虑三轮迭代就行了。之前有位兄弟好像用两张显卡，跑了44个epoch，太有毅力了。

MrKamiZhou · 2018-10-12T02:30:51Z

1、对，这个也是我在思考的解决方案。实际我们识别过程的语料，经常会出现中英文混合的情况，需要增加这种情况，然后还需要增加带空格的语料。字体方面，还需要增加多样性。
2、另外我发现因为训练样本数量级太大了，训练实在费时间，我用一块GTX1070显卡，完成一个epoch需要4个小时，不过基本在2～3个迭代之后，ACC提升就非常非常微小，那是否可以只考虑三轮迭代就行了。之前有位兄弟好像用两张显卡，跑了44个epoch，太有毅力了。

速度慢可能是因为用了data generator, 我试了试先用numpy 预处理成array再训练会快很多,预处理过程比较耗时, 但是只用做一次

springtty · 2018-10-12T06:22:40Z

训练和验证数据大约有360万张，每张图片32*280像素，全部load进来内存估计会爆掉。是不是考虑可以分批读取？或者使用tf的pipeline，但我觉得改造难度有点大。另外慢的地方，可能是一个batch内将样本随机打乱的过程比较耗时。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

对英文句子识别好像不太好 #20

对英文句子识别好像不太好 #20

springtty commented Sep 10, 2018

xiaomaxiao commented Sep 21, 2018

springtty commented Sep 29, 2018

MrKamiZhou commented Oct 12, 2018

springtty commented Oct 12, 2018

对英文句子识别好像不太好 #20

对英文句子识别好像不太好 #20

Comments

springtty commented Sep 10, 2018

xiaomaxiao commented Sep 21, 2018

springtty commented Sep 29, 2018

MrKamiZhou commented Oct 12, 2018

springtty commented Oct 12, 2018