Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

对英文句子识别好像不太好 #20

Open
springtty opened this issue Sep 10, 2018 · 4 comments
Open

对英文句子识别好像不太好 #20

springtty opened this issue Sep 10, 2018 · 4 comments

Comments

@springtty
Copy link

不知道是不是因为识别机制,如果识别英文句子,或者句子中有出现空格的,都会被模型过滤掉。举个例子:The fox jump over the dog. 会被识别成Thefoxjumpoverthedog
是不是因为cnn对空白部分发现没有特征可以识别?这个问题应该怎么办呢?

@xiaomaxiao
Copy link
Owner

把空格当作单独的一个类别 加入训练就可以了,这个模型主要做的汉字,英语料少也没有加入空格训练

@springtty
Copy link
Author

1、对,这个也是我在思考的解决方案。实际我们识别过程的语料,经常会出现中英文混合的情况,需要增加这种情况,然后还需要增加带空格的语料。字体方面,还需要增加多样性。
2、另外我发现因为训练样本数量级太大了,训练实在费时间,我用一块GTX1070显卡,完成一个epoch需要4个小时,不过基本在2~3个迭代之后,ACC提升就非常非常微小,那是否可以只考虑三轮迭代就行了。之前有位兄弟好像用两张显卡,跑了44个epoch,太有毅力了。

@MrKamiZhou
Copy link

1、对,这个也是我在思考的解决方案。实际我们识别过程的语料,经常会出现中英文混合的情况,需要增加这种情况,然后还需要增加带空格的语料。字体方面,还需要增加多样性。
2、另外我发现因为训练样本数量级太大了,训练实在费时间,我用一块GTX1070显卡,完成一个epoch需要4个小时,不过基本在2~3个迭代之后,ACC提升就非常非常微小,那是否可以只考虑三轮迭代就行了。之前有位兄弟好像用两张显卡,跑了44个epoch,太有毅力了。

速度慢可能是因为用了data generator, 我试了试先用numpy 预处理成array再训练会快很多,预处理过程比较耗时, 但是只用做一次

@springtty
Copy link
Author

训练和验证数据大约有360万张,每张图片32*280像素,全部load进来内存估计会爆掉。是不是考虑可以分批读取?或者使用tf的pipeline,但我觉得改造难度有点大。另外慢的地方,可能是一个batch内将样本随机打乱的过程比较耗时。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants