-
Notifications
You must be signed in to change notification settings - Fork 191
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
对英文句子识别好像不太好 #20
Comments
把空格当作单独的一个类别 加入训练就可以了,这个模型主要做的汉字,英语料少也没有加入空格训练 |
1、对,这个也是我在思考的解决方案。实际我们识别过程的语料,经常会出现中英文混合的情况,需要增加这种情况,然后还需要增加带空格的语料。字体方面,还需要增加多样性。 |
速度慢可能是因为用了data generator, 我试了试先用numpy 预处理成array再训练会快很多,预处理过程比较耗时, 但是只用做一次 |
训练和验证数据大约有360万张,每张图片32*280像素,全部load进来内存估计会爆掉。是不是考虑可以分批读取?或者使用tf的pipeline,但我觉得改造难度有点大。另外慢的地方,可能是一个batch内将样本随机打乱的过程比较耗时。 |
不知道是不是因为识别机制,如果识别英文句子,或者句子中有出现空格的,都会被模型过滤掉。举个例子:The fox jump over the dog. 会被识别成Thefoxjumpoverthedog
是不是因为cnn对空白部分发现没有特征可以识别?这个问题应该怎么办呢?
The text was updated successfully, but these errors were encountered: