Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在新的数据集测试,效果不是很好,想请教下原因,谢谢 #17

Open
liangshuang1993 opened this issue Jun 18, 2018 · 9 comments

Comments

@liangshuang1993
Copy link

你好,我用你的crnn部分做了测试。

用的代码为https://github.com/xiaomaxiao/keras_ocr/blob/master/densent_ocr/densenet-ocr-test.ipynb
用的模型是你百度云里面的“weights-densent-32-0.9846.hdf5”,但是检测出来的准确率在百分之七十左右。

想请问下是因为我的数据集和你训练用的数据集有一定差异吗?如果我用我的语料库用SynthText生成数据集重新训练,是不是效果会好些。

非常感谢!

@cy69855522
Copy link

预训练模型给个百度云链接吧(ˉ﹃ˉ)

@liangshuang1993
Copy link
Author

@cy69855522 这个里面有提供:https://github.com/xiaomaxiao/keras_ocr/issues/4。
想问下你训练怎么样了?你数据集是自己合成的吗?

@cy69855522
Copy link

gpu不好,没打算训练,想先试试效果,看看有没有更好的模型。你重新训练了吗?效果怎么样?

@liangshuang1993
Copy link
Author

我重新训练了,在合成的数据集上面效果还可以,实际图片效果不好。

@xiaosi2017
Copy link

请问一下,如果针对某一个特定的领域进行ocr识别,那么是不是可以先获取这个领域的文本资料,然后做成训练集图片来训练,这样的训练集要多大呢?

@liangshuang1993
Copy link
Author

几十万几百万张吧

@xiaosi2017
Copy link

@liangshuang1993 那请问
文本的TXT资料要多少呢?

@springtty
Copy link

这个应该没有标准答案吧,就看你的领域有多大了。

@lmw0320
Copy link

lmw0320 commented Aug 25, 2020

想请教下:
我是训练时发现acc一直都是0,数据集是3W+的,不知道是不是数据集太少了。。
之前的情况是,用训练集来检测,acc大概训练个几十上百个epoch,就达到了99%,而拿另外的数据集测试的话,效果就很差。然后我将训练集进行了分割,在训练过程中检测验证集的效果,则acc训练个大几百个epoch,acc都一直是0.。。
不知道怎么回事。。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants