Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

针对 全彩漫画 CG 特化训练的模型 #711

Open
lhj5426 opened this issue Jul 18, 2024 · 5 comments
Open

针对 全彩漫画 CG 特化训练的模型 #711

lhj5426 opened this issue Jul 18, 2024 · 5 comments

Comments

@lhj5426
Copy link

lhj5426 commented Jul 18, 2024

image
我针对E站画师CG 训练的特化模型
另外针对全彩的同人志 也有很好的表现效果
只针对 竖排文字 横排文字一张都没训练
CG纯横排的本来就少
具体对比效果可以看这里
我发在了我的TG频道
https://t.me/galgameonHCG/5411
在淘宝租4090 和3090物理主机进行训练的
训练数据集已经到10个G了
image
训练一波10多个小时以上 而且提升感觉不是很大了(主要还是贵 )
对大部分的CG 有很好的 过滤背景拟声字的效果
大概 80%-90% 的效果是有了
用这个模型进行气泡识别一定程度上比
manga-image-translatorrun 用自然语言识别 强太多了
GITHUB 禁止大于10M 一个模型40M 我用OD 放这里了
https://alumnialbany-my.sharepoint.com/:f:/g/personal/planetrav_alumni_albany_edu/EnnR5gQvo2lMn162JRJJtrgBw1O0PWOG53NR26mSl2gNsg?e=3kyICe
这里提供 2个模型 具体看看哪个更好用吧 有的时候感觉训练多了 反倒是以前能识别的 变得不会识别了

还有
老哥 能不能优化一下 掩膜图的 识别效果
#710
这里的这个问题 后来又发现 就是用了最新的 项目 也是时灵时不灵的。。。

因为用这个模型识别之后 自动掩膜覆盖效果很 不好 很多不会覆盖
而用yolo 生成的掩膜 可以全覆盖
但是 软件对这个外地来的掩膜图很不友好

@xulihang
Copy link
Owner

效果不错。用Windows自带OCR定位错的文字区域都能检测对,之后再用windows自带OCR识别这些区域文字

@lhj5426
Copy link
Author

lhj5426 commented Aug 1, 2024

最近使用精度最高X模型yolov8x.pt 在重新训练
image
这次训练出来 应该就能覆盖漫画全彩 2个种类了 这50轮就跑了快3天

@lhj5426
Copy link
Author

lhj5426 commented Aug 10, 2024

这次使用了27个G 的数据训练 使用的是 yoloV8最大的模型X

image
image

https://alumnialbany-my.sharepoint.com/:f:/g/personal/planetrav_alumni_albany_edu/ElWc01HWnk9MrF0JoMvfbFEBhqsLJebn32zVddIEY058UA?e=pDrq8z
针对漫画进行的训练
没想到 用这个模型在 ImageTrans 上跑气泡识别比之前的S 模型慢好多
训练了各种数据 不过 以为用大点模型的精度会更高
其实好像只跑漫画文字定位框 这个小破功能 完全没必要上X 而且精度
也并没有理想的那么那么精准 再而且训练跑起来也很慢
只能说和 之前 那个老哥提供的 离线气泡模型 半斤八两吧
这才迭代了12轮
image
勉强能用 后边还得接着 训练 老婆给的零花钱 全TM花在租显卡上了
请老哥试试这个模型吧

题外话 写给 其他的看到 并想使用这个模型的小伙伴
因为 这个模型在 ImageTrans 上跑的有点慢 (也不排除我电脑配置垃圾的因素)
我的推荐用法是 使用带有GPU加速的
https://github.com/CVHub520/X-AnyLabeling
来跑 跑完 导出标注 数据 然后
把标注数据 和 图片 按照 复制2份
labels
└val
└train
images
└val
└train
这样的格式放在文件夹里然后用ImageTrans 的 工具 →目标标注管理器 导入
因为 X-AnyLabeling 有N卡GPU 加速 跑这个模型的推理比在ImageTrans 快很多哈哈

PS:
image
因为同时训练了 横向 文字定位
虽然拟声词是排除掉了部分
但是相对的 增加了 这种
这 叫什么呢 有得必有失? 鱼与熊掌不可兼得?

@xulihang
Copy link
Owner

我试了下,效果比之前的日漫模型应该要好

@xulihang
Copy link
Owner

日漫模型我在这里传了一份,在基于模板创建时可以选择下载:https://github.com/xulihang/balloon-dataset/releases/download/models/japanese-manga.zip

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants