-
Notifications
You must be signed in to change notification settings - Fork 65
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
你好,训练完的seq2seq纠错模型不能判断正确的句子 #57
Comments
可以给一些例子吗?我自己测试似乎不会这样 |
我使用的数据集也是lang8 + SHK进行训练, 训练参数并没有改,训练后的模型会过度纠错. 比如输入 你好。会改成你们好。 比如这只是一个测试用例。 会改成这只是个测试用例。 是不是需要将seq2seq和seq2edit集成使用才能避免这个问题 |
会无差别的进行纠错,即便原来的句子是正确的,也会进行修改。尽管改完也是正确的,但是语义上还是很可能发生改变的。 在魔塔社区发布的通用纠错模型,输入你好。也会过度纠正,会变成大家好。 但是魔塔设计那个模型过度纠正只是小概率,两者是因为有无检测网络的差别吗? 我使用的数据集也是lang8 + SHK进行训练, 训练参数并没有改,训练后的模型会过度纠错. 比如输入 你好。会改成你们好。 比如这只是一个测试用例。 会改成这只是个测试用例。 是不是需要将seq2seq和seq2edit集成使用才能避免这个问题。 还是说得单独在训练一个检测模型 |
会无差别的进行纠错,即便原来的句子是正确的,也会进行修改。尽管改完也是正确的,但是语义上还是很可能发生改变的。 在魔塔社区发布的通用纠错模型,输入你好。也会过度纠正,会变成大家好,不过只是个例。并不会像我自己训练的seq2aeq模型那样,百分百都会修改。两者是因为有无检测网络的差别吗? 我使用的数据集也是lang8 + SHK进行训练, 训练参数并没有改,训练后的模型会过度纠错. 比如输入 你好。会改成你们好。 比如 这只是一个测试用例。 会改成 这只是个测试用例。 是不是需要将seq2seq和seq2edit集成使用才能避免这个问题。 还是说得单独在训练一个检测模型
小拾
***@***.***
…------------------ 原始邮件 ------------------
发件人: "HillZhang1999/MuCGEC" ***@***.***>;
发送时间: 2023年11月2日(星期四) 下午3:53
***@***.***>;
***@***.******@***.***>;
主题: Re: [HillZhang1999/MuCGEC] 你好,训练完的seq2seq纠错模型不能判断正确的句子 (Issue #57)
可以给一些例子吗?我自己测试似乎不会这样
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
魔塔社区那个模型对一些比较短的语句似乎也会过度纠偏,比如你好,他好吗? 他还好吗?都会被纠正。用MuCGEC上的项目训练的Seq2Seq纠错模型会更加严重,训练集和训练参数没有修改的情况下,每个句子都被当成错句修改。另外双引号也会被去除。 请问应该如何解决呢? 集成一下seq2edit是否能够改善这个问题。
小拾
***@***.***
…------------------ 原始邮件 ------------------
发件人: "HillZhang1999/MuCGEC" ***@***.***>;
发送时间: 2023年11月2日(星期四) 下午3:53
***@***.***>;
***@***.******@***.***>;
主题: Re: [HillZhang1999/MuCGEC] 你好,训练完的seq2seq纠错模型不能判断正确的句子 (Issue #57)
可以给一些例子吗?我自己测试似乎不会这样
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
魔塔的模型理论上和我们开源的模型是一样的,结果应该比较接近。 如果想减少过纠现象可以使用集成策略。 |
Seq2edit的训练集是否跟Seq2Seq的训练集一样? 是否需要正样本? 感谢您耐心的回答,Thanks♪(・ω・)ノ |
一样的,一般是需要正样本的,可以提高precision |
好的 谢谢
郭晓东
***@***.***
…------------------ 原始邮件 ------------------
发件人: "HillZhang1999/MuCGEC" ***@***.***>;
发送时间: 2023年11月6日(星期一) 晚上9:13
***@***.***>;
***@***.******@***.***>;
主题: Re: [HillZhang1999/MuCGEC] 你好,训练完的seq2seq纠错模型不能判断正确的句子 (Issue #57)
一样的,一般是需要正样本的,可以提高precision
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
你这个问题解决了吗?我这边用自己的数据进行微调,也加了接近30%的正确样本,也会出现过纠现象。 |
你好,训练完的seq2seq纠错模型似乎只能纠错,不能判断正确的句子。原本正确的句子也会被进行纠错修改。这是什么原因造成的呢,是因为没有添加正样本吗?不过后来我又加了正样本,大概占总样本的35%,但还是没办法判别原句是否正确,而是统一按错句处理 ,请问这个应该怎么解决呢
The text was updated successfully, but these errors were encountered: