Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Create SingleAnalysis instance from string & Uncompressed Ambiguity Model #254

Open
aysnrgenc opened this issue Jul 17, 2020 · 1 comment

Comments

@aysnrgenc
Copy link

aysnrgenc commented Jul 17, 2020

Merhaba,
2 konuda yardımlarınıza ihtiyacım var:

1)
PerceptronAmbiguityResolver'ı eğitmek(train) için kullanılan data/gold/gold1.txt dosyasını inceledim. Bu dosya formatına uygun, yeni bir dataset etiketlemeye çalışıyorum.

Etiketleyeceğim cümleleri, öncelikle projenizde yer alan eğitilmiş analyzer'a verdim. Analyzer sonuçları üzerinde düzeltme/ekleme yaparak gold data işaretlemesi yapıyorum.

Örnek:
S:Adının Muhammed Ali Rızai olduğunu ...
Adının
[ad:Noun] ad:Noun+A3sg+ın:P2sg+ın:Gen
[ad:Noun] ad:Noun+A3sg+ı:P3sg+nın:Gen*
Muhammed
[Muhammed:Noun,Prop] muhammed:Noun+A3sg*
Ali
[ali:Adj] ali:Adj
[Ali:Noun,Prop] ali:Noun+A3sg*
.....

Bu cümleyi zemberek analyzer'a verdiğimde, "Ali" kelimesi için sadece [ali:Adj] ali:Adj analiz sonucunu çıkardı.
[Ali:Noun,Prop] ali:Noun+A3sg* analiz sonucunu ben ekledim ve doğru sonuç olduğunu gösteren "*" ibaresini sonuna ekledim.
Ayrıca "Ali" kelimesini "proper.dict" dosyasına da ekledim.

Etiketlediğim yeni dataset ile bir model eğitmek istediğim de (PerceptronAmbiguityResolverTrainer kullanıyorum) ise eklediğim yeni analiz sonuçları için SingleAnalysis instance'ı üretmem gerekiyor.

Class: https://github.com/ahmetaa/zemberek-nlp/blob/master/morphology/src/main/java/zemberek/morphology/ambiguity/PerceptronAmbiguityResolverTrainer.java
237-243 if bloğundaki:
analysisMap: pretrained model'in analiz sonuçları (Ali için [Ali:Noun,Prop] ali:Noun+A3sg sonucunu üretmiyor)
s.correctAnalysis: [Ali:Noun,Prop] ali:Noun+A3sg
analysisMap, s.correctAnalysis'i içermediğinden dolayı bu cümle göz ardı ediliyor.

Yeni eklediğim analiz sonuçları için, SingleAnalysis instance nasıl yaratabilirim ?
Input: string, "[Ali:Noun,Prop] ali:Noun+A3sg"
Ouput: SingleAnalysis instance

2)
Modelinizi eğitmek için kullandığınız verisetlerinin çoğuna ("www.aljazeera.com.tr-rule-result.txt", "wowturkey.com-rule-result.txt", "open-subtitles-tr-2018-rule-result.txt","sak.train","sak.test", "sak.dev" "www.haberturk.com-rule-result.txt","www.cnnturk.com-rule-result.txt") ulaşamadım. Bu yüzden eğittiğiniz modeli yeni etiketlenen dataset ile güncellemek istiyorum. Bu yüzden ambiguity modelinizin, sıkıştırılmamış (compressed) olmayan halini paylaşabilir misiniz ?

Yardımlarınız için teşekkür ederim

Ayşenur Genç Uzun

@aysnrgenc aysnrgenc changed the title Create SingleAnalysis instance from string Create SingleAnalysis instance from string & Uncompressed Ambiguity Model Jul 17, 2020
@mdakin
Copy link
Collaborator

mdakin commented Nov 20, 2020

@ahmetaa vaktin olunca cevap yazabilir misin?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants