Skip to content

albertbokor-unideb/Introduction2NLP

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

51 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Követelmények

Bedás módja

A feladatokat notebook formájában kell beadni, amely nootbook minden blokkjának egymás után szekvenciálisa hiba nélkül kell futnia. A notebook-ok egyes részegységét pontosan definiálnia kell melyik rész mit csinál pontosan és mit akar megmutatni.A feladat megoldásának egy teljes működő pipline-t kell létrehoznia. Az egyes feladatoknál mindig kell lennie egy adatelőkészítési, modellezési és kiértékelési résznek. A feladatokat 1 vagy maximum 3-fő csapatokban lehet elvégezni. Azonban az elért eredményhez képest 2 személyes csapat esetén fél jegy még 3 személyes csapat esetén egy teljes jegy kerül levonásra.

Bekűldés módja

Az elkészült feladatokat az óraadó email címére kell megküldeni a megadott sablon alapján. Az emailben fel kell tüntetni ki vagy kik készítették a feladatokat Név, Neptunkód megadásával. A sablont nem kell csatolni az emailhez, hanem azt fel kell tölteni valamilyen dokumentum megosztó helyre és csak az letöltési linket kell az email-ben megadni.

Bekűldés határideje

2022.12.04. (vasárnap) 23:59:59 (éjfél)

Feladatok értékelési tábla

Feladat Értékelés Érdemjegy
Szöveg beágyazás 1. modellel 2
Szöveg beágyazás 3. modellel 3
Szentiment analízis 1. modellel 2
Szentiment analízis 3. modellel 3
Szöveg osztályozás 1. modellel 3
Szöveg osztályozás 3. modellel 4
Szöveg multi-osztályozás 1. modellel 3
Szöveg multi-osztályozás 3. modellel 4
Szöveg generálás 1. modellel 3
Szöveg generálás 3. modellel 4
Téma modellezés 1. modellel 2
Téma modellezés 3. modellel 4
Vegyes 3. modellel 4

Modellek értékesséig sorrendje

Modell Pont
Transformer 10
CNN 9
Naivebayes 9
Logisztikus regresszio 6
LDA 8
PCA 6
TSNE 7
Neurális hálók 6
RNN 7
LSTM 8
GRU 8
K-Mean 7
Embedding 7
Stopwords 3
Stemming 3
Lemmatization 3
n-gramm 2
BPE 4
Wordlevel 2
Wordpiece 5
Sentencepiece 5
tf 2
tfidf 3
szó vektor 5

Leírás

A tárgy keretein belül a hallgatók megismerkednek a természetes nyelvű szövegfeldolgozás (NLP) alapjaival. Ezen felül gyakorlati tapasztalatra is szert tesznek különböző feladatok megoldása során. Főbb témakörök: logisztikus regresszió, naiv Bayes modell, PCA, n-gram modellek, Word2Vec, klasszikus és rekurrens neurális hálók. Továbbá a tárgy elvégzése során a hallgatók betekintést nyerhetnek az éppen aktuális, korszerű neurális architektúrákba. A félév során a hallgatóknak arra is lehetőségük adódik majd, hogy ezen architektúrákat felhő alapú szolgáltatások felhasználásával (Azure, Google Collab stb.) valós adatokon is kipróbálhassák, betaníthassák.

Kompetenciák

A tárgy sikeres teljesítésével a hallgatók képesek lesznek különböző NLP architektúrák implementálására valós környezetekben. Emellett szert tehetnek a deeplarning.ai Natural Language Processing Specialization első két kurzusának sikeres teljesítéséhez szükséges ismeretekre, valamint közelebb kerülhetnek a Microsoft „Exam AI-900: Microsoft Azure AI Fundamentals” certificate megszerzéséhez.

Ajánlott irodalom

  1. Jurafsky, Daniel, and James H. Martin. "Speech and language processing (draft)." Chapter A: Hidden Markov Models (Draft of September 11, 2018). Retrieved March 19 (2018): 2019.
  2. Eisenstein, Jacob. "Introduction to natural language processing." MIT press, 2019.
  3. Goldberg, Yoav. "A primer on neural network models for natural language processing." Journal of Artificial Intelligence Research 57 (2016): 345-420.
  4. Francois Chollet. "Deep Learning with Python"

Fogalomtár

Szöveg tisztítás

  1. Stopwords
  2. Stemming
  3. Lemmatization

Tokenizáció

  1. n-gramm
  2. BPE
  3. Wordlevel
  4. Wordpiece
  5. Sentencepiece

Vektorizáció

  1. bag of word
  2. tf
  3. tfidf
  4. szó vektorok
  5. Skip-Gram
  6. CBOW

Tanulási módszertan

  1. Felügyelt
  2. Fél-felügyelt
  3. Nem felügyelt

Modellek

  1. Naivebayes
  2. Logistic regression
  3. LDA
  4. PCA
  5. TSNE
  6. Neurális hálók
  7. RNN
  8. LSTM
  9. GRU
  10. CNN
  11. Transformer
  12. K-Mean

Feladatok

  1. Embedding
  2. Szentiment analízis
  3. Szöveg osztályozás
  4. Szöveg generálás
  5. Téma modellezés

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%