v1.0.4, 2019-12-10
🔴 Виправлення помилок
- Виправлено помилку при нумерації речень в
allterms.xml
. Нумерація речень вallterms.xml
починається з0
.
Для індексації речень з використаннямspaCy
(в цій бібліотеці відсутня індексація речень) за основу використано приклад:for sent_i, sent in enumerate(doc.sents): for token in sent: print(sent_i, token.i, token.text)
- Розширення файлу при збереженні таблиці
#table-main
в формат Office Open XML Workbook виправлено наxlsx
. - Дублюючий символ крапка
.
при обробці тексту зPDF
файлів. В функциюdef text_normalization_default(raw_text)
додано можливість видалення дублюючого символу крапка.
(а саме заміна на один символ крапка.
) при нормалізації тексту.
👍 Покращення
- Змінено елемент
<title>
головної сторінкиindex.html
(додано мовний код EN додаткуken
згідно стандарту представлення назв мов ISO 639-1):<title>Конспект (EN) - v1.0.4</title>