diff --git a/CHANGELOG.md b/CHANGELOG.md index dd63ba8..2420931 100644 --- a/CHANGELOG.md +++ b/CHANGELOG.md @@ -1,3 +1,9 @@ +## v3.0.3, 2020-10-16 + +### 🔴 Виправлення помилок + +- Дрібні виправлення. + ## v3.0.2, 2020-10-16 ### 👍 Покращення diff --git a/templates/changelog.html b/templates/changelog.html index cf1d855..d0daf17 100644 --- a/templates/changelog.html +++ b/templates/changelog.html @@ -1,5 +1,5 @@ - +
HELP.md
.UKR🇺🇦 Додано API для обробки/аналізу текстів у вигляді повідомлень. Приклад вхідних даних:
1{
2 "message": "Не зважаючи на стрімкий розвиток індустрії інформатики протягом останніх кількох десятків років, процес самовизначення інформатики як науки все ще не можна вважати завершеним."
3}
Кінцева точка: http://IP:PORT/kua/api/task/message/queued
xlsx
замість xls
) з використанням FileSaver.js та xlsx.full.min.js.xls
замість xlsx
).requirements.txt
(для підтримки Python 2.7.17).allterms.xml
, parce.xml
.#term-tree
).wine
(додано змінну середовища export WINEDEBUG=-all
).JSON
-файлу проекту (Konspekt.exe для української мови версії від 03-11-2018).
+Python
до версії Python 3.7.9
.allterms.xml
та structure.xml
).HELP.md
.UKR🇺🇦 Додано API для обробки/аналізу текстів у вигляді повідомлень. Приклад вхідних даних:
1{
2 "message": "Не зважаючи на стрімкий розвиток індустрії інформатики протягом останніх кількох десятків років, процес самовизначення інформатики як науки все ще не можна вважати завершеним."
3}
Кінцева точка: http://IP:PORT/kua/api/task/message/queued
xlsx
замість xls
) з використанням FileSaver.js та xlsx.full.min.js.xls
замість xlsx
).requirements.txt
(для підтримки Python 2.7.17).allterms.xml
, parce.xml
.#term-tree
).wine
(додано змінну середовища export WINEDEBUG=-all
).JSON
-файлу проекту (Konspekt.exe для української мови версії від 03-11-2018).
Результати роботи Konspekt.exe (для української мови версії від 03-11-2018), а саме файли allterms.xml
та parce.xml
відтепер зберігаються як blob
в IndexedDB, з використанням бібліотеки localforage; унікальні ідентифікатори на ці blob
містяться у структурі JSON
-файлу проекту, відповідно "alltermsxmlAlias": ""
- аліас для allterms.xml
та "parcexmlAlias": ""
- аліас для parce.xml
.xxxxxxxxxx
341{
2 "project": {
3 "name": "",
4 "notes": "",
5 "content": {
6 "documents": [
7 {
8 "names": {
9 "original": "",
10 "unique": ""
11 },
12 "results": {
13 "alltermsxmlAlias": "",
14 "parcexmlAlias": "",
15 "alltermsjson": {},
16 "parcejson": {}
17 }
18 },
19 {
20 "names": {
21 "original": "",
22 "unique": ""
23 },
24 "results": {
25 "alltermsxmlAlias": "",
26 "parcexmlAlias": "",
27 "alltermsjson": {},
28 "parcejson": {}
29 }
30 }
31 ]
32 }
33 }
34}
-<select>
#uploadResultList
(спиcок термінів) та <select>
#term-tree
(дерево термінів), якщо обчислення займає тривалий час, то інтерфейс відображає процес завантаження.<select>
#uploadResultList
.function mark(text)
, function markTerms(term)
) в елементі #text-content
.JSON
-файлу проекту (Konspekt.exe для української мови версії від 03-11-2018):xxxxxxxxxx
341{
2 "project": {
3 "name": "",
4 "notes": "",
5 "content": {
6 "documents": [
7 {
8 "names": {
9 "original": "",
10 "unique": ""
11 },
12 "results": {
13 "alltermsxmlCompressed": "",
14 "parcexmlCompressed": "",
15 "alltermsjson": {},
16 "parcejson": {}
17 }
18 },
19 {
20 "names": {
21 "original": "",
22 "unique": ""
23 },
24 "results": {
25 "alltermsxmlCompressed": "",
26 "parcexmlCompressed": "",
27 "alltermsjson": {},
28 "parcejson": {}
29 }
30 }
31 ]
32 }
33 }
34}
-JavaScript
-бібліотеки, зокрема, tippy.js
.r'&|>|<|_|"|\.\.+|\s\s+'
(Konspekt.exe для української мови версії від 03-11-2018).UKR🇺🇦 Додана функція динамічного визначення часу на тривалість роботи Konspekt.exe для української мови версії від 03-11-2018:
xxxxxxxxxx
81if len(args['body']) <= 50000:
2 time_for_analyzing = 65
3elif len(args['body']) > 50000 and len(args['body']) <= 100000:
4 time_for_analyzing = 125
5elif len(args['body']) > 100000 and len(args['body']) <= 200000:
6 time_for_analyzing = 185
7elif len(args['body']) > 200000:
8 time_for_analyzing = 300
JavaScript
на клієнті.🌟 Багатомовна версія ENG🇬🇧, UKR🇺🇦
🌟 Initial commit for multilingual version ENG🇬🇧, UKR🇺🇦
<relup>
/<reldown>
файлу allterms.xml
.
-Нумерація в тегах <relup>
/<reldown>
файлу allterms.xml
починається з 0
.JavaScript
на клієнті згідно нової нумерації в тегах <relup>
/<reldown>
, <sentpos>
файлу allterms.xml
.Виправлено помилку при нумерації речень в тегу <sentpos>
файлу allterms.xml
. Нумерація речень в тегу <sentpos>
файлу allterms.xml
починається з 0
.
-Для індексації речень з використанням spaCy
(в цій бібліотеці відсутня індексація речень) за основу використано приклад:
xxxxxxxxxx
31for sent_i, sent in enumerate(doc.sents):
2 for token in sent:
3 print(sent_i, token.i, token.text)
Розширення файлу при збереженні таблиці #table-main
в формат Office Open XML Workbook виправлено на xlsx
.
Дублюючий символ крапка .
при обробці тексту з PDF
файлів. В функцию def text_normalization_default(raw_text)
додано можливість видалення дублюючого символу крапка .
(а саме заміна на один символ крапка .
) при нормалізації тексту.
Змінено елемент <title>
головної сторінки index.html
(додано мовний код EN додатку ken
згідно стандарту представлення назв мов ISO 639-1):
xxxxxxxxxx
11<title>Конспект (EN) - v1.0.4</title>
KEn
, необхідно використовувати актуальну версію браузера Google Chrome
(70 та вище).KEn
з версії v1.0.2
(або більш ранньої) до v.1.0.3
дані проаналізованих раніше документів будуть втрачені.JSON
-файлу проекту:xxxxxxxxxx
361{
2 "project": {
3 "name": "",
4 "notes": "",
5 "content": {
6 "documents": [
7 {
8 "names": {
9 "original": "",
10 "unique": ""
11 },
12 "results": {
13 "alltermsxmlCompressed": "",
14 "parcexmlCompressed": "",
15 "alltermsjson": {},
16 "parcejson": {},
17 "nerhtmlCompressed": ""
18 }
19 },
20 {
21 "names": {
22 "original": "",
23 "unique": ""
24 },
25 "results": {
26 "alltermsxmlCompressed": "",
27 "parcexmlCompressed": "",
28 "alltermsjson": {},
29 "parcejson": {},
30 "nerhtmlCompressed": ""
31 }
32 }
33 ]
34 }
35 }
36}
-KEn
, необхідно використовувати актуальну версію браузера Google Chrome
).JavaScript
на клієнті.#notes
(Блокнот), а саме додано функцію автоматичного збереження вмісту елемента #notes
до головного JSON
-файлу проекту в поле notes
, та відповідно змінено його специфікацію.app.config['MAX_CONTENT_LENGTH']
об'єкту Flask відновлено за замовчуванням (За замовчуванням об'єкт Flask прийме завантаження файлів на необмежену кількість пам'яті).Змінено елемент <title>
головної сторінки index.html
(видалено рік):
xxxxxxxxxx
11<title>Конспект - v1.0.2</title>
KEn
з версії v1.0.0
(або більш ранньої) до v.1.0.1
дані проаналізованих раніше документів будуть втрачені.JSON
-файлу проекту:xxxxxxxxxx
351{
2 "project": {
3 "name": "",
4 "content": {
5 "documents": [
6 {
7 "names": {
8 "original": "",
9 "unique": ""
10 },
11 "results": {
12 "alltermsxmlCompressed": "",
13 "parcexmlCompressed": "",
14 "alltermsjson": {},
15 "parcejson": {},
16 "nerhtmlCompressed": ""
17 }
18 },
19 {
20 "names": {
21 "original": "",
22 "unique": ""
23 },
24 "results": {
25 "alltermsxmlCompressed": "",
26 "parcexmlCompressed": "",
27 "alltermsjson": {},
28 "parcejson": {},
29 "nerhtmlCompressed": ""
30 }
31 }
32 ]
33 }
34 }
35}
-compressToBase64
/decompressFromBase64
(що зберігають allterms.xml
в alltermsxmlCompressed
, та parce.xml
в parcexmlCompressed
(в JSON
-файлі проекту)).#notes
відносно #displacy
, #displacy-ner
, #displacy-label
.KEn
з версії v0.7.1
(або більш ранньої) до v.1.0.0
дані проаналізованих раніше документів будуть втрачені.Збільшено розмір nginx client_max_body_size
до 500 mb
(що дозволяє проводити обробку файлів розміром до 500 мб).
Оновлено функції та процедури роботи клієнтської частини програми з використанням IndexedDB API та програмної бібліотеки localForage, що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу документів та основного файлу проекту:
JSON
-файл проекту;JSON
-файл, що міститеме розбори всіх документів (РІС, allterms, parce) та налаштування;JSON
-файлу.Виправлено роботу елемента #termTree
, а саме додано функцію "візуалізації залежностей термінів" з елементу #termTree
в елементі #depparse_tab
, а саме в #displacy
.
Виправлено помилку DOMException QuotaExceededError
/ QUOTA_EXCEEDED_ERR: DOM Exception 22
(Перевищено розмір квоти для localStorage, що становить 5 Мб. Тобто є ліміт на кількість файлів, що можуть бути збережені в проекті). Збереження файлів проекту відтепер здійснюється з використанням IndexedDB API та програмної бібліотеки localForage. Довідка:
localStorage
(що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу файлів проекту), окрім таблиці.#termTree
(дерево термінів) в елемент #table-body
(таблиця).#button-dropdown-help
): додано "Журнал змін" (елемент #button-changelog
) - Журнал змін проекту CHANGELOG.md
.#uploadResultList
), РІС (#uploadUnknownTerms
).KEn
з версії v0.6.0
до v.0.7.0
дані проаналізованих раніше файлів будуть втрачені або працюватимуть некоректно.localStorage
, що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу файлів проекту.static
.Виправлено оновлення деяких елементів при перемиканні/вибору файлів в елементі #projectFileList
("Файли"). Оновлються елементи:
#displacy-ner
("Візуалізація")#uploadUnknownTerms
("РІС")
-відповідно до обраного файлу в елементі #projectFileList
("Файли").Виправлено очищення відповідних розборів документів (-parsexml
, -alltermsxml
та JSON
-розборів), що зберігаються в localStorage при видаленні файлів проекту зі списку Файли #projectFileList
.
Дрібні виправлення JavaScript
на клієнті (зокрема, елементів контейнеру class="col-md-6"
).
Реалізовано можливість локального збереження файлів разбору allterms.xml
та parce.xml
через графічний інтерфейс користувача, зокрема, через взаємодію з елементом #button-save
відповідно:
#button-save-allterms-xml
для збереження allterms.xml
;#button-save-parce-xml
для збереження parce.xml
.JavaScript
на клієнті.id
елементу #text-content-panel-body
.#notes
(відключено можливість змінення розміру).Виправлено випадкове виконання функцій events
при взаємодії з елементами:
#uploadResultList
#projectFileList
#uploadUnknownTerms
localStorage
).JavaScript
на клієнті.#term-tree
та виділення речень з терміном в sents_from_text
).JavaScript
-бібліотеки.#sents_from_text
та вибраних термінів в #text-content
з використанням бібліотеки mark.jsline = re.sub(r'\W', ' ', line, flags=re.I)
).title
.title
.Реалізовано відображення показників частоти термінів за допомоги спливаючої підказки title
для кожного терміну елементу #uploadResultList
.
-Реалізовано можливість сортування термінів в елементі #uploadResultList
згідно:
Реалізовано елемент #sort-select
для обрання відповідного типу сортування.
Системні вимоги
згідно нових мінімальних системних вимог, україномовної частини README.md
.Виправлено помилку UnicodeDecodeError: 'utf8' codec can't decode byte
.
-Декодовано файл як UTF-8
, ігноруючи будь-які символи які закодовані в неправильному кодуванні:
xxxxxxxxxx
21# decode the file as UTF-8 ignoring any errors
2raw_text = file.read().decode('utf-8', errors='replace')
Включено збереження макета документа, включаючи пробіли, які є лише візуальними, а не символами. -Виправлено згідно python pdfminer converts pdf file into one chunk of string with no spaces between words:
xxxxxxxxxx
81# save document layout including spaces that are only visual not a character
2"""
3some pdfs mark the entire text as figure and by default PDFMiner doesn't try to perform layout analysis for figure text.
4To override this behavior the all_texts parameter needs to be set to True
5in function def get_text_from_pdf_pdfminer(pdf_path)
6"""
7laparams = LAParams()
8setattr(laparams, 'all_texts', True)
Виправлено роботу елементу iziToast
(нотифікації про процес обробки документів).
°
на етапі нормалізації тексту.\W
non-alphanumeric characters) на етапі нормалізації тексту.#projectFileList
при евенті видалення файлів проекту за кліком правої кнопки миші.client_max_body_size 50M
.📚 Документація
CHANGELOG.md
, що містить список версій програми та список відповідних змін програмного коду, виправлень та покращень..col-md-6
..col-md-6
.xxxxxxxxxx
341{
2 "project": {
3 "name": "",
4 "notes": "",
5 "content": {
6 "documents": [
7 {
8 "names": {
9 "original": "",
10 "unique": ""
11 },
12 "results": {
13 "alltermsxmlAlias": "",
14 "parcexmlAlias": "",
15 "alltermsjson": {},
16 "parcejson": {}
17 }
18 },
19 {
20 "names": {
21 "original": "",
22 "unique": ""
23 },
24 "results": {
25 "alltermsxmlAlias": "",
26 "parcexmlAlias": "",
27 "alltermsjson": {},
28 "parcejson": {}
29 }
30 }
31 ]
32 }
33 }
34}
+<select>
#uploadResultList
(спиcок термінів) та <select>
#term-tree
(дерево термінів), якщо обчислення займає тривалий час, то інтерфейс відображає процес завантаження.<select>
#uploadResultList
.function mark(text)
, function markTerms(term)
) в елементі #text-content
.JSON
-файлу проекту (Konspekt.exe для української мови версії від 03-11-2018):xxxxxxxxxx
341{
2 "project": {
3 "name": "",
4 "notes": "",
5 "content": {
6 "documents": [
7 {
8 "names": {
9 "original": "",
10 "unique": ""
11 },
12 "results": {
13 "alltermsxmlCompressed": "",
14 "parcexmlCompressed": "",
15 "alltermsjson": {},
16 "parcejson": {}
17 }
18 },
19 {
20 "names": {
21 "original": "",
22 "unique": ""
23 },
24 "results": {
25 "alltermsxmlCompressed": "",
26 "parcexmlCompressed": "",
27 "alltermsjson": {},
28 "parcejson": {}
29 }
30 }
31 ]
32 }
33 }
34}
+JavaScript
-бібліотеки, зокрема, tippy.js
.r'&|>|<|_|"|\.\.+|\s\s+'
(Konspekt.exe для української мови версії від 03-11-2018).UKR🇺🇦 Додана функція динамічного визначення часу на тривалість роботи Konspekt.exe для української мови версії від 03-11-2018:
xxxxxxxxxx
81if len(args['body']) <= 50000:
2 time_for_analyzing = 65
3elif len(args['body']) > 50000 and len(args['body']) <= 100000:
4 time_for_analyzing = 125
5elif len(args['body']) > 100000 and len(args['body']) <= 200000:
6 time_for_analyzing = 185
7elif len(args['body']) > 200000:
8 time_for_analyzing = 300
JavaScript
на клієнті.🌟 Багатомовна версія ENG🇬🇧, UKR🇺🇦
🌟 Initial commit for multilingual version ENG🇬🇧, UKR🇺🇦
<relup>
/<reldown>
файлу allterms.xml
.
+Нумерація в тегах <relup>
/<reldown>
файлу allterms.xml
починається з 0
.JavaScript
на клієнті згідно нової нумерації в тегах <relup>
/<reldown>
, <sentpos>
файлу allterms.xml
.Виправлено помилку при нумерації речень в тегу <sentpos>
файлу allterms.xml
. Нумерація речень в тегу <sentpos>
файлу allterms.xml
починається з 0
.
+Для індексації речень з використанням spaCy
(в цій бібліотеці відсутня індексація речень) за основу використано приклад:
xxxxxxxxxx
31for sent_i, sent in enumerate(doc.sents):
2 for token in sent:
3 print(sent_i, token.i, token.text)
Розширення файлу при збереженні таблиці #table-main
в формат Office Open XML Workbook виправлено на xlsx
.
Дублюючий символ крапка .
при обробці тексту з PDF
файлів. В функцию def text_normalization_default(raw_text)
додано можливість видалення дублюючого символу крапка .
(а саме заміна на один символ крапка .
) при нормалізації тексту.
Змінено елемент <title>
головної сторінки index.html
(додано мовний код EN додатку ken
згідно стандарту представлення назв мов ISO 639-1):
xxxxxxxxxx
11<title>Конспект (EN) - v1.0.4</title>
KEn
, необхідно використовувати актуальну версію браузера Google Chrome
(70 та вище).KEn
з версії v1.0.2
(або більш ранньої) до v.1.0.3
дані проаналізованих раніше документів будуть втрачені.JSON
-файлу проекту:xxxxxxxxxx
361{
2 "project": {
3 "name": "",
4 "notes": "",
5 "content": {
6 "documents": [
7 {
8 "names": {
9 "original": "",
10 "unique": ""
11 },
12 "results": {
13 "alltermsxmlCompressed": "",
14 "parcexmlCompressed": "",
15 "alltermsjson": {},
16 "parcejson": {},
17 "nerhtmlCompressed": ""
18 }
19 },
20 {
21 "names": {
22 "original": "",
23 "unique": ""
24 },
25 "results": {
26 "alltermsxmlCompressed": "",
27 "parcexmlCompressed": "",
28 "alltermsjson": {},
29 "parcejson": {},
30 "nerhtmlCompressed": ""
31 }
32 }
33 ]
34 }
35 }
36}
+KEn
, необхідно використовувати актуальну версію браузера Google Chrome
).JavaScript
на клієнті.#notes
(Блокнот), а саме додано функцію автоматичного збереження вмісту елемента #notes
до головного JSON
-файлу проекту в поле notes
, та відповідно змінено його специфікацію.app.config['MAX_CONTENT_LENGTH']
об'єкту Flask відновлено за замовчуванням (За замовчуванням об'єкт Flask прийме завантаження файлів на необмежену кількість пам'яті).Змінено елемент <title>
головної сторінки index.html
(видалено рік):
xxxxxxxxxx
11<title>Конспект - v1.0.2</title>
KEn
з версії v1.0.0
(або більш ранньої) до v.1.0.1
дані проаналізованих раніше документів будуть втрачені.JSON
-файлу проекту:xxxxxxxxxx
351{
2 "project": {
3 "name": "",
4 "content": {
5 "documents": [
6 {
7 "names": {
8 "original": "",
9 "unique": ""
10 },
11 "results": {
12 "alltermsxmlCompressed": "",
13 "parcexmlCompressed": "",
14 "alltermsjson": {},
15 "parcejson": {},
16 "nerhtmlCompressed": ""
17 }
18 },
19 {
20 "names": {
21 "original": "",
22 "unique": ""
23 },
24 "results": {
25 "alltermsxmlCompressed": "",
26 "parcexmlCompressed": "",
27 "alltermsjson": {},
28 "parcejson": {},
29 "nerhtmlCompressed": ""
30 }
31 }
32 ]
33 }
34 }
35}
+compressToBase64
/decompressFromBase64
(що зберігають allterms.xml
в alltermsxmlCompressed
, та parce.xml
в parcexmlCompressed
(в JSON
-файлі проекту)).#notes
відносно #displacy
, #displacy-ner
, #displacy-label
.KEn
з версії v0.7.1
(або більш ранньої) до v.1.0.0
дані проаналізованих раніше документів будуть втрачені.Збільшено розмір nginx client_max_body_size
до 500 mb
(що дозволяє проводити обробку файлів розміром до 500 мб).
Оновлено функції та процедури роботи клієнтської частини програми з використанням IndexedDB API та програмної бібліотеки localForage, що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу документів та основного файлу проекту:
JSON
-файл проекту;JSON
-файл, що міститеме розбори всіх документів (РІС, allterms, parce) та налаштування;JSON
-файлу.Виправлено роботу елемента #termTree
, а саме додано функцію "візуалізації залежностей термінів" з елементу #termTree
в елементі #depparse_tab
, а саме в #displacy
.
Виправлено помилку DOMException QuotaExceededError
/ QUOTA_EXCEEDED_ERR: DOM Exception 22
(Перевищено розмір квоти для localStorage, що становить 5 Мб. Тобто є ліміт на кількість файлів, що можуть бути збережені в проекті). Збереження файлів проекту відтепер здійснюється з використанням IndexedDB API та програмної бібліотеки localForage. Довідка:
localStorage
(що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу файлів проекту), окрім таблиці.#termTree
(дерево термінів) в елемент #table-body
(таблиця).#button-dropdown-help
): додано "Журнал змін" (елемент #button-changelog
) - Журнал змін проекту CHANGELOG.md
.#uploadResultList
), РІС (#uploadUnknownTerms
).KEn
з версії v0.6.0
до v.0.7.0
дані проаналізованих раніше файлів будуть втрачені або працюватимуть некоректно.localStorage
, що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу файлів проекту.static
.Виправлено оновлення деяких елементів при перемиканні/вибору файлів в елементі #projectFileList
("Файли"). Оновлються елементи:
#displacy-ner
("Візуалізація")#uploadUnknownTerms
("РІС")
+відповідно до обраного файлу в елементі #projectFileList
("Файли").Виправлено очищення відповідних розборів документів (-parsexml
, -alltermsxml
та JSON
-розборів), що зберігаються в localStorage при видаленні файлів проекту зі списку Файли #projectFileList
.
Дрібні виправлення JavaScript
на клієнті (зокрема, елементів контейнеру class="col-md-6"
).
Реалізовано можливість локального збереження файлів разбору allterms.xml
та parce.xml
через графічний інтерфейс користувача, зокрема, через взаємодію з елементом #button-save
відповідно:
#button-save-allterms-xml
для збереження allterms.xml
;#button-save-parce-xml
для збереження parce.xml
.JavaScript
на клієнті.id
елементу #text-content-panel-body
.#notes
(відключено можливість змінення розміру).Виправлено випадкове виконання функцій events
при взаємодії з елементами:
#uploadResultList
#projectFileList
#uploadUnknownTerms
localStorage
).JavaScript
на клієнті.#term-tree
та виділення речень з терміном в sents_from_text
).JavaScript
-бібліотеки.#sents_from_text
та вибраних термінів в #text-content
з використанням бібліотеки mark.jsline = re.sub(r'\W', ' ', line, flags=re.I)
).title
.title
.Реалізовано відображення показників частоти термінів за допомоги спливаючої підказки title
для кожного терміну елементу #uploadResultList
.
+Реалізовано можливість сортування термінів в елементі #uploadResultList
згідно:
Реалізовано елемент #sort-select
для обрання відповідного типу сортування.
Системні вимоги
згідно нових мінімальних системних вимог, україномовної частини README.md
.Виправлено помилку UnicodeDecodeError: 'utf8' codec can't decode byte
.
+Декодовано файл як UTF-8
, ігноруючи будь-які символи які закодовані в неправильному кодуванні:
xxxxxxxxxx
21# decode the file as UTF-8 ignoring any errors
2raw_text = file.read().decode('utf-8', errors='replace')
Включено збереження макета документа, включаючи пробіли, які є лише візуальними, а не символами. +Виправлено згідно python pdfminer converts pdf file into one chunk of string with no spaces between words:
xxxxxxxxxx
81# save document layout including spaces that are only visual not a character
2"""
3some pdfs mark the entire text as figure and by default PDFMiner doesn't try to perform layout analysis for figure text.
4To override this behavior the all_texts parameter needs to be set to True
5in function def get_text_from_pdf_pdfminer(pdf_path)
6"""
7laparams = LAParams()
8setattr(laparams, 'all_texts', True)
Виправлено роботу елементу iziToast
(нотифікації про процес обробки документів).
°
на етапі нормалізації тексту.\W
non-alphanumeric characters) на етапі нормалізації тексту.#projectFileList
при евенті видалення файлів проекту за кліком правої кнопки миші.client_max_body_size 50M
.📚 Документація
CHANGELOG.md
, що містить список версій програми та список відповідних змін програмного коду, виправлень та покращень..col-md-6
..col-md-6
.host[:port]/ken/api/**v1.0**/en/file/allterms
стало:
-host[:port]/ken/api/en/file/allterms
.id="uploadResultList"
; #term-tree
.id="projectFileList"
по кліку правої кнопки миші.README.md
.id="text-content"
.id="sents_from_text"
area to update for a new text.id="sents_from_text"
area.id="sents_from_text"
area when selecting files from id="projectFileList"
select list.README.md
.id =" text-content "
.id="sents_from_text"
згідно нового тексту.id="sents_from_text"
при виборі відповідного файлу зі списку елементу id="projectFileList"
.README.md
.language_check
.README.md
.id="text-content"
.loader
colour.id="text-content"
.loader
.csv
.README.md
.csv
.README.md
..xls
format..csv
.README.md
..xls
..csv
.README.md
.host[:port]/ken/api/en/file/allterms
.id="uploadResultList"
; #term-tree
.id="projectFileList"
по кліку правої кнопки миші.README.md
.id="text-content"
.id="sents_from_text"
area to update for a new text.id="sents_from_text"
area.id="sents_from_text"
area when selecting files from id="projectFileList"
select list.README.md
.id =" text-content "
.id="sents_from_text"
згідно нового тексту.id="sents_from_text"
при виборі відповідного файлу зі списку елементу id="projectFileList"
.README.md
.language_check
.README.md
.id="text-content"
.loader
colour.id="text-content"
.loader
.csv
.README.md
.csv
.README.md
..xls
format..csv
.README.md
..xls
..csv
.README.md
.