Генератор текстов, обучающийся на основе других текстов. Модель обучения - n-граммы слов.
Проект написан на python 3.6, используются только стандартные библиотеки (pickle, random, argparse, collections). Для установки python перейдите по ссылке: https://www.python.org.
Для запуска обучения модели используется файл train.py
python3 train.py --lc --input-dir DIRECTORY --model MODEL --ngramms N --update
- lc - флаг перевода слов в прописной формат.
- DIRECTORY - папка с текстами на обучение в кодировке UTF-8 и в формате txt(*.txt). Если не указан, то используется текст с клавиатуры. Конец ввода с клавиатуры - EOF.
- MODEL - путь к файлу модели, которую надо обучить. Без флага update создается новая модель.
- N - количество слов в n-грамме. Если не указан, то используется N=2.
- update - флаг обновления существующей модели.
Для создания текстов на основе уже обученной модели используется файл generate.py
python3 generate.py --model MODEL --seed SEED --length LENGTH --output OUTPUT
- MODEL - путь к файлу модели.
- SEED - первое слово в генерируемом тексте.
- LENGTH - длина текста в словах.
- OUTPUT - файл, куда записывается текст. Если не указан, то текст выводится на экран.
python3 generate.py --model Маяк --length 10
бесплатно стол и квартира как врезать ей в радиоухо шепчу
Ссылка на модель в Google Drive (Использованы тексты В.В. Маяковского).
Артем Чумаченко - Разработка
This project is licensed under the MIT License - see the LICENSE file for details