На входе - текст, на выходе - список слов с частотой их появления отсортированный по частоте, либо по длине слова.
Завести / Run:
python my.py
Input(input.txt): текст
Input(filter.txt): слова, которые будут исключены из результатов
Output(output1.txt): слова и их частота
Output(output2.txt): слова и их частота, в порядке убывания длины слова
Program(my.py): утилита на вход получает input.txt и filter.txt, выводит output1.txt и output2.txt
Limitations:
нужен Python
TODO:
- separate project
- multiple filter files and filter file formats
- input dependancy resolution
- more complex word's dependancy on each other in context with graph representation and ability to filter complex structures of words instead of separate words.
- language syntax support should be delegated to separate filter because user might be interested in highlighting of unknown syntax and de-emphasizing of known syntax.