Задания 1.1 - 1.3 не требуют сдачи файла, но вы можете проверить корректность их выполнения в редакторах типа NotePad++ или Atom.
1.1 Поиск в тексте Укажите регулярное выражение, с помощью которого можно найти в тексте указания времени в формате "Завтрак в 09:00, затем мы собираемся к 10:15 и идем на экскурсию". Учтите, что времени 37:46 не бывает и такие подстроки не должны находиться.
1.2 Поиск в XML Укажите регулярное выражение, с помощью которого можно найти все вхождения лемм в XML-разметке формата Во саду ли, с учетом задания для замены (см. п. 1.3).
1.3 Замена Оставьте только леммы, разделенные точкой с запятой (т.е. теги должны быть убраны). Укажите ниже регулярное выражение, использованное вами в поле "Заменить".
Воспользуйтесь текстовыми (для регулярных выражения) и табличными редакторами (Excel, Google spreadsheets, для остальной части работы). Вы можете фильтровать и сортировать данные как угодно, если вам понадобится. Ссылка на файл для работы: https://drive.google.com/open?id=1nnFi37YQ8rxcrjX-gpRzFv6ApXbDhemj
2.1 Подготовка данных Файл представляет собой результаты выдачи корпуса Aranea по двум запросам: I'd rather + verb и I'd rather not + verb. Ключевые элементы запроса выделены угловыми скобками, в выдаче сохранены грамматические теги для каждого токена. На первом этапе вам понадобится изучить структуру выдачи и представить данные так, чтобы их можно было поместить в таблице в следующих колонках: SourceText - файл источника Left - левый контекст Target1 - I'd rather Target2 - not -- если есть Target3 - последующий глагол Right - правый контекст
Удалите строки, в которых после not следует не-глагол, если такие найдутся (в том числе и если это глагол, он он размечен неправильно - сейчас мы не будем исправлять ошибки автоматической разметки). Грамматические теги нужно также удалить. Давайте сравним контексты употребления конструкции с отрицанием и без отрицания.
2.2 Сводные таблицы Постройте сводную таблицу по полям Target2 и Target3. Узнайте количество конструкций с not и без not. Для каждого из этих типов выясните количество употреблений каждого из глаголов.
2.3 Частотный ранг На каком месте в частотном списке глаголов в конструкции I'd rather not + verb идет глагол, который чаще всего употребляется в конструкции без отрицания I'd rather + verb? Укажите ниже этот глагол и его частотный ранг (место в частотном списке).
2.4 Относительная частота Рассчитайте в таблице для этого слова относительную частоту в ipm в обеих конструкциях. Укажите ниже оба числа с точностью до одного знака после запятой. Напомним, что imp рассчитывается по формуле Occurrences / CorpusSize * 1 000 000, где CorpusSize равен 120 миллионам словоупотреблений.
2.5 Сравнение списков Какие глаголы, встречающиеся в конструкции без отрицания, не встречаются в конструкции с отрицанием в вашей выдаче? Чтобы ответить на этот вопрос, скопируйте частотные списки глаголов в каждой конструкции на новый лист и воспользуйтесь функцией ПОИСКПОЗ (MATCH). Ниже укажите тот из этих глаголов, который чаще всего встречается в конструкции без отрицания, и его абсолютную частоту в этой конструкции.
3.1 Поставьте фильтр на столбец Target2, найдите все строки, в которых в этом столбце указано отрицание.
3.2 Чтобы приблизительно установить, в какой стране создан файл (по доменному расширению), разделите столбец SourceText на несколько (Даннные > Текст по столцам).
3.3 Для сводной таблицы постройте график (столбчатую диаграмму), в котором сопоставляются вхождения с отрицанием и без него для четырех самых частотных глаголов.
3.4 Скачайте выдачу результатов по запросу ... из Национального корпуса русского языка (старая версия) в виде Excel-файла. Пример: https://docs.google.com/spreadsheets/d/1l9EnN1mJVtG3ANgp7Q_HCbOIW68g8-CWn4A0YeBeDLQ/edit?usp=sharing Установите заголовок таблицы (Вид > Заголовки / View > Freeze), оформите его жирным шрифтом. Создайте сводную таблицу распределения количества употреблений по годам (столбец Created), в новой вкладке. Проверьте, что ваши годы не складываются, а считаются как отдельные вхождения (не СУММА / SUM, а СЧЕТ / COUNTA в поле Значения). Создайте график распределения по годам на основе этой таблицы (линейный график).
3.5 Добавьте в таблицу выше столбец Length, укажите длину каждого междометия в символах (формула ДЛСТР / LEN), отсортируйте таблицу по этому столбцу.
3.6 С какой буквы чаще всего начинаются междометия в вашей выборке? Чтобы ответить на этот вопрос, создайте столбец 1stLetter, задайте формулу ЛЕВСИМВ / LEFT. Затем создайте сводную таблицу или воспользуйтесь формулой СЧЕТЕСЛИ / COUNTIF.