Информация о кандидатах в пригодном для анализа виде. По всем вопросам:
- Telegram: https://t.me/opendataby
Существует три независимо собранных датасета:
-
https://github.com/ushchent/el_machina/ - продолжение проекта "Избирательная машина" 2016 года (@chegor, @gsk990, @ushchent и др.) с обновлёнными данными на 2019 для предсказания результатов. Среди прочего содержит астральные знаки зодиака для более чёткого прочтения знаков вселенной.
-
excel - датасет от Dmitry Rogozhny (@dmitryrogozhny) - ламповый датасет в формате Excel и CSV с информацией о том, кто из кандидатов уже является депутатом.
-
dataset - полностью автоматический парсинг сайта http://vybary2019.by на Python + pandas. Есть задача кроме парсинга таблиц, ещё парсить текст, в котором упоминаются доходы, даты рождения и, возможно, другая полезная для анализа информация.
Для обновления dataset/regions.csv нужен только Python 3.
python3 01pages.py -f
Для обновления dataset/candidates.csv нужен как минимум Jupyter.
jupyter nbconvert --execute parse.ipynb
Распарсить HTML страницу, сохранить первую табличку в pandas
dataframe d
.
Добавить пробел в восьмую позицию в каждой строке первой колонке, потому что
pandas
его склеивает
pandas-dev/pandas#29528
import pandas as pd
d = pd.read_html('http://vybary2019.by/regions/49.html',header=0)[0]
d.iloc[:,0] = d.iloc[:,0].apply(lambda x: x[:8]+' '+x[8:])
2019.11.17 (дзень выбарау)
- -1 кандидат в Гомеле по 32му региону, всего участвует 518
- в сравнение датасетов добавлен датасет
el_machina
, размеры датасетов, сравенения полей
2019.11.16 (завтра)
- конкурс от [email protected] (@ushchent) - до сегодняшнего вечера нужно
прислать PR со своими вариантами - кто пройдёт и кто нет из кандидатов
2019го года в CSV на https://github.com/ushchent/el_machina
Формат, допустим
data/predict-{user}.csv
, присутствовать должны только кандидаты 2019го, как минимум идентификатор кандидата и булевый флаг прошёл/или нет. Вероятность желательна, но необязательна.
2019.11.15 (2 дня до выборов)
- надо попуститься
2019.11.14 (за 3 дня)
- dataset/regions.csv готов, вместе с границами и контактами
- добавлены тетрадки с экспериментами
canal02-datadiff.ipynb
- незаконченное сравнение датасетовcanal03-parsing.ipynb
- задача извлечения значений с помощью MLcanal03-parsing-with-mindsdb.ipynb
- фейл извлечения с помощью MindsDB
2019.11.13 (4)
- за два дня с 10:39 11го ноября выбыло 5 кандидатов
- инструкции по обновлению датасета
- CSV с кандидатами уехала в dataset/candidates.csv
- canal01-generations.ipynb - анализ поколений кандидатов
- заработали предсказания на 2019ый http://ushchent.github.io/el_machina/
2019.11.12 (осталось 5)
- описание всех трёх датасетов
- ссылка на проект предсказания выборов от Alexey Medvetsky
- экспорт распаршеных кандидатов в CSV (@Alexanderexe)
2019.11.11 (6 дней до..)
- независимо собранный excel от @dmitryrogozhny с доп.информацией - пол и является ли текущим депутатом
- скрипт
./go.sh
для сборки датасета - собранные скриптами данные теперь в
,/dataset
(пока толькоregions.csv
)
2019.11.10 (за 7 дней до..)
- проект на гитхабе, maintenance команд на гитхаб и настройка команды @opendata/datafolks
- иконка @opendata/datafolks из случайного скриншота
- тикет в пандас pandas-dev/pandas#29528
parse.ipynb
парсинг данных кандидата на pandas + BeautifulSoup (@Alexanderexe)dataset/regions.csv
спиcок регионов с сайта (@abitrolly)
- @Alexanderexe
- @abitrolly
- @dmitryrogozhny
- @ushchent
- @chego
- @gsk990
- и др.