Женщины, не работайте больше 32 часов в неделю

Kuanysh Zhunussov 2017 M09 29
2509
20
46
0

Как снег на голову приспичило мне поиграть с данными egov.kz, и начал я искать статистику браков/разводов, чтобы наконец найти ответ на вопрос: "В чем причина счастливого брака?"

Как снег на голову приспичило мне поиграть с данными egov.kz, и начал я искать статистику браков/разводов, чтобы наконец найти ответ на вопрос: "В чем причина счастливого брака?". Так как тема разводов, к несчастью, актуальна и в Казахстане, решил я обратиться к оракулу XXI века - машинному обучению.

К моему сожалению, на egov.kz полезного я не нашел. Пришлось обратиться к публичным данным, которые доступны на сайте одного американского университета. В данной базе данных есть информация о более 30 тысяч людей с 14 характеристиками о каждом из них. Мне лень было изучать каждый атрибут и дабы избежать усложнения модели, были выбраны 4 переменных, которые имеют место быть и в нашей стране:

1) рабочий класс (гос служащий, бизнесмен, безработный и тд)

2) профессия (педагог, электрик, и тд)

3) пол: (мужчина и женщина)

4) часов в неделю (рабочих)

И классификацию упростил как В БРАКЕ и РАЗВЕДЕН. То есть, незамужних и прочих я исключил из базы.

Поиграв с разными алгоритмами (классификаторами), которые я использовал ранее в прошлом семестре, была достигнута точность классификации в 82%. Более детально:

Другими словами, если вбить ваши данные в алгоритм и вы были классифицированы как "В браке", то с вероятностью 89% вы будете все еще в браке после 30. А если предсказание будет "Развод", то вы разведетесь с вероятностью 55%. Следовательно, предсказание "В браке" является доверительным, а "развод" - почти 50 на 50.

Так как я особо не углублялся в сами характеристики, покажу вам то, что попалось сразу на глаза в данной базе (хотя возможно и найти что-нибудь более интересное и важное):

График выше (отметки накалякал в онлайн пэйнте) показывает зависимость разводов от пола и количества рабочих часов в неделю отдельного участника. Если посмотреть на верхние синие крестики (в основном), то ничего дельного сказать не получиться. А вот что касается женщин, то разводятся в основном те индивидуумы, которые работают больше 32 часов в неделю. А те красные крестики что слева, и синие справа, это так называемые аутлайеры.

Вывод: все разводы из-за женщин, которые работают больше 32 часов в неделю ^_^

Оцените пост

45

Комментарии

1
А может, здесь что-то, типа: "ПОСЛЕ ЭТОГО НЕ ЗНАЧИТ, ЧТО ВСЛЕДСТВИЕ ЭТОГО."
Т.е. : разведены не из-за того, что много работают, а работают много, их-за того, что разведены? ))
0
это шутка была)
0
разве что поставить гипотезу, и проводить анализы дальше)
0
а если в серьез, то вашему мнению имеет место быть: данные по разводам уже как бы после самого развода, и неизвестно сколько часов разведенные работали во время брака)
1
В любом случае, Вы на правильном пути. Статистика - это тема! ) Сейчас это называют биг дата, но смысл один.
Постановка проблемы, поиск закономерностей - это интересно, а если грамотно монетизировать...)
Показать комментарии