09:05, 12 апреля 2012

Обработка блога

Не вспомню день, в котором мой мозг бы отдыхал. Разве что летом разгрузка. А в учебный сезон плотная нагрузка. Так уж получается, что мне постоянно приходится решать задачи, проводить расчеты, оформлять обработку полученных результатов.

А вот совсем недавно мне попала в руки книжка с различными способами математической обработки в психологии. И уже как неделю я с этой книжечкой буквально засыпаю. Занимаюсь одним исследованием, а каким – не скажу.

С каждым глотком очередного критерия, внезапно осенила шутливая версия применить один из них в нашей, так называемой, блогерской сфере. Всегда ли статистика права? И насколько она равносильна моему внутреннему предпочтению.

Допустим, пользователь pai_devo4ka считает, что ее любимые блогеры Andrey_Koroblev и VSG. Но с одинаковой ли частотой она проявляет свой интерес? Кроме того, если учитывать статистику за март месяц текущего года, то не менее активно она почитывает пользователя djakonda. Вполне возможно, что последний юзер может составить первым двум серьезную конкуренцию.

Основная задача: сравнить распределение интереса пользователя pai_devo4ka между тремя блогерами за март 2012 год.

Решение:

Распределение внимания (согласно чтению записей) за март 2012 г.

Счет официальный. Случайности исключены.

Теперь необходимо сопоставить полученные эмпирические частоты с теоретическими. Если пользователь pai_devo4ka никому не отдает четкого предпочтения, то данное распределение показателя направленности ее взгляда не будет отличаться от равномерного распределения. Но если один из блогеров все же чаще притягивает ее взор, то это может быть основанием для определения фаворита.

Гипотезы:

Н₀: Распределение внимания пользователя pai_devo4ka между блогерами не отличается от равномерного распределения.

Н₁: Распределение внимания пользователя pai_devo4ka между блогерами отличается от равномерного распределения.

Определим теоретическую частоту:

F(теор)=n/k. Где n – кол-во наблюдений, k – кол-во разрядов признака. В нашем случае признак – внимание (чтение) пользователя pai_devo4ka, направленный на какого-либо блогера (k=3), Кол-во наблюдений соответствует числу прочитанных записей за март (n=24).

F(теор)=24/3=8.

Если изобразить рисунок сопоставления эмпирических частот с теоретической (горизонтальная планка), то в таком случае, области расхождений незначительны, и Andrey_Koroblev малость опережает других, VSG может еще на что-то надеяться, а вот госпоже djakonda, по-видимому, пока не везет.

Так играет график. Но поскольку, мы люди грамотные, и привыкли доверять цифрам, попробуем рассчитать критерий Пирсона «Хи-квадрат», который и решит(а может и нет) интересующую проблему.

Для того, чтобы установить критические значения замечательного «Хи-квадрата», нам необходимо определить число степеней свободы (ЧСС).

ЧСС=к-1.

ЧСС=3-1=2.

Согласно табличным данным при ЧСС=2, критические значения в соответствии с доверительными вероятностями 0,05 и 0,01 равны:

Очевидно, что эмпирический «Хи-квадрат» не вписывается в зону значимости ни при одной из доверительной вероятности, притом много меньше критических значений. Это подтверждает первую гипотезу. Распределение приблизительно равномерно между тремя блогерами.

Но это не все. Меня такой ответ не устраивает, в таком случае я провела анализ постов за март, в которых оставила комментарии. Итого:

К сожалению, расчет критерия «Хи-квадрат», имеет свои ограничения. И недопустимо теоретическое значение частоты меньше пяти. Посему прибегнем к крайним мерам и посчитаем общее количество комментариев в каждой записи троицы за март месяц.

Гипотезы те жи.

F(теор)=23/3=7,67

Проведя расчеты:

Можете проверить, если не верите….

ЧСС=2, и опять зона незначимости. Ответ аналогичен первому случаю...

Последний шанс: сравнение двух эмпирических величин.

Доля чтения 24/47=0,51; доля комментирования: 23/47=0,49

Число степеней свободы при сопоставлении двух эмпирических распределений определяется по формуле:

ЧСС= (k-1)*(с-1), где к – количество разрядов признака (строк в таблице эмпирических частот); с – количество сравниваемых распределений (столбцов в таблице эмпирических частот).

ЧСС=(3-1)*(2-1)=2

Эмпирическое значение много меньше теоретического критерия Пирсона (1,579<5.991). Это говорит о том, что распределения внимания в прочтении и комментировании не различаются между собой. Ибо общее количество наблюдений незначительно, - это раз, и во-вторых, нужно увеличить срок наблюдения.

В целом, задача неудачна. Но как пример, вполне неплох. Результаты покажутся нам эффективными при большем значении n. Один месяц не совсем показатель…Но, если вы сумасшедший, можете рискнуть.

***

Я и без статистики знаю кто мой любимый блогер, и никакая наука со мной не поспорит, чего уж там.

Дабы отвлечь себя от грусти, занялась фигней_страдайтингом.

Еще по теме