место в рейтинге
  • 219196
  • 952
  • 426
Нравится блог?
Подписывайтесь!

Казахстанский Твиттер в цифрах: моя попытка объять объятное!

После просмотра веселого руководства по Твиттеру от Bakunya я задался вопросом: “Сколько всего пользователей Твиттера в Казахстане?” Или лучше (дабы не обидеть граждан РК, находящихся зарубежом): “Сколько всего казахстанских пользователей Твиттера?” Как и все программисты, я не отличаюсь пессимизмом, поэтому мне показалось, что данный анализ займет максимум полдня (учитывая, что я до этого использовал Twitter API). Но все дьяволы в деталях. На "все про все" из-за лимитов, установленных Твиттером на API-вызовы, проблем с кодировкой, недостатком вычислительных ресурсов, моим неумением создавать инфографики (:D), а также другими обязательствами (учеба, спорт, еда, кино), ушло 4 дня!

Сначала я вручную составил список из порядка 500 KZ твитерян. Далее я собрал всех пользователей из списка их following/followers, после удаления дубликатов осталось 95355 пользователей. Многие из них естественно не казахстанцы. Далее я написал четыре разные функции фильтрации, выбрал лучшую из них, которая посчитала, что 18566 из 95355 пользователей являются казахстанцами. Это, безусловно, верхняя оценка, поскольку через мои фильтры проскочили некоторые твитеряне, которых казахстанцами назвать все-таки нельзя (например, чешский велогонщик команды Astana Роман Кройцигер). По возможности я удалил некоторые из них, но для полноценной фильтрации списка здесь нужна помощь crowdsourcing сервисов (например, таких, как Amazon Mechanical Turk или CloudFlower).

В общем, не буду утомлять скучными беседами о длительном (и временами интересном) процессе сбора и анализа данных и перейду непосредственно к результатам. Начнем с первого хит-парада. Здесь я отсортировал всех пользователей по соотношению following/followers (чем меньше, тем лучше), а затем нашел Klout score топ 100 из них. Klout score измеряет степень влияния пользователей Твиттера, принимая во внимание такие факторы, как кол-во фолловеров, кол-во ретвитов, упоминания в твитах и списках, репутация тех, кто ретвитит вас и так далее. Итак, топ 10 казахстанских пользователей Твиттера по их Klout Score:

Если интересно, далее идут Gizhi (Klout score = 51.69), Tanir_DGJ (51.45), DinaraSatzhan (51.28), MuratAbenov (51.26), Alexandr_Tsoy (50.89), Aidashov (49.69), iKairat (49.43), baitukenov (49.27), St_Almas (48.55) и Zhanna_t (48.41).

Следующий хит-парад, наверняка, то, что в первую очередь приходит в голову, когда мы говорим о репутации в Твиттере. Давайте просто отсортируем KZ твитерян по количеству фолловеров. Уверен, это будет любимым хит-парадом нашего премьер-министра =)

Далее идут BahytSyzdykova (4741 фолловеров), mahambet_2017 (4509), Tanir_DGJ (4426), yelikbayev (4246), natalialogunets (4032), kulibayev_timur (3912), serikm (3893), TokayevUNGeneva (3826) и laralarkin (3782).

В предыдущих топах под пользователями мы подразумевали персон, а как насчет твиттер-аккаунтов корпораций, сайтов, телеканалов? Вашему вниманию - топ 10 казахстанских организаций по количеству фолловеров. Юви на счастливой позиции номер 7!

Далее на позициях с 11-ой по 20-ую расположились WorldNewsKZ (4038 фолловеров), eurasiaorgru (3929), _Beeline_kz (3356), airastana (3265), bnewskz (3262), kazakhfilm (3197), ktk_news (3040), Lime_Kz (2974), KhabarTV (2879) и MEGA_kz (2648).

Также любопытно узнать самых разговорчивых твитерян. Топ 10 персон по количеству твитов:

Далее идут aidoseg (25085 твитов), Arstan19 (24967), BioCyberGear (24251), Usagi_Hamu (22388), syedin (21750), hu67et (21515), Ksenchik_91 (21005), iTengry (20621), tailaria (20098) и Agnesa (19656).

Кто из казахстанцев зарегистрировался в Твиттере раньше всех? Топ 10 early adopter’ов Твиттера:

В тот же 2007-ой год успели зарегистрироваться 5an (дата регистрации - 2007-10-12), vikalee (2007-10-21), abenov (2007-10-21), tintom (2007-11-04), Danil_Hustla (2007-11-04), brainnotfound (2007-11-22), Quessir (2007-12-01), konviki (2007-12-18), nurgeldy (2007-12-25) и huanysh (2007-12-26).

Имея столько данных, грех было бы не сделать какой-нибудь совокупный анализ. Общее количество твитерян - 18566. Среднее количество твитов - 474.79 (стандартное отклонение - 3817.27). Среднее количество фолловеров у KZ твитерян - 92.99 (стандартное отклонение - 667.54). Среднее количество авторов, которых отслеживает пользователь - 94.20 (стандартное отклонение - 303.32). Посмотрим на гистограмму частот распределения фолловеров (followers) между пользователями.

Как насчет гистограммы частот распределения друзей (following).

Ну и, наконец, то же самое, но для распределения твитов.

Можно сделать еще много разных хит-парадов (с улучшенной визуализацией данных, что-нибудь в стиле этой или этой инфографики), учитывая самые разные критерии. Например, ранжировать твитерян по нижней оценке на значение Вильсона, примененное на количество following / followers. Или отсортировать по количеству фолловеров твитерян, которые читают и пишут в Yvision. Или найти распределение твитерян по разным регионам страны. Если скачать все наши твиты (что я не делал и в ближайшем будущем не собираюсь :P), то можно найти экспертов по разным темам и многое другое. Если есть другие интересные идеи, поделитесь в комментах. Возможности в отличие от нашего внимания безграничны!

Мой Twitter: suleimenov

Арман Сулейменов suleimenov
http://www.cs.princeton.edu/~asuleime/
4 апреля 2012, 14:32
5243

Загрузка...
Loading...

Комментарии

кто будет моим фолловером? @donationkz ))
Читай меня!
@ibackstrom
Ого, вошел в 20 самых разговорчивых. Не ожидал.
Спасибо за пост, с интересом почитал.
Спасибо! Все-таки топ10-20 доказал свою профпригодность, не зря его включил =)
MadMen
0
0
не знаю больше половины из рейтинга по количеству фолловеров
Аналогично =) Поэтому пришлось связываться с некоторыми из них для проверки достоверности инфы, указанной в профайле.
Очень интересный обзор! Спасибо за проделанную работу!
Вот из второго списка кроме Масимова никого не знаю! И того расфолловил)))
Однозначно в избранное :-)

Но количество казахстанских пользователей твиттера много больше
Возможно. Как следующий шаг, думаю, нужно делать анализ имени и фамилии, поскольку это единственный способ "недорого" определить казахстанцев, находящихся зарубежом. Ну и конечно, сделать список твитерян открытым в стиле wiki, чтобы все могли его редактировать.
среди разговорчивых затерялся )
Очень познавательно ) Не очень люблю цифры, но чувствуется работа проделана титаническая
Slim
0
0
Что ещё за pissotsky и elina ?
nurma
0
0
уотимена! а что за Астана тим?
Slim
0
0
я чтот затрудняюсь прочесть слово уотимена! , понятия не имею.
Велосипедная команда
также их лично не знаю, но pissotsky живет в Кустанае, а ElinaMilan (настоящее имя - Элина Каузбаева) - в Алматы.
Спасибо. Информативно. Даже я засветился.
Причем в самом престижном топе =)
А зачем нужен этот рейтинг? Еще одна монетка в тренд КазТвиттера или как? И будут ли постоянно обновляться эти рейтинги?

Как мне получить всех рейтинговых финансовых аналитиков или программистов в наших твиттерах, я тоже не понял, а хотелось бы :)

Работа проделана хорошая, мне самому интересны всегда анализы и отчеты, так что автору по любой "+" в карму, но все же? :)

Disclaimer: Не считайте меня недовольным этим рейтингом, мне в принципе как-то они безразличны или занудой :)
Спасибо! Да, думаю, сделать рейтинги обновляемыми - следующий шаг. Потом можно сделать списки по профессиям и так далее. Мой анализ - лишь попытка начать процесс, minimum viable product. Надеюсь, интересующиеся подхватят =)
ололо я в списке влиятельных и болтливых. пойду отмечу это событие. спасибо, автору!
хаха, хороший повод в середине недели =)
Дожил, продвигал Klout как мог, а меня не включили в список :) Klout score 55, кстати
Муахахахахахахахаха!!!!!!!! Ааааааахахахаххахахахаах!!!!!! Мухехехехехе!!!!!!!!

freakyplankton.jpeg
Хехе. Ну я сначала отфильтровал список, чтобы в нем остались только юзеры с не менее 1000 фолловерами, далее отсортировал его по невозрастанию значения отношения following/followers и только потом применил klout score к топ сотне.
У меня почти 2000 штуки фолловеров и почти 20 тыс сообщений, да и фолловит меня порядочное кол-во людей из KZ. Странно, что я, и, например, maniac_kz с более чем 10 тыс фолловеров не попал в твой список. В общем надо пересматривать и обновлять ;)
"отсортировал его по невозрастанию значения отношения following/followers".
Например, это отношение для e_suleimenov = 103/2442 = 0.042, поэтому он попал в топ 100 по этому параметру. following/followers отношение для ElinaMilan = 10,467/35,541 = 0.29, поэтому она не вошла в топ 100 несмотря на 35,541 фолловеров.

а насчет maniac_kz - согласен. если бы он был проанализирован, он должен был попасть в оба топа - и по klout-score и по кол-ву фолловеров. нужно будет опубликовать список, чтобы каждый мог добавлять новых пользователей =)
А ты геолокацию фолловеров проверял?
Всё равно, считаю, что нужно учитывать прежде всего популярность и цитируемость аккаунтов и фамилий =)
Да, конечно, поле location - один из ключевых критериев, который я использую. Если бы maniac_kz попал в начальные 95355 юзеров, то мои фильтры бы его точно определили, как казахстанца (location - Алматы). Видимо, никто из того списка 500 kz юзеров, который я собрал вручную, не фолловил его, поэтому он не попал кандидат-список из 95355 пользователей. Мне не очень ясно, что значит "учитывать популярность и цитируемость аккаунтов и фамилий" =) Разве это уже не делается благодаря учету following/followers? Если имеется ввиду кол-во ретвитов, реплайев и прочие сигналы, то для этого нужно будет скачать все твиты, который сделал каждый кз твитерянин. Без безлимитного доступа к twitter api и досаточных вычислительных ресурсов, это займет пару месяцев =)
вошла в десяточку :D
спасибо)
Арман, спасибо за работу. А где досупно можно ознакомиться с этой системой klout?
Увидел слово гистограмма, вспомнил intro to statistics и стало плохо :)
А так "четко, в натуре четко"
хаха, ну, думаю, такие фильмы, как 'Moneyball', популяризируют статистику. it's fun :)
не верьте лидерам по кол-ву читателей))) боты - это не круто :) хотя, нет, круто, я просто завидую ;)
id17
1
0
Как идея, может нужно составить открытый список на каком-нибудь хосте, чтобы можно было добавиться самому или пожаловаться/удалить сомнительных пользователей?
В любом случае нужен открытый список
Отличная идея! Также считаю, это одним из немногих способов, который в итоге сработает.
korna
1
0
интересненько! =)))
молодец Армашка, хоть и 4 дня, но оно того стоило!=)))))
Аригатоу, Аймашка =)!
ООО!!! Какой труд! klout - круто, но каков анализ, расклад, а главное с душой и БЕЗВОЗМЕЗДНО!!! Спасибо, Арман!
Арман по ФБ не планируете аналогичную работу проделать?
Спасибо! Делать такой анализ по FB - хорошая идея, но очень трудно реализуемая. Нужно просить всех пользователей "connect with Facebook", так как (по крайней мере, когда я последний раз проверял) Facebook API не дает доступ к профайл-инфе пользователей, не являющимися вашими друзьями.
Между Кселлом и ТенгриНьюз - отличная компания)))
Арман +100500!
Атлична я не в списке!) Я все еще невидимка!:)
хехе! я тоже считаю, правда процесс пока медленно идет. tweetbot.kz
так нужно ускорить =) Считаешь кол-во юзеров, которые упомянули хештеги #tweetbot_kz и #kz?
Интересно, что последние две гистограммы похожи на нормальную и кай дистрибуции.
Совершенно верно. Подбирал сегменты на оси Ox, чтобы получилось что-нибудь знакомое =)
Хм, следующий шаг - анализ твитов СНГ ? =) Интересно было бы узнать, как на постсоветском пространстве соц.сети относятся друг другу. К примеру, сколько казахстанцев следят за российскими твитами и наоборот.

Наглядный и более близкий пример, сколько даты и трендов можно извлечь из соц. сетей =)
Достойная идея! Звучит, как что-то очень масштабное. В идеале понадобится неограниченный доступ к Twitter firehose и немалые вычислительные ресурсы, чтобы сделать что-нибудь достойное внимание =)
Сколько линий кода потребовалось, если не секрет? :)
не секрет, конечно, 1049 строк Питон кода, "распределенного" между 8 .py файлами =)
Samson
1
0
супер, огромное спасибо за такую работу!)
спасибо, Самсон! было интересно. единственный минус - нужно разгребать задания от научного руководителя, которые не сделал по учебе за прошлую неделю, но все ок =)
Отдуши Эдвард!
Я по рейтингу Klout 57, но меня там нет. Значит что-то упустили.
А следующие 3 чела после Карима Масимова из КЗ?

Вообще хорошая работа.
cогласен, тут нет тебя,меня и Вани) растолкали бы премьера и Санию)
Безусловно, упущения возможны, но как раз-таки вы, ребята, вошли в анализ =) Просто Klout score был применен только к топ сотне пользователей 1) с не менее 1000 фолловерами и 2) с наименьшим значением отношения following/followers. На момент последнего апдейта (4 апреля 2:35 утра по времени Астаны), у Данила (BioCyberGear) отношение following/followers было 463/1614, у Илияса (ilias_Abishev) - 180/1045, а у Вани (если, имеется ввиду ebogus) не насчиталось достаточное кол-во фолловеров (776). К примеру, мой Klout score - 53.63, но поскольку мой following/followers = 241/603, я не подошел ни по критерию № 1, ни по критерию № 2.
В данном контексте Ваня - это я. Я читаю 828, меня читают 1938. Klout Score уже неделю не ниже 55
отношение 828/1938 = 0.427. то есть вступил в силу критерий 2) наименьшее значение отношения following/followers.
А насчет "3 челов после Карима Масимова": первый из Кустаная (спросил лично в Твиттере), вторая из Алматы (заходил по ссылкам на указанные сайты), третьего не проверял (но в 'location' указано Алматы). Такие дела :P
suleimenov, спасибо за пост. Очень информативный.
Наконец-то все узнали примерное число кз твитерян. Эта цифра была для всех загадкой.
Кстати, больишнство самых разговорчивых твитерян мне не знакомо.
Подумаю о том, чтобы начать читать их.
Аригатоу, izyuminka!
для к-поперов )) а особенно для Shawols )) @AlBinA_frOm_KZ

Оставьте свой комментарий

Спасибо за открытие блога в Yvision.kz! Чтобы убедиться в отсутствии спама, все комментарии новых пользователей проходят премодерацию. Соблюдение правил нашей блог-платформы ускорит ваш переход в категорию надежных пользователей, не нуждающихся в премодерации. Обязательно прочтите наши правила по указанной ссылке: Правила

Также можно нажать Ctrl+Enter

Популярные посты

Инструкция для аллергиков. Как бороться с аллергией в период обострения

Инструкция для аллергиков. Как бороться с аллергией в период обострения

Я аллергик с детства. Имею аллергию на пыльцу березы, липы, полыни (выяснил это благодаря кожным пробам), а также пищевую аллергию на горчицу. Свои проблемы знаю, однако это меня не спасло.
Romeo_17
15 авг. 2017 / 17:21
  • 38692
  • 63
СМИ – ассистент провокаторов? Как гости из соседних стран сеют раздор в Казахстане

СМИ – ассистент провокаторов? Как гости из соседних стран сеют раздор в Казахстане

Инцидент с пьяным киргизским гостем на борту Air Astana, наверное, остался бы только во внутренних сводках авиакомпании, если бы г-н Доган, не поднял громкий крик о государственном языке.
openqazaqstan
17 авг. 2017 / 14:43
  • 10578
  • 173
Алматы предложили сделать центром секс-туризма

Алматы предложили сделать центром секс-туризма

Известный политолог России Андрей Карпов предложил сделать Алматы центром секс-туризма. Но для этого сперва нужно легализовать проституцию в стране.
tala03
13 авг. 2017 / 14:48
Казахский национализм раньше выглядел несовременно. Теперь он другой

Казахский национализм раньше выглядел несовременно. Теперь он другой

Националисты стали совсем другими. По-английски хорошо говорят, русскую классику цитируют. Очень современные, образованные, адекватные. А после Крыма в националисты уже чуть ли не любой казах готов был записаться.
Aidan_Karibzhanov
16 авг. 2017 / 16:52
Имеющий уши да услышит. Латиница касается только казахского языка

Имеющий уши да услышит. Латиница касается только казахского языка

Президент Назарбаев наконец-то разъяснил для всех, кто ещё не понял, очевидный вопрос, который всем в Казахстане очевиден. Елбасы повторил: на латиницу мы переводим казахский язык, и это не означает отказ от русского языка.
openqazaqstan
18 авг. 2017 / 16:23
  • 2527
  • 44
«Доехать до Алтын Орды» – как мошенники обманывают алматинцев

«Доехать до Алтын Орды» – как мошенники обманывают алматинцев

Из множества грустных откровений постепенно сложился перечень самых распространённых уловок охотников за нашими деньгами. В нём ожидаемо лидировали профессиональные попрошайки.
caravan_kz
16 авг. 2017 / 15:05
  • 2024
  • 2
В Кокшетау строят два парка для молодёжи. Будут учтены интересы и любителей спорта

В Кокшетау строят два парка для молодёжи. Будут учтены интересы и любителей спорта

Общая площадь парка составляет 25 гектаров. На территории предусмотрено устройство прогулочных дорожек, площадок для установки аттракционов и павильонов различного назначения, цветников.
zhasakmola
17 авг. 2017 / 17:13
  • 1888
  • 1
Недоразумение с грантами в ВУЗы: «медалисты» до сих пор имеют преимущество

Недоразумение с грантами в ВУЗы: «медалисты» до сих пор имеют преимущество

Многие способные выпускники без Алтын Белги готовились к тестированию, чтобы в честной борьбе попытать счастья на гранты без ущемления со стороны якобы "золотых" выпускников.
DanaJarlygapova
14 авг. 2017 / 14:35
Новый конкурс на грантовое финансирование – разочарование для казахстанских ученых

Новый конкурс на грантовое финансирование – разочарование для казахстанских ученых

Обсуждение новых условий началось ещё давно, но стоит ли ожидать качественного улучшения результатов научно-исследовательской деятельности, если система управления наукой не была модернизирована?
ermekuss
17 авг. 2017 / 12:23
  • 1716
  • 1