April 8th, 2016

Жизнь и смерть ЖЖ в одном графике

По меркам ЖЖ я салага, журнал зарегистрирован всего лишь 6 лет назад. Сколько себя помню, блогеры среднего и высшего сословия стабильно писали душещипательные истории, что платформа уже не та и ностальгировали по темлым ламповым временам, когда тысяча друзей это прям было огого. Для придания драматичности прикладывались картинки с графиками неумолимо падающей посещалки. Итак пару раз в год публиковался пост в ЖЖ, который как бы умирает.

После очередной волны упаднических настроений мне стало любопытно, действительно ли всё так плохо. Ориентироваться на собственную статистику смысла нет, особенно если учитывать, что я на месяц вообще на блог забил и цифры там мегагрустные. Потому было решено зайти с другой стороны, я ж айтишнег, так что пришло время заняться моей тайной страстью — Data mining.

Вы слова то не пугайтесь, звучит солидно и умно, некоторые любят козырнуть им в разговоре и в резюме, но по факту это всего лишь анализ общедоступных и не только данных. Итак, ЖЖ выдает по каждому пользователю дату регистрации и дату последнего обновления журнала, надо «всего лишь» получить список всех пользователей платформы и запросить по ним инфу. Господи, делов то...

На момент расследования у меня уже был список из 5 млн. активных пользователей ( и не спрашивайте зачем ), в архивах обнаружилась БД двухгодичной давности на 8 млн. записей и еще своими изысканиями поделился товарищ vmenshov, так я обзавелся еще одним набором данных на 12 млн строк. Дело за малым — всё это собрать воедино, отсеять дубликаты, проверить пользователей на активность и заполучить по ним инфу. Боевые роботы пошуршали недельку и выдали мне 12 млн. пользователей из которых после двухнедельной проверки «живыми» оказались 7.5, остальные или удалены или заблочены.

Дальше всё совсем просто, группируем инфу о пользователях по месяцам и получаем его — график жизни и смерти ЖЖ.


Collapse )