Количественные измерения стадных чуйств

В преддверии замечательного праздника 14 ляляля вопрос "Поддаются ли чуйства количественным измерениям?" может беспокоить ум пытливого реакторчанина. 

Помните, Вождь затеял эксперимент с сокрытием рейтинга комментариев? Для анализа были выбраны 2 месяца - октябрь 2018-го ("до") и январь 2019-го ("после"). Январь закончился, созрели результаты эксперимента по измерению стадных чуйств.

Если цифры утомительны, можно сразу перейти к подразделу "Короче".

Общая статистика

 

 окт 18янв 18
кол-во оцененных комментариев 134814137180
кол-во заминусованных комментов 3203634266
средняя оценка комментов 2.171.79

Распределение рейтингов комментариев


Синее - октябрь 18, оранжевое - январь 19. Только по комментам, за которые хоть раз проголосовали.


Заметнее всего сокращение комментов в группах [-6; -3) и (-∞; -6) - их стало в 2 раза меньше.

Также уменьшилось количество сильно заплюсованных комментов, но не так явно.

Влияние первого голоса

1) Какова вероятность того, если коммент заминусован, первая оценка у него была минус?

Рассматриваем срез отрицательных комментов, а конкретно сколько из них получили первую оценку минус.


окт 18янв 19
отрицательные комменты
3203634226
первая оценка за коммент - минус2167019877
процентное соотношение 67.6% 58.1%

Можно уточнить срез, добавив условие, что голосов за коммент больше 1. А то бывает, мимокрокодил пройдет и проголосует разок, или двое устроили в уголке срач и минусуют друг друга. 


окт 18янв 19
отриц. комменты с кол-вом оценок больше 12771930123
первая оценка - минус1735315774
процентное соотношение62.6%52.4%

Давайте посмотрим по заплюсованным комментам - точно так же, с количеством оценок больше 1.


окт 18янв 19
плюсовые комменты с кол-вом оценок больше 18931888443
первый голос - плюс8177179535
соотношение91.6%89.9%

2) Какова вероятность, что если первый голос - минус, коммент в конце концов заминусуют?

Возьмем данные по отрицательным комментам с количеством голосов больше 1 и применим теорему Байеса (не пользы ради, а потому что математики дрочат на теорему Байеса).

A - коммент заминусован

B - первый голос за коммент - минус

P(B|A) мы выяснили в предыдущем вопросе - это 62.6% и 52.4% соотвественно (берем срез отрицательных комментов с кол-вом голосов больше 1).

P(A) = кол-во отрицательных комментов с числом оценок >1 / кол-во комментов с числом оценок >1.

P(B) = кол-во комментов с первой оценкой минус с числом оценок >1 / кол-во комментов с числом оценок >1.

P(A|B) = P(B|A)*P(A)/P(B) - теорема Байеса


окт 18янв 19
кол-во комментов с числом оценок больше 1117949
119903
кол-во комментов с первой оценкой минус, голосов больше 12536525084
кол-во заминусованных комментов, голосов больше 12771930123
P(A)23.5%25.1%
P(B)21.5%20.9%
P(B|A)62.6%52.4%
P(A|B)68.4%62.8%

P(A|B) в нашем случае - искомая вероятность того, что коммент заминусуют, если первая, но не единственная оценка у него минус.

3) Какова вероятность того, что если первый голос - минус, то второй голос тоже минус? 

Берем данные по всем комментам, у которых более одной оценки. 


окт 18янв 19
комменты, у которых первый голос - минус, оценок больше 12536525084
первый голос - минус и второй голос - минус141539439
процентное соотношение55.8%37.6%

Вообще, вероятность того, что какой-то абстрактный голос - минус, осталась прежней - 16% (количество минусов делим на общее количество голосов). Удивительно стабильная цифра. Вероятность того, что первый голос у коммента минус - 21% (см. предыдущий пункт, P(B)).

Но в случае, если первый голос - минус, вероятность второго минуса явно выше, потому что коммент с бОльшей вероятностью говно.

Короче - результаты эксперимента

Рейтинг коммента скрывается, пока его величина не станет меньше -3 или больше 3. Результаты:

1) Кол-во сильно и средне заминусованных комментов с оценкой меньше -3 сократилось примерно в 2 раза.

2) Вероятность того, что если первый, но не единственный голос за коммент - минус, то коммент в итоге будет заминусован, упала на 5.6% - с 68.4% до 62.8%.

Казалось бы, 5-6% разницы фигня, но если 5 комментов из 100 уходили в большИе или бОльшие минуса из-за стадных чувств, то это неприятно.

3) Вероятность того, что если первый голос - минус, то и второй голос за коммент - минус, упала на 18.2% с 55.8% до 37.6%.

То есть до этого пользователи на 18% больше следовали за первым минусом и повторяли его.

Такие дела, товарищи.