If a building becomes architecture, then it is art
Как пузырьковые диаграммы
[буквально] врут
Недавно в работе я столкнулась с некоторыми странностями при построении пузырьковых диаграмм. И решила проверить, все ли сервисы и программы по визуализации данных одинаково полезны строят пузырьки одинаково. Заранее скажу, ответ: «нет». Я бы даже сказала, что практически все это делают по-своему.
Напомню на всякий случай, что в пузырьковой диаграмме значение — это площадь круга (или другой фигуры), но не радиус и не диаметр. Объясняется это просто, если вы возьмете две очереди в билетную кассу, вы получите столбиковую диаграмму, где сравнимы будут длины очередей. Если же вы и ваш друг крикните, что готовы раздать билеты бесплатно, то вы получите две толпы, окружившие каждого из вас, и сравнимы станут площади, занятые людьми, желающими получить бесплатно и быстро билет (не осуждаю).
В нескольких популярных сервисах и программах по визуализации данных я построила диаграммы с достаточным на мой взгляд разбросом значений и собрала получившиеся результаты в иллюстраторе и там же построила пузырьки, пользуясь встроенным инструментом. Ниже можно увидеть разброс, снизу подписаны собственно значения.

Угадаете, кто выделяется больше всего?
В варианте выше я выровняла пропорции по наибольшему пузырьку — то есть у всех получившихся визуализаций наибольший пузырек одинаковый, пропорции размеров остальных зависят от того, как программа или сервис собственно их строит.

Вот так выглядит разброс для значений 1, 2, 5 при увеличении. Гспд, никому нельзя верить.
Смеха ради сделала еще вариант, где пропорции выровнены по наименьшему пузырьку. Вот такая красота получилась :)
А теперь поподробнее.

Я сравнила пузырьковые диаграммы, сделанные в:



  • Microsoft Excel
  • Google Sheets
  • Tableau
  • Adobe Illustrator
  • Datawrapper.de
  • Infogram.com
  • Flourish.studio
  • Rawgraphs.io — в нем я сделала две диаграммы: пузырьковую и beeswarm plot

И для контроля я посчитала по школьной формуле радиусы и построила круги по полученным значениям. И вот, что у меня в итоге получилось:

Tableau и Adobe Illustrator совпали. Ну совпали и совпали, но кто же оказался ближе всего к правде, спросите вы. А я вам отвечу. Они и оказались, построили идеально точно. Красным выделен «математический» вариант, черным — результаты сервиса или программы. (Для наглядности я вынесла за скобки круг со значением 1000, его размер для всех одинаковый)
Почти точно построил Excel.
Остальные все-таки чуть-чуть смещали пропорции. Да-да, и даже datawrapper.
Самая жесть это конечно Google Таблицы. Почему они решили так искажать пропорции, для меня загадка.
Хотя Пчелиный рой (beeswarm plot) в rawgraphs тоже шокирует, но уже в другую сторону. Кажется, они тупо используют радиус для визуализации размера (хаха, одна из трех «любимых» ошибок любого преподавателя датавиза)
И напоследок гифочка на память
Вот такая весёлая история. Будьте бдительны на полях визуализации данных. Спасибо за внимание.

P. S. Хочу еще дополнить эту историю QGIS и Gephi. Если есть еще идеи, пишите, велкам.
Made on
Tilda