Гистограмма распределения — это инструмент, позволяющий визуально оценить величину и характер разброса данных. Создадим гистограмму для непрерывной случайной величины с помощью встроенных средств MS EXCEL из надстройки Пакет анализа и в ручную с помощью функции ЧАСТОТА() и диаграммы.
Гистограмма (frequency histogram) – это столбиковая диаграмма MS EXCEL , в каждый столбик представляет собой интервал значений (корзину, карман, class interval, bin, cell), а его высота пропорциональна количеству значений в ней (частоте наблюдений).
Гистограмма поможет визуально оценить распределение набора данных, если:
- в наборе данных как минимум 50 значений;
- ширина интервалов одинакова.
Построим гистограмму для набора данных, в котором содержатся значения непрерывной случайной величины . Набор данных (50 значений), а также рассмотренные примеры, можно взять на листе Гистограмма AT в файле примера. Данные содержатся в диапазоне А8:А57 .
Примечание : Для удобства написания формул для диапазона А8:А57 создан Именованный диапазон Исходные_данные.
Построение гистограммы с помощью надстройки Пакет анализа
Вызвав диалоговое окно надстройки Пакет анализа , выберите пункт Гистограмма и нажмите ОК.
В появившемся окне необходимо как минимум указать: входной интервал и левую верхнюю ячейку выходного интервала . После нажатия кнопки ОК будут:
- автоматически рассчитаны интервалы значений (карманы);
- подсчитано количество значений из указанного массива данных, попадающих в каждый интервал (построена таблица частот);
- если поставлена галочка напротив пункта Вывод графика , то вместе с таблицей частот будет выведена гистограмма.
Перед тем как анализировать полученный результат — отсортируйте исходный массив данных .
Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).
Второй интервал (отмечен на картинке серым) включает значения больше 113 и меньше или равные 216,428571428571. Можно проверить, что таких значений 11. Предпоследний интервал, от 630,142857142857 (не включая) до 733,571428571429 (включая) содержит 0 значений, т.к. в этом диапазоне значений нет. Последний интервал (со странным названием Еще ) содержит значения больше 733,571428571429 (не включая). Таких значений всего одно — максимальное значение в массиве (837).
Размеры карманов одинаковы и равны 103,428571428571. Это значение можно получить так: =(МАКС( Исходные_данные )-МИН( Исходные_данные ))/7 где Исходные_данные – именованный диапазон , содержащий наши данные.
Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).
Примечание : Похоже, что инструмент Гистограмма для подсчета общего количества интервалов (с учетом первого) использует формулу =ЦЕЛОЕ(КОРЕНЬ(СЧЕТ( Исходные_данные )))+1
Попробуйте, например, сравнить количество интервалов для диапазонов длиной 35 и 36 значений – оно будет отличаться на 1, а у 36 и 48 – будет одинаковым, т.к. функция ЦЕЛОЕ() округляет до ближайшего меньшего целого (ЦЕЛОЕ(КОРЕНЬ(35))=5 , а ЦЕЛОЕ(КОРЕНЬ(36))=6) .
Если установить галочку напротив поля Парето (отсортированная гистограмма) , то к таблице с частотами будет добавлена таблица с отсортированными по убыванию частотами.
Если установить галочку напротив поля Интегральный процент , то к таблице с частотами будет добавлен столбец с нарастающим итогом в % от общего количества значений в массиве.
Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля Метка ).
Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150.
В результате получим практически такую же по форме гистограмму , что и раньше, но с более красивыми границами интервалов.
Как видно из рисунков выше, надстройка Пакет анализа не осуществляет никакого дополнительного форматирования диаграммы . Соответственно, вид такой гистограммы оставляет желать лучшего (столбцы диаграммы обычно располагают вплотную для непрерывных величин, кроме того подписи интервалов не информативны). О том, как придать диаграмме более презентабельный вид, покажем в следующем разделе при построении гистограммы с помощью функции ЧАСТОТА() без использовании надстройки Пакет анализа .
Построение гистограммы распределения без использования надстройки Пакет анализа
Порядок действий при построении гистограммы в этом случае следующий:
- определить количество интервалов у гистограммы;
- определить ширину интервала (с учетом округления);
- определить границу первого интервала;
- сформировать таблицу интервалов и рассчитать количество значений, попадающих в каждый интервал (частоту);
- построить гистограмму.
СОВЕТ : Часто рекомендуют, чтобы границы интервала были на один порядок точнее самих данных и оканчивались на 5. Например, если данные в массиве определены с точностью до десятых: 1,2; 2,3; 5,0; 6,1; 2,1, …, то границы интервалов должны быть округлены до сотых: 1,25-1,35; 1,35-1,45; … Для небольших наборов данных вид гистограммы сильно зависит количества интервалов и их ширины. Это приводит к тому, что сам метод гистограмм, как инструмент описательной статистики , может быть применен только для наборов данных состоящих, как минимум, из 50, а лучше из 100 значений.
В наших расчетах для определения количества интервалов мы будем пользоваться формулой =ЦЕЛОЕ(КОРЕНЬ(n))+1 .
Примечание : Кроме использованного выше правила (число карманов = √n), используется ряд других эмпирических правил, например, правило Стёрджеса (Sturges): число карманов =1+log2(n). Это обусловлено тем, что например, для n=5000, количество интервалов по формуле √n будет равно 70, а правило Стёрджеса рекомендует более приемлемое количество — 13.
Расчет ширины интервала и таблица интервалов приведены в файле примера на листе Гистограмма . Для вычисления количества значений, попадающих в каждый интервал, использована формула массива на основе функции ЧАСТОТА() . О вводе этой функции см. статью Функция ЧАСТОТА() — Подсчет ЧИСЛОвых значений в MS EXCEL .
В MS EXCEL имеется диаграмма типа Гистограмма с группировкой , которая обычно используется для построения Гистограмм распределения .
В итоге можно добиться вот такого результата.
Примечание : О построении и настройке макета диаграмм см. статью Основы построения диаграмм в MS EXCEL .
Одной из разновидностей гистограмм является график накопленной частоты (cumulative frequency plot).
На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.
СОВЕТ : О построении двумерной гистограммы см. статью Двумерная гистограмма в MS EXCEL .
Примечание : Альтернативой графику накопленной частоты может служить Кривая процентилей , которая рассмотрена в статье про Процентили .
Примечание : Когда количество значений в выборке недостаточно для построения полноценной гистограммы может быть полезна Блочная диаграмма (иногда она называется Диаграмма размаха или Ящик с усами ).
Графическое представление статистического распределения. Гистограмма
Графическое представление статистического распределения. Гистограмма.
1. Постановка проблемы . Гистограмма — один из инструментов интерпретации результатов медицинских исследований, контроля состояния здоровья пациентов. Благодаря графическому представлению имеющейся количественной информации, можно увидеть закономерности, трудно различимые в простой таблице с набором цифр, оценить проблемы и найти пути их решения. То есть для осмысления качественных характеристик признаков, процессов, и наглядного представления тенденции изменения наблюдаемых значений применяют графическое изображение статистического материала, т. е. строят гистограмму распределения.
Именно по виду гистограммы, по тому, на какой вид распределения плотности вероятности похожа гистограмма, подбирается теоретический закон распределения.
Наиболее часто встречающиеся виды распределений:
2) показательное (экспоненциальное);
Рис. 1. Плотность нормального распределения
По нормальному закону распределены рост, масса человека, систолическое давления, содержание холестерина в крови пациента и д. р.
Рис. 2. Плотность показательного распределения.
По показательному закону распределён интервал между однотипными случайными событиями: вызовами медсестры пациентами, число заказов лекарственных средств аптеками, страховые случаи.
Рис. 3. Плотность равномерного распределения
По равномерному закона распределены ошибка округления и фаза случайных колебаний.
Рис. 4. Плотность Рэлеевского распределения
Плотность Рэлеевского распределения отлична от нуля только для неотрицательных значений x. Это распределение однопараметрическое: оно зависит от одного параметра σ. По Рэлеевскому закону распределено расстояние от точки попадания в мишень до её центра.
Таким образом, необходимо внимательно посмотреть на построенную гистограмму и выбрать подходящее распределение значений случайной величины.
2. Предыстория и суть метода. Гистогра́мма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание) — способ графического представления табличных данных. Следовательно, термин следует интерпретировать, как некую форму записи, состоящую из ‘столбиков’, т. е. продолговатых, вертикально расположенных фигур. Термин ‘гистограмма’ был введен знаменитым статистиком Карлом Пирсоном (Karl Pearson) для обозначения «общей формы графического представления».
Пирсон (Pearson) Карл (27.3.1857, Лондон,— 27.4.1936, там же), английский математик, биолог, философ-позитивист. Профессор прикладной математики и механики (с 1884), а затем евгеники (с 1911) Лондонского университета.
Гистограмма — один из вариантов столбиковой диаграммы, позволяющий зрительно оценить распределение статистических данных, группированных по частоте попадания в определенный (заранее заданный) интервал. Таким образом, гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала значений случайной величины.
3. План построения гистограммы:
1) Пусть необходимо изучить распределение признака Х у объектов генеральной совокупности. Для этой цели делают репрезентативную выборку и производят n измерений значений исследуемого признака: x 1 , x 2 , . ,. xn .
2) Надо найти минимальное значение xmin и максимальное значение xmax измеренного параметра. Полученный диапазон разделить на конечное число интервалов, предварительно определив их число (обычно 5-20 в зависимости от числа показателей) и определить ширину интервала Δ x . Часто разность x max – x min не делится нацело. В таком случае интервал несколько расширяется, как в сторону меньших, так и в сторону больших значений.
3) Все данные распределить по интервалам в порядке возрастания: левая граница первого интервала должна быть меньше наименьшего из имеющихся значений. Данные обработки результатов представить в виде таблицы (таблица1).
4) Подсчитать частоту mi значений параметра, попавших в каждый из интервалов.
5) Вычислить плотность частот mi / Δx попадания данных в каждый из интервалов.
6) Вычислить плотности относительных частот mi / Δx · n [1] .
Плотности относительных частот,
7) . По полученным данным построить гистограмму — столбчатую диаграмму, высота столбиков которой соответствует частоте или плотности частот, или плотности относительных частот попадания данных в каждый из интервалов, основаниями столбиков служат отрезки оси абсцисс, длины которых равны длинам интервалов. В результате получают ступенчатую фигуру в виде сдвинутых друг к другу прямоугольников, площади которых пропорциональны частотам (или плотностям относительных частот).
Гистограмма частот (нормальное распределение)
Гистограмма плотности относительных частот (нормальное распределение)
8). Проанализировать гистограмму:
a) определить тип распределения данных (нормальное и т. д.);
b) нарисовать линию по верхушкам полосок гистограммы и получить сглаживающую кривую, наилучшим образом представляющую данное статистическое распределение;
c) осуществить анализ нормального распределения с использованием математического аппарата: найти значение генеральной средней, генеральное среднее квадратическое отклонение, выражение для нормального закона. Но не следует делать выводы, основанные на малых выборках. Чем больше объем выборки, тем больше уверенность в том, что три важных параметра гистограммы — ее центр, ширина и форма — представительны для всего исследуемого процесса или группы данных.
d) Ответить на вопрос: «Почему распределение именно такое, и о чем это говорит?»
Примеры анализа гистограмм:
- Симметричная (пример А). Большинство значений находятся по обе стороны от центра распределения (центральной тенденции) с отклонением, сбалансированным по обе стороны от центра. С наклоном (пример Б). Большинство значений находятся слева от центральной тенденции. Такой тип распределения данных может произойти, если есть естественное препятствие в случаях сортировки данных (результаты, которые не соответствуют определенному стандарту, удаляются из набора данных). Асимметричная (пример В). На таком графике имеется длинный «хвост» по одну сторону от центральной тенденции. По одну сторону имеется больше отклонений, чем по другую, указывая на то, что в течение процесса произошел сдвиг некоторых переменных значений. Двухмодальная (пример Г). В двух модальном типе имеется две вершины. Это обычно происходит, когда смешиваются две различные группы данных (категория невысоких людей смешивается с категорией очень высоких людей). В действительности, мы имеем две гистограммы, объединенные вместе.
· Наглядность, простота освоения и применения.
· Анализ на основании фактов, а не мнений.
· Позволяет лучше понять вариабельность, присущую процессу, глубже взглянуть на проблему и облегчить нахождение путей ее решения.
Интерпретация гистограммы, построенная по малым выборкам, не позволяет сделать правильные выводы.
Применение метода гистограмм в информатике:
В последние два десятилетия гистограммы использовались в нескольких областях информатики, и, прежде всего, в областях обработки изображений. Анализ гистограммы яркости стал уже привычным делом во время редактирования фотографий в графическом редакторе. Гистограмма яркости, которую для краткости обычно называют просто «гистограмма», помогает оценить общее качество фотографии на основе математической интерпретации тонального диапазона изображения в виде специальной диаграммы. Гистограмма яркости изображения — это и есть такая столбчатая диаграмма, отображающая количество пикселов [2] изображения (по вертикали), имеющих заданный уровень яркости (по горизонтали). Т. е. гистограмма яркости представляет собой график, который показывает, какие оттенки присутствуют в изображении. Диапазон оттенков изображения представлен в виде последовательности вертикальных линий, расположенных слева направо от самого темного до самого светлого. Высота каждой линии показывает, сколько в изображении пикселов
соответствующего оттенка. Гистограмму можно получить для каждого цветового канала в отдельности. В этом случае она показывает количество пикселов, имеющих определенное значение величины яркости для каждого цвета. Величина яркости изменяется в диапазоне от 0 до 255 с точностью до единицы, что соответствует цветовой глубине в 8 бит на каждый цветовой канал (в двоичном представлении от – черный до — белый). В растровом изображении каждый пиксел содержит информацию о своем цвете. Цвет представляется числами в соответствии с той или иной цветовой моделью, например, RGB (Красный, зелёный, синий –цвета, с помощью сложения которых формируется изображение на экране) и др. Так, в модели RGB каждый пиксел описывается тремя числами, соответствующими яркостям базовых цветовых составляющих, которым в свою очередь, ставится в соответствие номер цвета. Числа, которыми описывается цвет пикселов, еще называют цветовыми каналами.
Как известно, числа можно представлять в различных системах счисления. В обычной практике мы используем десятичную систему, в которой для записи чисел применяются 10 цифр (0, 1, 2, …, 9). В программировании часто используется шестнадцатеричная система счисления, в которой применяются 16 цифр (0, 1, 2,…, 9, A , B , C , D , E , F ). Работа компьютеров основана на двоичной системе с двумя цифрами — 0 и 1. Двоичную цифру называют битом . Бит может принимать только одно из двух возможных значений.
Количество информации, которое используется для кодирования точки изображения (пиксела), называется глубиной цвета (color depth), или битовой глубиной цвета (bit depth) .
Цветовая глубина определяет, как много цветов может быть представлено пикселом (какова палитра цветов). Например, если цветовая глубина равна 1 бит, то пиксел может представлять только один из двух возможных цветов, например, белый или черный. Если цветовая глубина равна 8 бит, то количество возможных цветов равно 28 = 256. При глубине цвета 24 бит на кодирование каждого цвета выделяется по 8 бит, а полное количество цветов количество цветов превышает 16 млн. Связь между битовой глубиной цвета и количеством цветов проста:
Количество цветов = 2 битовая глубина цвета
Глубина цвета и количество цветов в палитре