Средства статистического анализа данных

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет выполнен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Другие функции.   В Microsoft Excel представлено большое число статистических, финансовых и инженерных функций. Некоторые из них являются встроенными, другие доступны только после установки пакета анализа.

Обращение к средствам анализа данных.  Средства, которые включены в пакет анализа данных, описаны ниже. Они доступны через команду Анализ данных меню Сервис. Если этой команды нет в меню, необходимо загрузить надстройку (Надстройка. Вспомогательная программа, служащая для добавления в Microsoft Office специальных команд или возможностей.) Пакет анализа.

ПоказатьДисперсионный анализ

Существует несколько видов дисперсионного анализа. Требуемый вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.

Однофакторный дисперсионный анализ. Это средство служит для анализа дисперсии по данным двух или нескольких выборок. При анализе сравнивается гипотеза о том, что каждый пример извлечен из одного и того же базового распределения вероятности с альтернативной гипотезой, предполагающей, что базовые распределения вероятности во всех выборках разные. Если имеется всего две выборки, применяют функцию ТТЕСТ. Для более двух выборок не существует обобщения функции ТТЕСТ, и вместо этого можно воспользоваться моделью однофакторного дисперсионного анализа.

Двухфакторный дисперсионный анализ с повторениями. Этот вид анализа применяется, если данные можно систематизировать по двум параметрам. Например, в опыте по измерению роста растения обрабатывали удобрениями различных производителей (например, А, В, С) и содержали при различной температуре (например, низкой и высокой). Таким образом, для каждой из 6 возможных пар условий {удобрение, температура} имеется набор наблюдений за ростом растений. С помощью этого дисперсионного анализа можно проверить следующие гипотезы.

  1. Извлечены ли данные о росте растений для различных марок удобрений из одной генеральной совокупности независимо от температуры.
  2. Извлечены ли данные о росте растений для различных уровней температуры из одной генеральной совокупности независимо от марки удобрения.
  3. Извлечены ли 6 выборок, представляющих все пары значений {удобрение, температура}, используемые для оценки влияния различных марок удобрений (шаг 1) и уровней температуры (шаг 2), из одной генеральной совокупности. Альтернативная гипотеза предполагает, что влияние конкретных пар {удобрение, температура} превышает влияние отдельно удобрения и отдельно температуры.

Определение входного диапазона для дисперсионного анализа

Двухфакторный дисперсионный анализ без повторения. Этот вид анализа полезен при классификации данных по двум измерениям, как и двухфакторный дисперсионный анализ с повторением. Однако при этом анализе предполагается только одно наблюдение для каждой пары (например, для каждой пары {удобрение, температура}) в примере выше. При этом анализе можно добавлять проверки в шаги 1 и 2 двухфакторного дисперсионного анализа с повторениями, но недостаточно данных для добавления проверок в шаг 3.

ПоказатьКорреляционный анализ

Функции КОРРЕЛ и ПИРСОН вычисляют коэффициент корреляции между двумя переменными измерений, когда для каждой переменной измерение наблюдается для каждого субъекта N (пропуск наблюдения для субъекта приводит к игнорированию субъекта в анализе). Корреляционный анализ иногда применяется, если имеется более двух переменных измерений для каждого субъекта N. В результате выдается таблица, корреляционная матрица, показывающая значение функции КОРРЕЛ (или ПИРСОН) для каждой возможной пары переменных измерений.

Коэффициент корреляции, как ковариационный анализ, характеризует область, в которой два измерения "изменяются вместе". В отличие от ковариационного анализа коэффициент масштабируется таким образом, что его значение не зависит от единиц, в которых выражены переменные двух измерений (например, если вес и высота являются двумя измерениями, значение коэффициента корреляции не изменится после перевода веса из фунтов в килограммы). Любое значение коэффициента корреляции должно находится в диапазоне от -1 до +1 включительно.

Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция).

ПоказатьКовариационный анализ

Корреляционный и ковариационный анализ можно использовать для одинаковых значений, если в выборке наблюдается N различных переменных измерений. Оба вида анализа возвращают таблицу (матрицу), показывающую коэффициент корреляции или ковариационный анализ, соответственно, для каждой пары переменных измерений. В отличие от коэффициента корреляции, масштабируемого в диапазоне от -1 до +1 включительно, соответствующие значения ковариационного анализа не масштабируются. Оба вида анализа характеризуют область, в которой две переменные "изменяются вместе".

Ковариационный анализ вычисляет значение функции КОВАР для каждой пары переменных измерений (напрямую использовать функцию КОВАР вместо ковариационного анализа имеет смысл при наличии только двух переменных измерений, то есть при N=2). Элемент по диагонали таблицы, возвращаемой после проведения ковариационного анализа в строке i, столбец i, является ковариационным анализом i-ой переменной измерения с самой собой; это всего лишь дисперсия генеральной совокупности для данной переменной, вычисляемая функцией ДИСПР.

Ковариационный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная ковариация), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная ковариация), или данные двух диапазонов никак не связаны (ковариация близка к нулю).

ПоказатьОписательная статистика

Это средство анализа служит для создания одномерного статистического отчета, содержащего информацию о центральной тенденции и изменчивости входных данных.

ПоказатьЭкспоненциальное сглаживание

Применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе.

 Примечание.   Для константы сглаживания наиболее подходящими являются значения от 0,2 до 0,3. Эти значения показывают, что ошибка текущего прогноза установлена на уровне от 20 до 30 процентов ошибки предыдущего прогноза. Более высокие значения константы ускоряют отклик, но могут привести к непредсказуемым выбросам. Низкие значения константы могут привести к большим промежуткам между предсказанными значениями.

ПоказатьДвухвыборочный F-тест для дисперсии

Двухвыборочный F-тест применяется для сравнения дисперсий двух генеральных совокупностей.

Например, можно использовать F-тест по выборкам результатов заплыва для каждой из двух команд. Это средство предоставляет результаты сравнения нулевой гипотезы о том, что эти две выборки взяты из распределения с равными дисперсиями, с гипотезой, предполагающей, что дисперсии различны в базовом распределении.

С помощью этого средства вычисляется значение f F-статистики (или F-коэффициент). Значение f, близкое к 1, показывает, что дисперсии генеральной совокупности равны. В таблице результатов, если f < 1, "P(F <= f) одностороннее” дает возможность наблюдения значения F-статистики меньшего f при равных дисперсиях генеральной совокупности и F критическом одностороннем выдает критическое значение меньше 1 для выбранного уровня значимости Alpha. Если f > 1, “P(F <= f) одностороннее” дает возможность наблюдения значения F-статистики большего f при равных дисперсиях генеральной совокупности и F критическом одностороннем выдает критическое значение большее 1 для Alpha.

ПоказатьАнализ Фурье

Предназначается для решения задач в линейных системах и анализа периодических данных на основе метода быстрого преобразования Фурье (БПФ). Эта процедура поддерживает также обратные преобразования, при этом инвертирование преобразованных данных возвращает исходные данные.

Входной и выходной диапазоны для анализа Фурье

ПоказатьГистограмма

Используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. При этом рассчитываются числа попаданий для заданного диапазона ячеек.

Например, необходимо выявить тип распределения успеваемости в группе из 20 студентов. Таблица гистограммы состоит из границ шкалы оценок и количеств студентов, уровень успеваемости которых находится между самой нижней границей и текущей границей. Наиболее часто повторяемый уровень является модой интервала данных.

ПоказатьСкользящее среднее

Скользящее среднее используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других процессов. Расчет прогнозируемых значений выполняется по следующей формуле.

Формула расчета скользящего среднего

где:

  • N — число предшествующих периодов, входящих в скользящее среднее;
  • Aj — фактическое значение в момент времени j;
  • Fj — прогнозируемое значение в момент времени j.

ПоказатьГенерация случайных чисел

Используется для заполнения диапазона случайными числами, извлеченными из одного или нескольких распределений. С помощью данной процедуры можно моделировать объекты, имеющие случайную природу, по известному распределению вероятностей.

Например, можно использовать нормальное распределение для моделирования совокупности данных по росту индивидуумов, или использовать распределение Бернулли для двух вероятных исходов, чтобы описать совокупность результатов бросания монеты.

ПоказатьРанг и персентиль

Используется для вывода таблицы, содержащей порядковый и процентный ранги для каждого значения в наборе данных. Данная процедура может быть применена для анализа относительного взаиморасположения данных в наборе. Она использует функции РАНГ и ПРОЦЕНТРАНГ. РАНГ не работает со связанными значениями. Если требуется учитывать связанные значения, можно воспользоваться функцией РАНГ вместе с коэффициентом изменения, описанным в файле справки для функции РАНГ.

ПоказатьРегрессия

Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Регрессия пропорционально распределяет меру качества по этим трем факторам на основе его спортивных результатов. Результаты регрессии впоследствии могут быть использованы для предсказания качеств нового, непроверенного атлета.

Регрессия использует функцию ЛИНЕЙН.

ПоказатьВыборка

Создает выборку из генеральной совокупности, рассматривая входной диапазон как генеральную совокупность. Если совокупность слишком велика для обработки или построения диаграммы, можно использовать представительную выборку. Кроме того, если предполагается периодичность входных данных, то можно создать выборку, содержащую значения только из отдельной части цикла.

Например, если входной диапазон содержит данные для квартальных продаж, создание выборки с периодом 4 разместит в выходном диапазоне значения продаж из одного и того же квартала.

ПоказатьT-тест

Двухвыборочный t-тест проверяет равенство средних значений генеральной совокупности по каждой выборке. Эти три средства допускают следующие условия: равные дисперсии генерального распределения, дисперсии генеральной совокупности не равны, а также представление двух выборок до и после наблюдения по одному и тому же субъекту.

Для всех трех средств, перечисленных ниже, значение t-статистики t вычисляется и отображается как "t-статистика" в выводимой таблице. В зависимости от данных, это значение t может быть отрицательным или неотрицательным. Если предположить, что средние генеральной совокупности равны, при t < 0 “P(T <= t) одностороннее” дает вероятность того, что наблюдаемое значение t-статистики будет более отрицательным, чем t. При t >=0 “P(T <= t) одностороннее” делает возможным наблюдение значения t-статистики, которое будет более положительным чем t. “t критическое одностороннее” выдает пороговое значение, так что вероятность наблюдения значения t-статистики большего или равного “t критическое одностороннее” равно Alpha.

“P(T <= t) двустороннее” дает вероятность наблюдения значения t-статистики по абсолютному значению большего чем t. “P критическое двустороннее” выдает пороговое значение, так что значение вероятности наблюдения значения t- статистики по абсолютному значению большего “P критическое двустороннее” равно Alpha.

Двухвыборочный t-тест с одинаковыми дисперсиями.   Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок. Эта форма t-теста предполагает совпадение значений дисперсии генеральных совокупностей и обычно называется гомоскедастическим t-тестом.

Двухвыборочный t-тест с разными дисперсиями.   Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок данных из разных генеральных совокупностей. Эта форма t-теста предполагает несовпадение дисперсий генеральных совокупностей и обычно называется гетероскедастическим t-тестом. Если тестируется одна и та же генеральная совокупность, используйте парный тест.

Для определения тестовой величины t используется следующая формула.

Формула расчета значения «t»

Следующая формула используется для вычисления степени свободы df. Так как результат вычисления обычно не бывает целым числом, значение df округляется до целого для получения порогового значения из t-таблицы. Функция Excel ТТЕСТ по возможности использует вычисленные значения без округления для вычисления значения ТТЕСТ с нецелым значением df. Из-за разницы подходов к определению степеней свободы, результаты функций ТТЕСТ и t-тест будут различаться в случае с разными дисперсиями.

Формула аппроксимации числа степеней свободы

Парный двухвыборочный t-тест для средних.   Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках, например, когда генеральная совокупность тестируется дважды — до и после эксперимента.

 Примечание.   Одним из результатов теста является совокупная дисперсия (совокупная мера распределения данных вокруг среднего значения), вычисляемая по следующей формуле.

Формула расчета совокупной дисперсии

ПоказатьZ-тест

Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей. При неизвестных значениях дисперсий следует использовать функцию ZТЕСТ.

При использовании функции z-тест следует внимательно просматривать результат. “P(Z <= z) одностороннее” на самом деле есть P(Z >= ABS(z)), вероятность z-значения, удаленного от 0 в том же направлении, что и наблюдаемое z-значение при одинаковых средних значениях генеральной совокупности. “P(Z <= z) двустороннее” на самом деле есть P(Z >= ABS(z) или Z <= -ABS(z)), вероятность z-значения, удаленного от 0 в том же направлении, что и наблюдаемое z-значение при одинаковых средних значениях генеральной совокупности. Двусторонний результат является односторонним результатом, умноженным на 2. Функцию z-тест можно применять для гипотезы об особом ненулевом значении разницы между двумя средними генеральных совокупностей.

Например, этот тест может использоваться для определения различия между характеристиками двух моделей автомобилей.

 
 
Применимо к:
Excel 2003