Chapter 7. Средства анализа

7.1. Средства анализа данных

Набор средств для анализа данных содержит различные методы статистического анализа данных, генерации случайных чисел и наборов данных. При выборе пункта "Анализ данных..." в меню "Инструменты" вам будет предложен список доступных методов. Выберите один из них и нажмите кнопку "OK". Методы описаны ниже.

Все методы имеют одинаковые параметры вывода. Результат может быть выведен в новой таблице, в новой рабочей книге или в той же таблице в заданном диапазоне ячеек. Чтобы выбрать способ вывода достаточно выбрать одну из переключаемых (radio) кнопок в группе "Параметры вывода:". Обратите внимание, что в случае если вывод производится в слишком маленький диапазон ячеек, то некоторые или даже все результаты могут быть не выведены.

7.1.1. Корреляционный анализ

Методы корреляционного анализа позволяют вычислять коэффициенты корреляции заданных переменных. Эти методы можно использовать для одновременного вычисления любого числа коэффициентов корреляции. Переменные, для которых вычисляется корреляция указываются в поле "Входной диапазон:", который может быть сгруппирован либо по столбцам либо по строкам.

Пусть, например, вы хотите вычислить корреляцию между двумя переменными, значения одной из которых находятся в столбце A, а другой - в столбце B. Пусть обе переменные имеют 10 значений в строках от первой до десятой. В таком случае вам надо проделать следующие действия. Во-первых, вы должны ввести A1:B10 в поле Входной диапазон:". Во-вторых, выбрать "Столбцы" в группе помеченной "Сгруппировать по:". Затем указать параметры вывода, как описано выше, и нажать кнопку "OK".

Если вы используете метки, например названия переменных, в первой строке заданного диапазона, вы должны поставить отметку в поле "Метки". Это исключит первую строку (или первый столбец, если данные сгруппированы по строкам) входного диапазона из анализа.

Результаты печатаются в таблице, в которой каждый столбец и строка помечены в соответствии с названиями переменных. Если названия не заданы во входном диапазоне, Gnumeric сгенерирует их самостоятельно. Например, корреляция в предыдущем примере, т.е. корреляция между переменными в столбцах A и B, может быть прочитана во втором столбце и третьей строке таблицы результатов (под столбцом отмеченным ``Столбец 1'' в строке отмеченной ``Столбец 2'').

7.1.2. Ковариационный анализ

Методы ковариационного анализа позволяют вычислять ковариации заданных переменных. Эти методы можно использовать для одновременного вычисления любого числа ковариаций. Переменные, для которых вычисляется ковариация указываются в поле "Входной диапазон:", который может быть сгруппирован либо по столбцам либо по строкам.

Например, если вы хотите вычислить ковариацию между двумя переменными, значения которых заданы в столбцах A и B по 10 значений в строках от первой до десятой. То в этом случае вам надо проделать следующие действия. Во-первых, вы должны ввести A1:B10 в поле Входной диапазон:". Во-вторых, выбрать "Столбцы" в группе помеченной "Сгруппировать по:". Затем указать параметры вывода, как описано выше, и нажать кнопку "OK".

Если вы используете метки, например названия переменных, в первой строке заданного диапазона, вы должны поставить отметку в поле "Метки". Это исключит первую строку (или первый столбец, если данные сгруппированы по строкам) входного диапазона из анализа.

Результаты печатаются в таблице, в которой каждый столбец и строка помечены в соответствии с названиями переменных. Если названия не заданы во входном диапазоне, Gnumeric сгенерирует их самостоятельно. Например, ковариация в предыдущем примере, т.е. ковариация между переменными в столбцах A и B, может быть прочитана во втором столбце и третьей строке таблицы результатов (под столбцом отмеченным ``Столбец 1'' в строке отмеченной ``Столбец 2'').

7.1.3. Методы описательной статистики

Методы описательной статистики позволяют определить некоторые статистические данные для заданных выборок. Эти методы можно использовать для одновременного вычисления общих статистических значений и их доверительных уровней для любого числа выборок. Выборки указываются в поле "Входной диапазон:", который может быть сгруппирован либо по столбцам либо по строкам.

Указанные методы могут выдавать четыре различных вида статистических данных. Если выбран пункт "Суммарная статистика" будут выдаваться значения среднего, стандартной ошибки, медианы, моды, стандартного отклонения, дисперсии, kurtosis, коэффициента асимметрии, размаха, минимума, максимума, суммы значений и об[`ма для каждой заданной выборки.

Если выбран пункт ``Доверительные интервалы значений'', будут вычислены доверительные интервалы значений для каждой выборки. Вы должны задать доверительную вероятность в поле ввода. По умолчанию вычисляются доверительные интервалы для доверительной вероятности 95%.

Если выбран пункт ``K-ый наибольший:'', то для каждой выборки будет найдено k-ое наибольшее значение. Вам надо указать значение k в поле ввода.

Если выбран пункт ``K-ый наименьший:'', то для каждой выборки будет найдено k-ое наименьшее значение. Вам надо указать значение k в поле ввода.

Если вы используете метки, например названия выборок, в первой строке заданного диапазона, вы должны поставить отметку в поле "Метки". Это исключит первую строку (или первый столбец, если данные сгруппированы по строкам) входного диапазона из анализа. Кроме того, названия выборок будут напечатаны в таблице вывода.

7.1.4. F-критерий: сравнение двух выборок

Используйте F-критерий для анализа значимости различия двух выборок. Значения случайных величин первой выборки указываются в поле ``Диапазон выборки 1:''. Соответственно, значения случайных величие второй выборки задаются в поле ``Диапазон выборки 2:''. Поле ``Альфа:'' указывает критерий значимости, который по умолчанию равен 95%.

Если вы указываете значение диапазона вывода, то он должен содержать не менее трех столбцов и восьми строк.

Результаты выдаются в виде таблицы. Вычисляются и выдаются среднее, дисперсия, число наблюдений и степень свободы для обеих выборок. Также вычисляется F-value, односторонняя вероятность для F-value, и F Critical value для одностороннего критерия. Односторонняя вероятность для F-value (строка ``P(F<=f) one-tail'') описывает риск принятия ошибки первого рода в одностороннем критерии.

7.1.5. Методы генерации случайных чисел

Инструменты генерации случайных чисел позволяют получать случайные числа с различными распределениями вероятности.

Чтобы использовать это средство, во-первых, укажите число переменных в поле ввода "Число переменных:". Оно определяет какое количество столбцов случайных значений будет создано. Во-вторых, укажите количество случайных чисел. Оно определяет какое количество строк случайных значений будет создано. В-третьих, укажите случайное распределение выбрав одну из строк в списке случайных распределений. Поддерживаются следующие случайные распределения: дискретное, нормальное, Бернулли и равномерное. Затем укажите параметры распределения.

7.1.5.1. Случайные распределения

Для дискретного случайного распределения укажите входной диапазон дла значений и вероятностей в поле ввода ``Входной диапазон значений и вероятностей:''. Он должен быть таблицей состоящей из двух столбцов и любого числа строк. Первый столбец указывает дискретные случайные величины, а второй - вероятности для них. Дискретные случайные значения не обязательно числа, это могут быть также и строки. Сумма вероятностей во втором столбце должна равняться единице. Например, если вы имеете величины A, B, C, и D в A1:A4 и значения 0.1, 0.4, 0.2, и 0.3 в B1:B4, вы можете указать в качестве входного диапазона значений и вероятностей A1:B4.

Для нормального случайного распределения укажите медиану и стандартное отклонение. Значения по умолчанию: 0 для медианы и 1 для стандартного отклонения.

Для случайного распределения Бернулли укажите значение "вероятности успеха p". Распределение Бернулли имеет два случайных значения: 0 и 1, и "p" указывает вероятность значения 1. Значения случайной переменной, которая имеет распределение Бернулли есть E(X) = 1(p) + 0(1-p) = p, а дисперсия var(X) = p(1-p).

Для равномерного случайного распределения, укажите диапазон случайных переменных заполнив поля ``Между:'' и ``И:''. Их значения по умолчанию 0 и 1, что задает случайные числа между 0 и 1.

7.1.7. z-критерий: средние двух выборок

Используйте z-критерий для определения значимости различия средних значений выборок. Значения случайных величин первой выборки указываются в поле ``Диапазон выборки 1:''. Соответственно, значения случайных величин второй выборки задаются в поле ``Диапазон выборки 2:''. Вы должны также указать дисперсии обеих переменных в полях ввода ``Дисперсия выборки 1 (известна):'' и ``Дисперсия выборки 2 (известна):''.

Если вы хотите проверить больше ли различие значений чем заданная величина, заполните также поле ``Предполагаемое значение различия:''. Поле ``Альфа:'' указывает критерий значимости, который по умолчанию равен 95%.

Если вы указываете значение диапазона вывода, то он должен содержать не менее трех столбцов и восьми строк.

Результаты выдаются в виде таблицы. Вычисляются и выдаются среднее, известная дисперсия и число наблюдений для обеих переменных. Также вычисляется z-value, одностороння и двусторонняя вероятность для z-value, и z Critical value для одностороннего и двустороннего критерия. Односторонняя вероятность для z-value (строка ``P(Z<=z) one-tail'') описывает риск принятия ошибки первого рода в одностороннем критерии.