![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Главная
Рефераты по биологии Рефераты по экономике Рефераты по москвоведению Рефераты по экологии Краткое содержание произведений Рефераты по физкультуре и спорту Топики по английскому языку Рефераты по математике Рефераты по музыке Остальные рефераты Рефераты по авиации и космонавтике Рефераты по административному праву Рефераты по безопасности жизнедеятельности Рефераты по арбитражному процессу Рефераты по архитектуре Рефераты по астрономии Рефераты по банковскому делу Рефераты по биржевому делу Рефераты по ботанике и сельскому хозяйству Рефераты по бухгалтерскому учету и аудиту Рефераты по валютным отношениям Рефераты по ветеринарии Рефераты для военной кафедры Рефераты по географии Рефераты по геодезии Рефераты по геологии |
Курсовая работа: Комплексная статистическая обработка экспериментальных данныхКурсовая работа: Комплексная статистическая обработка экспериментальных данныхМинистерство образования и науки Украины Пояснительная записка к курсовой работе по дисциплине Статистика Комплексная статистическая обработка экспериментальных данных Реферат Объектом исследования данной работы является комплексный анализ сгенерированных выборок случайных величин и подбор их закона распределения. Целью работы является изучение методов и приемов анализа статистической информации, получение навыков и опыта работы в пакете STATISTICA. В данной работе применялись широко используемые статистические методы обработки и анализа данных. Результатом работы является освоение методов обработки данных статистического наблюдения, их анализа с помощью обобщающих показателей, установление теоретических законов распределения случайных величин и доказательство адекватности этих законов. Данную курсовую работу можно использовать в качестве наглядного пособия по обработке статистических данных для различных учебных целей и задач. Задание на курсовой проект По специально сгенерированному имитатору получить последовательности случайных чисел двух типов: а) где
б) Для исследований предусмотреть следующие объёмы измерений для каждой из случайных величин: 100, 200, …, 1000 (объёмы выборок). Произвести статистический анализ каждой из полученных выборок для двух случайных величин в следующей последовательности: а) найти размах варьирования; б) определить целесообразное количество групп по формуле Стерджесса, построить группировку и интервальный ряд; в) привести графическое изображение полигона частот, гистограммы, кумуляты и эмпирической функции распределения; г) вычислить и
проанализировать точечные оценки д) построить
доверительные интервалы для е) вычислить и проанализировать медиану, коэффициент вариации, коэффициент асимметрии и эксцесс, моду; проанализировать зависимости числовых характеристик от объема выборки; ж) оценить однородность каждой из выборок, используя: 1) коэффициент вариации; 2) метод з) определить, близки ли к нормальному распределению полученные эмпирические распределения на основе: 1) анализа числовых характеристик положения и вариации; 2) на основе критерия согласия Пирсона; и) по виду гистограмм выдвинуть гипотезу о предполагаемых законах распределений исследуемых случайных величин, определить оценки параметров предполагаемых распределений (метод моментов и максимального правдоподобия) и проверить гипотезу о законе распределения по критерию Пирсона. Введение С давних пор человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов, а также связанных с ними вычислений. Люди получали разносторонние, хотя и различающиеся полнотой сведения на различных этапах общественного развития. Данные учитывались повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне – при определении направления экономической и социальной политики, характера внешнеполитической деятельности. Выполняя самые разнообразные функции сбора, систематизации и анализа сведений, характеризующих экономическое и социальное развитие общества, статистика всегда играла роль главного поставщика факторов для управленческих, научно-исследовательских и прикладных практических нужд различного рода структур, организаций и населения. Роль статистики в нашей жизни настолько значительна, что люди, часто не задумываясь и не осознавая, постоянно используют элементы статистической методологии в повседневной практике. Применяя статистические методы в экономических исследованиях, можно осуществлять стратегическое планирование, а также анализировать и прогнозировать рыночную конъюнктуру, уменьшая степень неопределенности в отношении внешнего окружения. С увеличением объемов информации, становится актуальным вопрос ее компьютерной обработки. Получение навыков обработки и анализа экспериментальных данных с помощью компьютера, например, в пакете STATISTICA дает возможность получить полную информацию об исследуемом объекте и найти оптимальное решение конкретной поставленной задачи. 1. Генерация исходных данных В данной курсовой работе вместо статистического наблюдения используются случайные величины, сгенерированные по следующим формулам: 1) непрерывная случайная величина X, определяемая по формуле 1.1;
2) непрерывная случайная величина У, определяемая по формуле 1.2.
где
1) Для случайной величины
2) Для случайной величины В результате были получены выборки, объемом 100, 200…1000 значений для каждой из случайных величин. 2. Первичная обработка результатов наблюдения 2.1 Построение вариационного ряда Вариационный ряд - упорядоченные по возрастанию значения признака. Построение вариационного ряда в пакете STATISTICA производилось следующим образом: в модуле Basic Statistics and Tables: Analysis → Frequency tables → кнопка Variables для выбора переменной → отметили All distinct values → ОК. Размах варьирования
Построение размаха варьирования в пакете STATISTICA производилось следующим образом: в модуле Basic Statistics and Tables: Analysis → Descriptive statistics → Variables (выбрать переменную) → нажали Box & whisker plot for all variables → выбрали Median / Quart. / Range → ОК. Значения размаха варьирования для заданных выборок в таблице 2.1. Таблица 2.1 – Размах варьирования для заданных выборок
Случайная величина 2.2 Группировка статистических данных Число групп определяется по формуле Стерджесса (2.2):
где
После определения числа групп следует определить интервалы группировки - значения варьирующего признака, лежащие в определенных границах. Величина равного интервала определяется по формуле (2.3):
![]() где
Ниже приведены значения числа групп интервалов для всех выборок: При При При При При При При При При При Построение интервального ряда в пакете STATISTICA производилось следующим образом: а) Analysis→Frequency tables→Variables(выбрали переменную); б) установили количество интервалов в “No. of exact intervals”, посчитанных по формуле Стерджесса; в) установили флажки в Display options: - Cumulative frequencies – накопленные частоты; - Percentages - частости; - Cumulative percentages – накопленные частости. Интервальные ряды по каждой выборке для случайных величин X и Y приведены в таблицах 2.2-2.7 и Д.1-Д.14. Таблица 2.2 - Интервальный ряд СВ
Таблица 2.3 -
Интервальный ряд СВ
Таблица 2.4 -
Интервальный ряд СВ
Таблица 2.5 -
Интервальный ряд СВ
Таблица 2.6 -
Интервальный ряд СВ
Таблица 2.7 -
Интервальный ряд СВ
2.3 Графическое изображение рядов распределения Графическое изображение интервальных рядов включает построения полигона частот, гистограммы и кумуляты. В пакете STATISTICA построение полигона происходит следующим образом: а) Analysis → Frequency tables → Variables (выбрать переменную); б) установить количество интервалов в “No. of exact intervals”; в) Frequency tables → Count; г) нажать правую кнопку мыши и из выпадающего списка выбрать “Custom Graphs”; д) 2D Graphs → Graph Type → Line Plot. [1] Построение кумуляты: а)Analysis → Frequency tables → Variables (выбрать переменную); б) установить количество интервалов в “No. of exact intervals”; в) Frequency tables → Cumul. Count; г) нажать правую кнопку мыши и выбрать “Custom Graphs”; д) 2D Graphs → Graph Type →
Line Plot (Bar Построение гистограммы происходит следующим образом: а) Analysis → Frequency tables → Variables (выбрать переменную); б) установить количество интервалов в “No. of exact intervals”; в) Frequency tables → Percent; г) нажать правую кнопку мыши и из выпадающего списка выбрать “Custom Graphs”; д) 2D Graphs → Graph Type →
Bar 2.4 Точечные оценки средних показателей Точечная оценка математического ожидания по вариационному ряду вычисляется по формуле (2.4):
![]() где Оценка дисперсии по вариационному ряду вычисляется по формуле (2.5).
Вычисление оценки математического ожидания по интервальному вариационному ряду осуществляется по формуле (2.6):
![]() где
Оценка дисперсии для интервального ряда вычисляется по формуле (2.7):
![]() Вычисление точечных оценок по вариационному ряду в пакете STATISTICA: Analysis → Descriptive statistics → Categorization → Number of intervals (установить количество интервалов) → More statistics → Mean, Variance. [2] Значения точечных оценок математического ожидания и дисперсии для простого и интервального рядов приведены в таблице 2.8. Таблица 2.8 – Оценки математического ожидания и дисперсии
Из приведенных данных видно, что полученные оценки математического ожидания и дисперсии по вариационному (простому) и интервальному рядам имеют близкие значения. Причем, чем больше объем выборки, тем более точный результат. От номера эксперимента, то есть от количества испытаний величины точечной оценки не зависят. Это видно на рисунках 2.25 – 2.32. Рисунок 2.25 -
Зависимость Рисунок 2.26 -
Зависимость Рисунок 2.27 -
Зависимость Рисунок 2.28 -
Зависимость Рисунок 2.29 -
Зависимость Рисунок 2.30 -
Зависимость Рисунок 2.31 -
Зависимость Рисунок 2.32 -
Зависимость В таблице 2.9 приведены
оценки математического ожидания и дисперсии, вычисленные для 10 выборок по 1000
элементов в каждой для случайной величины Таблица 2.9 – Точечные
оценки выборок из 1000 элементов для
2.5 Доверительные интервалы Для того чтобы оценить достоверность оценок, вводят понятие доверительный интервал и доверительная вероятность.
где
![]() где
![]()
Доверительный интервал для дисперсии определяется по формуле (2.11).
![]() где
Оценка стандартного отклонения в зависимости от закона распределения случайной величины имеет различное значение. Для нормального закона распределения эта величина будет равна: Для равномерного: Ниже в таблицах 2.10-2.21 приведены доверительные интервалы математического ожидания исследуемых выборок. -точный метод Таблица 2.10 -
Доверительные интервалы для СВ
-грубый метод Таблица 2.11 –
Доверительные интервалы для СВ
-точный метод Таблица 2.12 -
Доверительные интервалы для СВ
-грубый метод Таблица 2.13 –
Доверительные интервалы для СВ
-точный метод Таблица 2.14 -
Доверительные интервалы для СВ
-грубый метод Таблица 2.15 –
Доверительные интервалы для СВ
-точный метод Таблица 2.16 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.17 –
Доверительные интервалы для СВ
-точный метод Таблица 2.18 – Доверительные
интервалы для СВ
-грубый метод Таблица 2.19 –
Доверительные интервалы для СВ
-точный метод Таблица 2.20 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.21 –
Доверительные интервалы для СВ
Длины доверительных интервалов для математического ожидания при различных уровнях доверительной вероятности приведены в таблице 2.22. Таблица 2.22 – Длины доверительных интервалов
В таблицах 2.23 – 2.34 указаны доверительные интервалы дисперсии исследуемых выборок. -точный метод Таблица 2.23 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.24 –
Доверительные интервалы для СВ
-точный метод Таблица 2.25 – Доверительные
интервалы для СВ
-грубый метод Таблица 2.26 –
Доверительные интервалы для СВ
-точный метод Таблица 2.27 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.28 –
Доверительные интервалы для СВ
-точный метод Таблица 2.29 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.30 –
Доверительные интервалы для СВ
-точный метод Таблица 2.31 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.32 –
Доверительные интервалы для СВ
-точный метод Таблица 2.33 –
Доверительные интервалы для СВ
-грубый метод Таблица 2.34 –
Доверительные интервалы для СВ
В таблице 2.35 показано изменение длины доверительного интервала для дисперсии в зависимости от объема выборки и величины доверительной вероятности. Таблица 2.35 – Длины доверительных интервалов
Анализируя полученные данные можно заметить, что при увеличении уровня доверительной вероятности увеличивается величина доверительного интервала, а при увеличении объема выборки она уменьшается. Это справедливо как для доверительных интервалов математического ожидания, так и для дисперсии. [3] 2.6 Другие точечные оценки интервального ряда (мода, медиана, коэффициент вариации, коэффициент асимметрии, эксцесс) Модой в вариационном ряду является наиболее часто встречающееся значение признака. Мода по интервальному ряду вычисляется по формуле (2.13):
где
Медиана – серединное наблюдение в выборке длиной n. При нечетном n медиана в вариационном ряду есть
значение ряда с номером При четном n медиана есть полусумма значений с
номерами
![]() где
Коэффициент вариации вычисляется по формуле (2.15):
![]() На основе момента третьего порядка (смотри формулу 2.16) выборочный коэффициент асимметрии находится по формуле (2.17):
![]()
![]() С помощью момента четвертого порядка характеризуют свойство рядов распределения, называемое эксцессом. Показатель эксцесса для ранжированного ряда находится по формуле (2.18).
![]() Вычисление точечных оценок по вариационному ряду в пакете STATISTICA происходит следующим образом: Analysis → Descriptive statistics: а) Categorization → Number of intervals (установить количество интервалов); б) нажать кнопку More statistics → откроется окно Statistics, где можно выбрать следующие показатели: - Mean – выборочное среднее; - Median – медиана; - Standard Deviation – стандартное отклонение среднего значения; - Variance – выборочная дисперсия; - Skewness – выборочный коэффициент асимметрии; - Kurtosis – выборочный коэффициент эксцесса; в) выбрать необходимые параметры и нажать ОК. Значения медианы, коэффициента вариации, коэффициента ассиметрии и эксцесса приведены в таблице 2.36. Таблица 2.36 - Медиана, коэффициент вариации, коэффициент ассиметрии и эксцесс
Анализируя полученные данные, можно сказать, что обе случайные величины имеют практически симметричное распределение, т. к. коэффициенты асимметрии всех выборок близки к нулю, Случайная величина 2.7 Оценка однородности выборки Любая исследуемая совокупность содержит как значения признаков, сложившихся под влиянием факторов, непосредственно характерных для анализируемой совокупности, так и значения признаков, полученных под воздействием иных факторов, не характерных для основной совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному). [4] Из таблицы 2.36 видно, что однородными можно считать выборки
случайной величины Однородность выборки
можно проверить, также используя метод Ирвина, основанный на определении
![]() где
Если расчетное значение превысит уровень критического, то оно признается аномальным. Произведя соответствующие
расчёты в Microsoft Excel мы убедились, что ни одно из расчётных значений не
превышает уровень критического значения. Это значит, что все выборки случайных
величин 2.8 Проверка нормальности эмпирического распределения 2.8.1 Проверка нормальности эмпирического распределения на основе анализа точечных оценок числовых характеристик Если среднее арифметическое, медиана и мода имеют близкие значения, это указывает на вероятное соответствие изучаемого распределения нормальному закону. Для нормального распределения коэффициент асимметрии и эксцесса равны нулю, а для равномерного эксцесс равен -1,2. В таблице 2.37 приведены данные для проверки вышеуказанных утверждений. Таблица 2.37 – Анализ числовых характеристик положения и вариации
Анализируя полученные
данные, можно сделать вывод о том что значения медианы и среднего
арифметического для выборок случайной величины 2.9 Определение закона распределения случайных величин 2.9.1 Определение закона распределения случайной величины по виду гистограммы По виду гистограмм, приведенных на рисунках 2.19-2.21 делаем
предположение о том, что случайная величина 2.9.2 Определение оценок параметров распределений Метод моментов Метод моментов заключается в том, что определенное количество статистических начальных и (или) центральных моментов приравнивается к соответствующим теоретическим моментам распределения случайной величины. Уравнения метода показано в формуле (2.23).
![]()
![]() ![]()
![]()
![]()
![]() Из системы (2.23) находятся параметры распределения. Число уравнений в системе зависит от количества неизвестных параметров. Для нормального и равномерного законов, система должна содержать два уравнения, для экспоненциального – одно. Для равномерного закона распределения система (2.23) принимает вид (2.28):
![]() ![]() Из системы 2.28 нужно
найти параметры В таблице 2.38 приведены значения этих параметров, найденные методом моментов и методом максимального правдоподобия. Таблица 2.38 – Значения
параметров
Из таблицы видно, что
значения параметров, найденные разными методами, практически совпадают. Это
подтверждает, что случайная величина Метод максимального правдоподобия По методу максимального правдоподобия, строится так называемая функция правдоподобия (2.29):
![]() где
Необходимо найти такие
значения вектора
![]() Оценки параметров, получаемые из этой системы, называют оценками максимального правдоподобия. Для равномерного закона функция правдоподобия будет иметь вид (2.31)
![]() где Данная функция будет достигать максимума при условии (2.32): Судя по полученным
оценкам параметров распределения, можно сделать вывод, что наше предположение
было верно изначально и случайная величина 2.10 Проверка нормальности эмпирического распределения на основе критериев согласия Пирсона Для проверки гипотезы о соответствии эмпирического распределения нормальному закону распределения необходимо ввести нулевую гипотезу, которая будет проверяться по критерию Пирсона.
В качестве меры
расхождения для критерия
![]() где
Общая схема применения
критерия 1. Определение меры расхождения по формуле 2.20; 2.
Задание уровня
значимости 3.
Определение числа
степеней свободы
где
предполагаемого закона распределения 4. Область принятия основной гипотезы:
Выполнение в пакете STATISTICA. В модуле Nonparametric Statistics (непараметрическая статистика), Distribution Fitting. В поле Continuous Distributions представлены непрерывные распределения, а в поле Discrete Distributions - дискретные распределения (закон распределения выбираем дважды щелкнув на его название мышью) ® Variable (выбрать переменную) ® в поле Plot distribution выбираем Frequency distribution (частоты распределения) ® в поле Kolmogorov-Smirnov test ставим No → установим необходимые параметры числа интервалов, верхней и нижней границ, среднего и дисперсии → Graph. Результаты проверки соответствия гипотезы приведены в таблице 2.39 и показаны на рисунках 2.41-2.46 Таблица 2.39 – Значения
На основе полученных
данных можно сделать вывод, что случайная величина Анализируя получившиеся
графики, делаем вывод, что случайная величина Заключение В ходе курсовой работы были освоены методы обработки данных статистического наблюдения, их анализа с помощью обобщающих показателей, установление теоретических законов распределения случайных величин и доказательство адекватности этих законов. Также в результате выполнения данной работы мы приобрели навыки и опыт работы в пакете STATISTICА. В ходе анализа данных, были сделаны выводы, что основной частью статистического анализа является выявление закона распределения случайной величины, а также, выявление основных факторов, оказывающих влияние на качество оцениваемых параметров закона распределения (длина выборки, её однородность, величина доверительной вероятности). Был произведен статистический анализ каждой из полученных в ходе генерации выборок данных двух случайных величин, был найден закон их распределения. Рассмотрены основные числовые характеристики положения и вариации нормального и равномерного закона. Полученный опыт работы со статистическими данными и методами их обработки на компьютере позволит гораздо быстрее и эффективнее применять эти методы обработки информации в повседневной жизни, в частности, для экономических исследований и разработок. Перечень ссылок случайный величина интервальный выборка 1. Теория статистики: Учебник / Под ред. проф. Р. А. Шмойловой. - 3-е изд., перераб. -М.: Финансы и статистика, 2000. - 560 с. 2. Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник / Под ред. чл.-корр. РАН И. И. Елисеевой. – М.: Финансы и статистика, 1998. – 365 с.: ил. 3. Смирнов Н.В., Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. – М.: Наука, 1969. – 509 с. 4. Гурман В.Е. Теория вероятностей и математическая статистика. Учеб. пособие для втузов. Изд. 5-е перераб. и доп. – М.: Высш. школа, 1977. – 397 с. 5. Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.: Unity, 2000. – 544 с. 6. Вентцель Е.С. Теория вероятностей. – М.: Наука, 1969. – 576 с. 7. Боровиков В. STATISTICA: искусство анализа данных на компьютере. Для профессионалов. - СПб.: Питер, 2001. - 656 с. Приложение А Генерация исходных данных
СВ Dim ADS As Spreadsheet Dim STBReport As Report Dim SUM As Double Dim LOOP_CASE As Double Dim I As Double Sub Main Set ADS = ActiveDataSet Set STBReport = Reports.New For LOOP_CASE = 1 To NCASES(ADS) For I = 1 To n SUM = 0 For L = 1 To 300 SUM = SUM + Uniform(1) Next L ADS.Value (LOOP_CASE, 1) = N * ((1 / 15) * SUM - 9) Next I NEXT_CASE: Next LOOP_CASE End Sub Приложение Б Интервальные ряды для СВ Таблица Д.1 - Интервальный ряд СВ
Таблица Д.2 - Интервальный ряд СВ
Таблица Д.3 - Интервальный ряд СВ
Таблица Д.4 - Интервальный ряд СВ
Таблица Д.5 - Интервальный ряд СВ
Таблица Д.6 - Интервальный ряд СВ
Таблица Д.7 - Интервальный ряд СВ
Таблица Д.8 - Интервальный ряд СВ
Таблица Д.9 - Интервальный ряд СВ
Таблица Д.10 - Интервальный ряд СВ
Таблица Д.11 - Интервальный ряд СВ
Таблица Д.12 - Интервальный ряд СВ
Таблица Д.13 - Интервальный ряд СВ
Таблица Д.14 - Интервальный ряд СВ
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|