![](/_landing/img/webp/top-img2.webp)
на первый
заказ
Курсовая работа на тему: Ключевые слова: верификация, аномальность данных, критерий Титьена-Мура, критерий Смирнова-Граббса,
Купить за 350 руб.Введение
Статистика - отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных <http://ru.wikipedia.org/wiki/%D0%94%D0%В0%D0%ВD%D0%ВD%D1%8В%D0%В5>.Слово "статистика" происходит от латинского status - состояние дел. В науку термин "статистика" ввел немецкий ученый Готфрид Ахенваль <http://ru.wikipedia.org/wiki/%D0%90%D1%85%D0%В5%D0%ВD%D0%В2%D0%В0%D0%ВВ%D1%8С,_%D0%93%D0%ВЕ%D1%82%D1%84%D1%80%D0%В8%D0%В4> в 1746 году, предложив заменить название курса "Государствоведение", преподававшегося в университетах Германии, на "Статистику", положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учет вёлся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств <http://ru.wikipedia.org/w/index.php?title=%D0%А1%D1%82%D1%80%D0%В0%D1%82%D0%В5%D0%В3%D0%В8%D1%87%D0%В5%D1%81%D0%ВА%D0%В8%D0%B9_%D0%ВF%D0%ВЕ%D1%82%D0%В5%D0%ВD%D1%86%D0%В8%D0%В0%D0%ВВ&action=edit&redlink=1>, велся учет имущества <http://ru.wikipedia.org/wiki/%D0%98%D0%ВС%D1%83%D1%89%D0%В5%D1%81%D1%82%D0%В2%D0%ВЕ> граждан в Древнем Риме и т. п[2] <http://ru.wikipedia.org/wiki/%D0%А1%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0>.
Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин <http://ru.wikipedia.org/wiki/%D0%9F%D0%ВЕ%D0%ВА%D0%В0%D0%В7%D0%В0%D1%82%D0%В5%D0%ВВ%D0%B8_%D1%86%D0%В5%D0%ВD%D1%82%D1%80%D0%B0_%D1%80%D0%В0%D1%81%D0%ВF%D1%80%D0%В5%D0%В4%D0%В5%D0%ВВ%D0%В5%D0%ВD%D0%В8%D1%8F>, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.
Статистические методы - методы анализа статистических данных. Выделяют методы прикладной статистики <http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%В8%D0%ВА%D0%ВВ%D0%В0%D0%В4%D0%ВD%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0>, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.
Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.
Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов общего назначения, без учета специфики области применения;
б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;
в) применение статистических методов и моделей для статистического анализа конкретных данных.
Прикладная статистика <http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%В8%D0%ВА%D0%ВВ%D0%В0%D0%В4%D0%ВD%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0> - это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики <http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%В8%D0%ВА%D0%ВВ%D0%В0%D0%В4%D0%ВD%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0> и статистических методов анализа является теория вероятностей <http://ru.wikipedia.org/wiki/%D0%А2%D0%В5%D0%ВЕ%D1%80%D0%В8%D1%8F_%D0%В2%D0%В5%D1%80%D0%ВЕ%D1%8F%D1%82%D0%ВD%D0%ВЕ%D1%81%D1%82%D0%В5%D0%В9> и математическая статистика <http://ru.wikipedia.org/wiki/%D0%9С%D0%В0%D1%82%D0%В5%D0%ВС%D0%В0%D1%82%D0%В8%D1%87%D0%В5%D1%81%D0%ВА%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0>.
Описание вида данных и механизма их порождения - начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.
В простейшей ситуации статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.
При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат - числа, а часть - качественные (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, - электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы - образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения <http://ru.wikipedia.org/wiki/%D0%А0%D0%В0%D0%В7%D0%В1%D0%В8%D0%В5%D0%ВD%D0%В8%D0%В5>, толерантности <http://ru.wikipedia.org/wiki/%D0%9Е%D1%82%D0%ВD%D0%ВЕ%D1%88%D0%В5%D0%ВD%D0%В8%D0%B5_%D1%82%D0%ВЕ%D0%ВВ%D0%В5%D1%80%D0%В0%D0%ВD%D1%82%D0%ВD%D0%ВЕ%D1%81%D1%82%D0%В8>), множества <http://ru.wikipedia.org/wiki/%D0%9С%D0%ВD%D0%ВЕ%D0%В6%D0%В5%D1%81%D1%82%D0%В2%D0%ВЕ>, нечёткие множества <http://ru.wikipedia.org/wiki/%D0%9D%D0%В5%D1%87%D1%91%D1%82%D0%ВА%D0%ВЕ%D0%B5_%D0%ВС%D0%ВD%D0%ВЕ%D0%В6%D0%В5%D1%81%D1%82%D0%В2%D0%ВЕ> и т. д.
Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных - числовые и нечисловые. Соответственно прикладная статистика разбивается на две части - числовую статистику и нечисловую статистику.
Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.
Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т. д.
В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т.н. цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.
Применение статистических методов и моделей для статистического анализа конкретных данных тесно привязано к проблемам соответствующей области. Результаты третьего из выделенных видов научной и прикладной деятельности находятся на стыке дисциплин. Их можно рассматривать как примеры практического применения статистических методов. Но не меньше оснований относить их к соответствующей области деятельности человека.
Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Развитие вычислительной техники <http://ru.wikipedia.org/wiki/%D0%9А%D0%ВЕ%D0%ВС%D0%ВF%D1%8С%D1%8Е%D1%82%D0%В5%D1%80> во второй половине XX века <http://ru.wikipedia.org/wiki/XX_%D0%В2%D0%В5%D0%ВА> оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями <http://ru.wikipedia.org/w/index.php?title=%D0%9Е%D0%В1%D1%89%D0%В0%D1%8F_%D0%ВВ%D0%В8%D0%ВD%D0%В5%D0%В9%D0%ВD%D0%В0%D1%8F_%D0%ВС%D0%ВЕ%D0%В4%D0%В5%D0%ВВ%D1%8С&action=edit&redlink=1>. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов <http://ru.wikipedia.org/wiki/%D0%90%D0%ВВ%D0%В3%D0%ВЕ%D1%80%D0%В8%D1%82%D0%ВС> послужило причиной повышенного интереса к нелинейным моделям таким, как искусственные нейронные сети <http://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%ВА%D1%83%D1%81%D1%81%D1%82%D0%В2%D0%В5%D0%ВD%D0%ВD%D1%8В%D0%B5_%D0%ВD%D0%В5%D0%В9%D1%80%D0%ВЕ%D0%ВD%D0%ВD%D1%8В%D0%B5_%D1%81%D0%В5%D1%82%D0%В8>, и привело к разработке сложных статистических моделей, например обобщённая линейная модель <http://ru.wikipedia.org/w/index.php?title=%D0%9Е%D0%В1%D0%ВЕ%D0%В1%D1%89%D1%91%D0%ВD%D0%ВD%D0%В0%D1%8F_%D0%ВВ%D0%В8%D0%ВD%D0%В5%D0%В9%D0%ВD%D0%В0%D1%8F_%D0%ВС%D0%ВЕ%D0%В4%D0%В5%D0%ВВ%D1%8С&action=edit&redlink=1> и иерархическая модель <http://ru.wikipedia.org/w/index.php?title=%D0%98%D0%В5%D1%80%D0%В0%D1%80%D1%85%D0%В8%D1%87%D0%В5%D1%81%D0%ВА%D0%В0%D1%8F_%D0%ВС%D0%ВЕ%D0%В4%D0%В5%D0%ВВ%D1%8С&action=edit&redlink=1>.
Получили широкое распространение вычислительные методы, основанные на повторной выборке <http://ru.wikipedia.org/w/index.php?title=%D0%9F%D0%ВЕ%D0%В2%D1%82%D0%ВЕ%D1%80%D0%ВD%D0%В0%D1%8F_%D0%В2%D1%8В%D0%В1%D0%ВЕ%D1%80%D0%ВА%D0%В0&action=edit&redlink=1> как критерий перестановок <http://ru.wikipedia.org/w/index.php?title=%D0%9А%D1%80%D0%В8%D1%82%D0%В5%D1%80%D0%В8%D0%B9_%D0%ВF%D0%В5%D1%80%D0%В5%D1%81%D1%82%D0%В0%D0%ВD%D0%ВЕ%D0%В2%D0%ВЕ%D0%ВА&action=edit&redlink=1> и бутстреппинг <http://ru.wikipedia.org/wiki/%D0%91%D1%83%D1%82%D1%81%D1%82%D1%80%D0%В5%D0%ВF%D0%ВF%D0%В8%D0%ВD%D0%B3_%28%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0%29>, наряду методы как семплирование по Гиббсу <http://ru.wikipedia.org/wiki/%D0%А1%D0%В5%D0%ВС%D0%ВF%D0%ВВ%D0%В8%D1%80%D0%ВЕ%D0%В2%D0%В0%D0%ВD%D0%В8%D0%B5_%D0%ВF%D0%BE_%D0%93%D0%В8%D0%В1%D0%В1%D1%81%D1%83> позволили более доступно использовать байесовские алгоритмы. В настоящее время существует разнообразное статистическое программное обеспечение общего и специализированного назначения.
Оглавление
- Введение- Теоретические сведения 1.1 Выборки с аномальными данными
- Обнаружение аномальных данных в одномерных выборках
- Метод D-статистики
- Метод Титьена-Мура
- Графический метод диаграмма Ящик с усами Глава 2. Реализация алгоритмов верификации данных
- Реализация алгоритма D-статистики
- Реализация алгоритма Титьена-Мура
- Реализация алгоритма построения диаграммы Ящик с усами Глава 3. Описание программы
- Руководство программиста
- Входные данные
- Основные функции программы
- Выходные данные
- Руководство пользователя
- Входные данные
- Выходные данные Заключение
или зарегистрироваться
в сервисе
удобным
способом
вы получите ссылку
на скачивание
к нам за прошлый год