Нужна индивидуальная работа?

Подберем литературу

Поможем справиться с любым заданием

Подготовим презентацию и речь

Оформим готовую работу

Узнать стоимость своей работы

Дарим 200 руб.
на первый
заказ

Курсовая работа

Информатика

Курсовая работа на тему: Ключевые слова: верификация, аномальность данных, критерий Титьена-Мура, критерий Смирнова-Граббса,

Купить за 350 руб.

Страниц

Размер файла

1.35 МБ

Просмотров

Покупок

Введение

Статистика - отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных <http://ru.wikipedia.org/wiki/%D0%94%D0%В0%D0%ВD%D0%ВD%D1%8В%D0%В5>.

Слово "статистика" происходит от латинского status - состояние дел. В науку термин "статистика" ввел немецкий ученый Готфрид Ахенваль <http://ru.wikipedia.org/wiki/%D0%90%D1%85%D0%В5%D0%ВD%D0%В2%D0%В0%D0%ВВ%D1%8С,_%D0%93%D0%ВЕ%D1%82%D1%84%D1%80%D0%В8%D0%В4> в 1746 году, предложив заменить название курса "Государствоведение", преподававшегося в университетах Германии, на "Статистику", положив тем самым начало развитию статистики как науки и учебной дисциплины. Несмотря на это, статистический учет вёлся намного раньше: проводились переписи населения в Древнем Китае, осуществлялось сравнение военного потенциала государств <http://ru.wikipedia.org/w/index.php?title=%D0%А1%D1%82%D1%80%D0%В0%D1%82%D0%В5%D0%В3%D0%В8%D1%87%D0%В5%D1%81%D0%ВА%D0%В8%D0%B9_%D0%ВF%D0%ВЕ%D1%82%D0%В5%D0%ВD%D1%86%D0%В8%D0%В0%D0%ВВ&action=edit&redlink=1>, велся учет имущества <http://ru.wikipedia.org/wiki/%D0%98%D0%ВС%D1%83%D1%89%D0%В5%D1%81%D1%82%D0%В2%D0%ВЕ> граждан в Древнем Риме и т. п[2] <http://ru.wikipedia.org/wiki/%D0%А1%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0>.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин <http://ru.wikipedia.org/wiki/%D0%9F%D0%ВЕ%D0%ВА%D0%В0%D0%В7%D0%В0%D1%82%D0%В5%D0%ВВ%D0%B8_%D1%86%D0%В5%D0%ВD%D1%82%D1%80%D0%B0_%D1%80%D0%В0%D1%81%D0%ВF%D1%80%D0%В5%D0%В4%D0%В5%D0%ВВ%D0%В5%D0%ВD%D0%В8%D1%8F>, индексов, балансовый метод, метод графических изображений и другие методы анализа статистических данных.

Статистические методы - методы анализа статистических данных. Выделяют методы прикладной статистики <http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%В8%D0%ВА%D0%ВВ%D0%В0%D0%В4%D0%ВD%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0>, которые могут применяться во всех областях научных исследований и любых отраслях народного хозяйства, и другие статистические методы, применимость которых ограничена той или иной сферой. Имеются в виду такие методы, как статистический приемочный контроль, статистическое регулирование технологических процессов, надежность и испытания, планирование экспериментов.

Статистические методы анализа данных применяются практически во всех областях деятельности человека. Их используют всегда, когда необходимо получить и обосновать какие-либо суждения о группе (объектов или субъектов) с некоторой внутренней неоднородностью.

Целесообразно выделить три вида научной и прикладной деятельности в области статистических методов анализа данных (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):

а) разработка и исследование методов общего назначения, без учета специфики области применения;

б) разработка и исследование статистических моделей реальных явлений и процессов в соответствии с потребностями той или иной области деятельности;

в) применение статистических методов и моделей для статистического анализа конкретных данных.

Прикладная статистика <http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%В8%D0%ВА%D0%ВВ%D0%В0%D0%В4%D0%ВD%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0> - это наука о том, как обрабатывать данные произвольной природы. Математической основой прикладной статистики <http://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%В8%D0%ВА%D0%ВВ%D0%В0%D0%В4%D0%ВD%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0> и статистических методов анализа является теория вероятностей <http://ru.wikipedia.org/wiki/%D0%А2%D0%В5%D0%ВЕ%D1%80%D0%В8%D1%8F_%D0%В2%D0%В5%D1%80%D0%ВЕ%D1%8F%D1%82%D0%ВD%D0%ВЕ%D1%81%D1%82%D0%В5%D0%В9> и математическая статистика <http://ru.wikipedia.org/wiki/%D0%9С%D0%В0%D1%82%D0%В5%D0%ВС%D0%В0%D1%82%D0%В8%D1%87%D0%В5%D1%81%D0%ВА%D0%В0%D1%8F_%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0>.

Описание вида данных и механизма их порождения - начало любого статистического исследования. Для описания данных применяют как детерминированные, так и вероятностные методы. С помощью детерминированных методов можно проанализировать только те данные, которые имеются в распоряжении исследователя. Например, с их помощью получены таблицы, рассчитанные органами официальной государственной статистики на основе представленных предприятиями и организациями статистических отчетов. Перенести полученные результаты на более широкую совокупность, использовать их для предсказания и управления можно лишь на основе вероятностно-статистического моделирования. Поэтому в математическую статистику часто включают лишь методы, опирающиеся на теорию вероятностей.

В простейшей ситуации статистические данные - это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат - числа, а часть - качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, то есть одним измерением, может быть и функция в целом. Например, описывающая динамику показателя, то есть его изменение во времени, - электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и иные математические объекты. Например, бинарные отношения. Так, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы - образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения <http://ru.wikipedia.org/wiki/%D0%А0%D0%В0%D0%В7%D0%В1%D0%В8%D0%В5%D0%ВD%D0%В8%D0%В5>, толерантности <http://ru.wikipedia.org/wiki/%D0%9Е%D1%82%D0%ВD%D0%ВЕ%D1%88%D0%В5%D0%ВD%D0%В8%D0%B5_%D1%82%D0%ВЕ%D0%ВВ%D0%В5%D1%80%D0%В0%D0%ВD%D1%82%D0%ВD%D0%ВЕ%D1%81%D1%82%D0%В8>), множества <http://ru.wikipedia.org/wiki/%D0%9С%D0%ВD%D0%ВЕ%D0%В6%D0%В5%D1%81%D1%82%D0%В2%D0%ВЕ>, нечёткие множества <http://ru.wikipedia.org/wiki/%D0%9D%D0%В5%D1%87%D1%91%D1%82%D0%ВА%D0%ВЕ%D0%B5_%D0%ВС%D0%ВD%D0%ВЕ%D0%В6%D0%В5%D1%81%D1%82%D0%В2%D0%ВЕ> и т. д.

Итак, математическая природа элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных - числовые и нечисловые. Соответственно прикладная статистика разбивается на две части - числовую статистику и нечисловую статистику.

Числовые статистические данные - это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки - это (классические) законы больших чисел и центральные предельные теоремы.

Нечисловые статистические данные - это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т. д.

В прикладных исследованиях используют статистические данные различных видов. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента времени, то получаем т.н. цензурированные данные, состоящие из набора чисел - продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Цензурированные данные часто используются при оценке и контроле надежности технических устройств.

Применение статистических методов и моделей для статистического анализа конкретных данных тесно привязано к проблемам соответствующей области. Результаты третьего из выделенных видов научной и прикладной деятельности находятся на стыке дисциплин. Их можно рассматривать как примеры практического применения статистических методов. Но не меньше оснований относить их к соответствующей области деятельности человека.

Теория статистических методов нацелена на решение реальных задач. Поэтому в ней постоянно возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими средствами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Развитие вычислительной техники <http://ru.wikipedia.org/wiki/%D0%9А%D0%ВЕ%D0%ВС%D0%ВF%D1%8С%D1%8Е%D1%82%D0%В5%D1%80> во второй половине XX века <http://ru.wikipedia.org/wiki/XX_%D0%В2%D0%В5%D0%ВА> оказало значительное влияние на статистику. Ранее статистические модели были представлены преимущественно линейными моделями <http://ru.wikipedia.org/w/index.php?title=%D0%9Е%D0%В1%D1%89%D0%В0%D1%8F_%D0%ВВ%D0%В8%D0%ВD%D0%В5%D0%В9%D0%ВD%D0%В0%D1%8F_%D0%ВС%D0%ВЕ%D0%В4%D0%В5%D0%ВВ%D1%8С&action=edit&redlink=1>. Увеличение быстродействия ЭВМ и разработка соответствующих численных алгоритмов <http://ru.wikipedia.org/wiki/%D0%90%D0%ВВ%D0%В3%D0%ВЕ%D1%80%D0%В8%D1%82%D0%ВС> послужило причиной повышенного интереса к нелинейным моделям таким, как искусственные нейронные сети <http://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%ВА%D1%83%D1%81%D1%81%D1%82%D0%В2%D0%В5%D0%ВD%D0%ВD%D1%8В%D0%B5_%D0%ВD%D0%В5%D0%В9%D1%80%D0%ВЕ%D0%ВD%D0%ВD%D1%8В%D0%B5_%D1%81%D0%В5%D1%82%D0%В8>, и привело к разработке сложных статистических моделей, например обобщённая линейная модель <http://ru.wikipedia.org/w/index.php?title=%D0%9Е%D0%В1%D0%ВЕ%D0%В1%D1%89%D1%91%D0%ВD%D0%ВD%D0%В0%D1%8F_%D0%ВВ%D0%В8%D0%ВD%D0%В5%D0%В9%D0%ВD%D0%В0%D1%8F_%D0%ВС%D0%ВЕ%D0%В4%D0%В5%D0%ВВ%D1%8С&action=edit&redlink=1> и иерархическая модель <http://ru.wikipedia.org/w/index.php?title=%D0%98%D0%В5%D1%80%D0%В0%D1%80%D1%85%D0%В8%D1%87%D0%В5%D1%81%D0%ВА%D0%В0%D1%8F_%D0%ВС%D0%ВЕ%D0%В4%D0%В5%D0%ВВ%D1%8С&action=edit&redlink=1>.

Получили широкое распространение вычислительные методы, основанные на повторной выборке <http://ru.wikipedia.org/w/index.php?title=%D0%9F%D0%ВЕ%D0%В2%D1%82%D0%ВЕ%D1%80%D0%ВD%D0%В0%D1%8F_%D0%В2%D1%8В%D0%В1%D0%ВЕ%D1%80%D0%ВА%D0%В0&action=edit&redlink=1> как критерий перестановок <http://ru.wikipedia.org/w/index.php?title=%D0%9А%D1%80%D0%В8%D1%82%D0%В5%D1%80%D0%В8%D0%B9_%D0%ВF%D0%В5%D1%80%D0%В5%D1%81%D1%82%D0%В0%D0%ВD%D0%ВЕ%D0%В2%D0%ВЕ%D0%ВА&action=edit&redlink=1> и бутстреппинг <http://ru.wikipedia.org/wiki/%D0%91%D1%83%D1%82%D1%81%D1%82%D1%80%D0%В5%D0%ВF%D0%ВF%D0%В8%D0%ВD%D0%B3_%28%D1%81%D1%82%D0%В0%D1%82%D0%В8%D1%81%D1%82%D0%В8%D0%ВА%D0%В0%29>, наряду методы как семплирование по Гиббсу <http://ru.wikipedia.org/wiki/%D0%А1%D0%В5%D0%ВС%D0%ВF%D0%ВВ%D0%В8%D1%80%D0%ВЕ%D0%В2%D0%В0%D0%ВD%D0%В8%D0%B5_%D0%ВF%D0%BE_%D0%93%D0%В8%D0%В1%D0%В1%D1%81%D1%83> позволили более доступно использовать байесовские алгоритмы. В настоящее время существует разнообразное статистическое программное обеспечение общего и специализированного назначения.

Курсовая работа на тему: Ключевые слова: верификация, аномальность данных, критерий Титьена-Мура, критерий Смирнова-Граббса,

Введение

Оглавление

Cогласие с Сookies