Статистика та котики як теплі коти стали частиною наукової книги

Слідкуйте за нами в ВКонтакте. Facebook 'e і Twitter' e

Обговорити 0 Описова статистика: хто такі котики

Котики бувають різні: великі і маленькі, з висячими вушками і короткими лапками, довгохвості або зовсім без хвоста. Але в кожному з них є деякі риси, які дозволяють нам об'єднати їх під загальною назвою «котики». Але ж десь існує котик, якого можна вважати самим типовим представником сімейства. Як же його знайти? Для простоти візьмемо таку властивість, як розмір. Перше, що ми можемо зробити, - подивитися, якої величини котики зустрічаються частіше. Цей розмір називається модою, і він цілком може претендувати на звання самого типового. А ще ми можемо розташувати котиків по порядку, від найменшого до найбільшого, і подивитися, котик якого розміру знаходиться рівно посередині. Цей розмір називається медіаною.

Ну, а якщо ми складемо розміри всіх наших котиків і розділимо на їх кількість, то отримаємо середнє арифметичне, знайоме нам ще зі школи. Важливо пам'ятати, що показник середнього значення дуже чутливий до викидів. Якщо в нашу вибірку потрапить унікум розміром зі слоника, то його розмір помітно зрушить середнє значення в більшу сторону, і тоді воно перестане відображати реальну картину.

Мода, медіана і середнє значення дозволяють знаходити типові розміри котиків і називаються заходами центральної тенденції. Але, крім типових значень, нас цікавить і те, наскільки різноманітними можуть бути котики. У цьому нам можуть допомогти заходи мінливості. Найпростіша з них - розмах - це всього лише різниця між найбільшим і найменшим котиками. Іноді статистики відсікають 25% найбільших і 25% найдрібніших котиків, обчислюючи різницю тільки для групи «середнячків». Ця величина називається межквартільним розмахом.

Оцінити розкид можна і за допомогою дисперсії. Припустимо, що ми вирішили порівняти величину деякого конкретного Барсика із середнім котикову розміром. Різниця (а точніше, різниця) цих розмірів називається відхиленням від середнього. Чим сильніше Барсик від нього відрізняється, тим відхилення більше. І звичайно, чим більше прикладів з великим відхиленням, тим різноманітніше котики за розміром.

Щоб оцінити різноманітність, ми можемо діяти вже випробуваним способом: скласти всі відхилення і поділити на загальне число котиків, тобто знайти середнє від відхилень. Але оскільки відхилення можуть йти як в плюс, так і в мінус, їх сума дасть нам нуль. Щоб цього не відбувалося, статистики зводять значення відхилень в квадрат і лише потім знаходять середнє значення. Отримана величина називається дисперсією (D). Втім, для оцінки різноманітності котиків дисперсія не дуже зручна, оскільки розмір вимірюється в звичайних сантиметрах, а дисперсія - в квадратних. Тому для зручності з дисперсії витягають корінь, отримуючи середньоквадратичне відхилення (S).

Середнє значення і середньоквадратичне відхилення часто використовують спільно для компактного опису тієї чи іншої групи котиків. Як правило, більшість (близько 68%) котиків знаходяться в межі одного середнє відхилення від середнього. Ці котики мають нормальним розміром. Решта 32% - котики або дуже великі, або дуже маленькі.

Все, про що ми говорили вище, відноситься до описової статистикою, завдання якої - дати короткий уявлення про те, як виглядають досліджувані нами об'єкти. Міра центральної тенденції показує, як виглядає найбільш типовий з них. Міра мінливості відображає їх різноманітність. Але, крім описової, існує і куди більш великий клас методів, які дозволяють перевіряти гіпотези, що відносяться до наших об'єктів. І тут на допомогу котиків приходять ... песики. Доказова статистика: чим котики відрізняються від песиків

Чимось песики і котики схожі: у тих і інших є чотири лапи, хвіст і пара вух -, але багато в чому і розрізняються. Можливо, є відмінність і за розміром, але як це перевірити? Адже бувають як дуже маленькі песики, так і дуже великі котики ... Перше, що спадає на думку, - це порахувати середній розмір котиків і середній розмір песиків, а потім відняти одне з іншого: чим більше виявиться ця величина, тим більше розходження між ними. Статистики так і надходять, ділячи цю різницю на стандартну помилку - коефіцієнт, що залежить від розмірів вибірки та дисперсії. Отриманий показник називається t-критерієм Стьюдента. І чим більше t-критерій, тим з більшою впевненістю ми можемо стверджувати, що в середньому песики відрізняються від котиків за розміром.

Але наскільки великим повинен бути t-критерій Стьюдента, щоб ми могли з упевненістю говорити про відмінності розмірів песиків і котиків? Щоб вирішити цю трудність, статистики йдуть від зворотного, висуваючи нульову гіпотезу. Давайте і ми вчинимо так і припустимо, що середні розміри котиків і песиків однакові. Тепер залишається подивитися, з якою ймовірністю ми отримаємо таке ж (або більше) значення t-критерію, якщо нульова гіпотеза вірна. Ця ймовірність називається p-рівнем значущості, і якщо вона велика (більше 5% або 0,05), то нульова гіпотеза не відкидається. Якщо ж р-рівень невисокий (менше 5% - 0,05), то нульова гіпотеза відкидається і приймається альтернативна - що котики все-таки відрізняються від песиків. Принаймні за розміром.

Останнім часом показник p-рівня часто критикується, але він продовжує залишатися одним з базових понять доказової статистики. Незалежно від того, чим ви займаєтеся - чи шукаєте відмінності між котиками і песиками або знаходите взаємозв'язку між котячим харчуванням і розміром, - ви обов'язково зіткнетеся з цим поняттям.

Отже, доказова статистика дозволяє перевіряти гіпотези про навколишній світ. Разом з описової вона вирішує величезну кількість наукових і практичних завдань в самих різних областях, від психології і генетики до виробництва і маркетингу. Вона далеко не обмежується поняттями, розібраними в цій статті. Вивчайте статистику і любите котиків.

Слідкуйте за нами в ВКонтакте. Facebook 'e і Twitter' e