Е.А. БУНИМОВИЧ, В.А. БУЛЫЧЕВ

ВЕРОЯТНОСТЬ И СТАТИСТИКА В КУРСЕ МАТЕМАТИКИ ОБЩЕОБРАЗОВАТЕЛЬНОЙ ШКОЛЫ

Лекции 5—8

Москва

«Педагогический университет «Первое сентября»

2005

Е.А. Бунимович, В.А. Булычев

Е.А. Бунимович, В.А. Булычев. Вероятность и статистика в курсе математики общеобразовательной школы: лекции 5—8. — М. : Педагогический университет «Первое сентября», 2005. - 116 с.

В разработке методических рекомендаций принимал участие В.В. Калманович.

Учебное-методическое пособие

Редактор Л.О. Рослова

Корректор Л.А. Громова

Компьютерная верстка О.В. Сухарева

Подписано в печать 10.09.2005.

Формат 60x90/16. Гарнитура «Тайме». Печать офсетная. Псч. л. 7,25. Тираж 300 экз. Заказ № Педагогический университет «Первое сентября», ул. Киевская, д. 24., Москва, 121165 http://edu.1september.ru

© Е.А. Бунимович, В.А. Булычев, 2005 © Педагогический университет «Первое сентября», 2005

Учебный план курса

№ брошюры

Учебный материал

1

Лекция № 1. Случайные события и вероятность

1

Лекция № 2. Комбинаторика в вычислении вероятностей

1

Лекция № 3. Свойства вероятностей

1

Лекция № 4. Случайные величины и их распределения.
Контрольная работа № 1 «Вычисление вероятностей»

2

Лекция № 5. Анализ данных

2

Лекция № 6. Случайная выборка и ее представление

2

Лекция № 7. Числовые характеристики случайной выборки.
Контрольная работа № 2 «Анализ случайной выборки»

2

Лекция № 8. Испытания Бернулли

Итоговая работа. Итоговая работа должна представлять собой разработку по теме «Вероятность и статистика», созданную на основе материалов данного курса лекций. Подробный план-конспект, сопровождаемый справкой из образовательного учреждения, подтверждающей факт ее апробации, должен быть представлен в Педагогический университет до 28 февраля

Лекция 5

Анализ данных

Начиная с этой лекции, мы приступаем к изучению статистики — науки, основной задачей которой является сбор и анализ данных о самых разнообразных массовых явлениях.

Как уже не раз говорилось на протяжении первых четырех лекций, теория вероятностей занимается изучением закономерностей, присущих массовым случайным явлениям. При этом основное внимание она уделяет изучению вероятностных моделей. Но откуда эти модели берутся?

В некоторых случаях модель может быть построена умозрительно — например, исходя из равновозможности всех исходов эксперимента. Именно так обстоит дело в опытах с монетой, кубиком и другими идеальными объектами. Но в более сложных реальных ситуациях построение модели

происходит только после тщательного анализа большого количества экспериментальных данных. Сбором, систематизацией и анализом этих данных занимается статистика.

1. Сбор и анализ статистических данных

«Статистика знает всё», — утверждали Ильф и Петров в своем знаменитом романе «Двенадцать стульев» и продолжали: «Известно, сколько какой пищи съедает в год средний гражданин республики... Известно, сколько в стране охотников, балерин... станков, велосипедов, памятников, маяков и швейных машинок... Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!..» Это ироническое описание дает довольно точное представление о статистике (от лат. status — состояние) — науке, изучающей, обрабатывающей и анализирующей количественные данные о самых разнообразных массовых явлениях в жизни. Экономическая статистика изучает изменение цен, спроса и предложения на товары, прогнозирует рост и падение производства и потребления. Медицинская статистика изучает эффективность различных лекарств и методов лечения, вероятность возникновения некоторого заболевания в зависимости от возраста, пола, наследственности, условий жизни, вредных привычек, прогнозирует распространение эпидемий. Демографическая статистика изучает рождаемость, численность населения, его состав (возрастной, национальный, профессиональный). А есть еще статистика финансовая, налоговая, биологическая, метеорологическая...

Статистика имеет многовековую историю. Уже в древнем мире вели статистический учет населения. Однако произвольные толкования статистических данных, отсутствие строгой научной базы статистических прогнозов позволили в конце XIX века английскому премьер-министру Б. Дизраэли не без основания заметить: «Есть три вида лжи: просто ложь, наглая ложь и статистика». В XX веке появилась математическая статистика — наука, основанная на законах теории вероятностей. Соединение накопленных к этому времени практических методов обработки данных с математическим аппаратом теории вероятностей превратило эти две отрасли человеческого знания в мощный инструмент для исследования законов природы и общества.

Сравнивая шансы случайных событий, мы уже говорили об использовании статистических данных. Так называют данные (чаще всего — числовые), полученные в результате различных наблюдений, опросов, экспериментов.

Уже на этапе сбора таких данных возникает масса непростых проблем, от решения которых во многом будет зависеть объективность полученной информации и достоверность выводов, которые потом будут сделаны на ее основе. Как, например, организовать социологический опрос, чтобы полученные в нем данные отражали мнение всего общества в целом? Сколько человек нужно опросить? Как организовать их выбор? В какой форме и какие вопросы задавать?

После того как данные собраны, начинается их систематизация и анализ. Именно здесь вероятностно-статистические методы оказываются в высшей степени необходимы. История знает немало случаев, когда недобросовестность, а иногда и просто безграмотность некоторых горе-статистиков приводила к тому, что из правильно собранных статистических данных делались абсолютно неверные выводы. Приведем здесь только один из самых известных примеров такого рода. В 1939 году группа советских биологов — апологетов учения академика Лысенко — опубликовала цикл работ, в которых на основании статистических данных, полученных в результате большой серии опытов по наследованию признаков у гороха, были якобы «опровергнуты» законы Менделя1. В 1940 году академик Андрей Николаевич Колмогоров опубликовал в Докладах Академии наук СССР статью «Об одном новом подтверждении законов Менделя», в которой на основе тех же самых (!) опытных данных сделал вывод о блестящем подтверждении этих законов! К сожалению, серьезное обсуждение методов и аргументов, которые были использованы А.Н. Колмогоровым, уведет нас слишком далеко за рамки школьного курса математики.

Сегодняшний стандарт школьного математического образования ограничивается понятиями и методами описательной статистики, которая занимается первичной обработкой статистической информации: представлением ее в виде удобно читаемых таблиц, изображением на диаграммах и вычислением наиболее показательных числовых характеристик. Именно эти простейшие методы анализа статистических данных и будут обсуждаться на протяжении ближайших трех лекций. Более тонкими исследованиями — оценкой неизвестных параметров, проверкой гипотез, изучением статистических связей и зависимостей — занимается математическая статистика, изучение которой не входит сегодня в программу общеобразовательной школы.

1 Если вы помните, законы Менделя носят вероятностный характер, и могут служить прекрасным поводом для того, чтобы поговорить о вероятности и статистике на уроках биологии.

2. Таблицы

Статистических данных всегда нужно много. Чтобы не «утонуть» в этом море цифр, их представляют в удобном для человека виде. Здесь мы рассмотрим наиболее простую и употребительную форму такого представления — таблицу.

Любой из нас, открывая книгу или газету, включая телевизор или попадая на вокзал, постоянно сталкивается с табличной формой представления информации: расписание уроков, расписание движения поездов, таблица умножения, таблицы спортивных чемпионатов, программа телепередач и т.д.

В самом простом случае таблица делится на строки и столбцы (иногда их называют колонками). Чаще всего каждый столбец имеет название, которое указывается в первой строке таблицы.

Пример 1. Перед вами страница из книги регистрации новорожденных детей:

Таблица 1

Дата рождения

Имя ребенка

Пол ребенка

03.03.2005

Татьяна

Женский

03.03.2005

Сергей

Мужской

04.03.2005

Ольга

Женский

06.03.2005

Василий

Мужской

06.03.2005

Евгений

Мужской

07.03.2005

Василий

Мужской

07.03.2005

Николай

Мужской

07.03.2005

Наталья

Женский

08.03.2005

Татьяна

Женский

09.03.2005

Василий

Мужской

Используя такую таблицу, вы без труда ответите на любой из следующих вопросов (ответьте!):

а) Какое имя за этот период было самым популярным?

б) Сколько всего разных имен было использовано?

в) Какого числа родилось больше всего детей?

г) Какой процент составляют среди новорожденных мальчики?

д) В какой день недели дети рождаются чаще?

Заметим, правда, что для ответа на последний вопрос придется привлечь еще одну таблицу — календарь на 2005 год.

А теперь представим, что на те же вопросы вам нужно ответить по статистическим данным за целый год. Тогда понадобится проанализировать

около 50-ти (подумайте, почему?) таких страниц, — а это будет уже не так просто сделать. Попробуем построить по исходной таблице четыре других:

Таблица 2

Дата

Количество новорожденных

03.03.2005

2

04.03.2005

1

05.03.2005

0

06.03.2005

2

07.03.2005

3

08.03.2005

1

09.03.2005

1

Таблица 3

Имя

Количество новорожденных

Татьяна

2

Сергей

1

Ольга

1

Василий

3

Евгений

1

Николай

1

Наталья

1

Таблица 4

Пол

Количество новорожденных

Мужской

6

Женский

4

Таблица 5

День недели

Количество новорожденных

Понедельник

3

Вторник

1

Среда

1

Четверг

2

Пятница

1

Суббота

0

Воскресенье

2

Согласитесь, что отвечать на вопрос а) — о том, какое имя было самым популярным, гораздо легче по таблице 3, а на вопрос б) — по таблице 2. То же самое касается и остальных вопросов (укажите для них соответствующие таблицы). И хотя таблица 1 содержит гораздо больше информации, чем любая из таблиц 2—5, эта информация не всегда оказывается полезной.

Таблицы 2—5 называют сводными: информация в них объединена (сведена) в более крупные блоки по тому или иному признаку. В таблице 2 этим признаком является дата рождения ребенка, в таблице 3 — имя, таблице 4 — пол ребенка, в таблице 5 — день недели. Создание сводных таблиц на основе исходных — один из простейших приемов сворачивания информации, избавления от несущественных деталей и выделения наиболее значимых свойств и зависимостей.

Сводные таблицы 2—5 нетрудно составить и для статистических данных за целый год—нужно только правильно организовать подсчет. Покажем, как это сделать на примере таблицы 3. Каждый раз при появлении в книге регистрации нового имени оно заносится в первую колонку таблицы 3, а во вторую ставится одна палочка — «/». Если имя уже встречалось ранее, то напротив

него во вторую колонку таблицы добавляется еще одна палочка. Когда таких палочек набирается пять, то, вместо того чтобы ставить пятую, зачеркивают последние четыре—«Ш». Это делается для удобства подсчета в самом конце, чтобы от палочек «не рябило в глазах». Вот как может, например, выглядеть часть такой таблицы с результатами подсчетов:

Таблица 6

Имя

Подсчет повторений

Количество новорожденных

Татьяна

тттт

18

Сергей

Ш1

6

Ольга

m

3

Василий

ттшт ни

24

Евгений

ЦП im

10

Николай

mm//

12

Наталья

тттт

18

Как видите, правильная организация труда и удобный способ представления играют в статистических исследованиях далеко не последнюю роль.

Очень часто к обычным строкам и столбцам в таблицах добавляются так называемые итоговые строки или столбцы. Они отмечаются словами ВСЕГО или ИТОГО и содержат суммарные значения соответствующих ячеек таблицы.

Пример 2. Вот пример таблицы, учитывающей расходы (в рублях) семьи Кузнецовых на коммунальные услуги за первую половину года:

Таблица 7

Месяц

Квартплата

Газ

Свет

Телефон

ВСЕГО

Январь

320

88

122

98

628

Февраль

426

88

118

128

760

Март

426

92

110

204

832

Апрель

426

92

98

120

736

Май

530

92

92

166

880

Июнь

530

92

96

124

842

ИТОГО

2658

544

636

840

4678

Заметьте, что итоговую сумму 4678 рублей (стоимость всех коммунальных услуг за полгода) можно, с одной стороны, получить как сумму всех чисел в последнем столбце, а с другой — как сумму всех чисел в последней строке таблицы. Это свойство часто используют для проверки: если полученные двумя разными способами суммы не совпадают, то нужно искать ошибку!

В особую (и очень популярную) группу можно выделить таблицы спортивных состязаний. Конечно, для правильного чтения таких таблиц необходимо хотя бы минимальное представление о соответствующем виде спорта и действующих в нем правилах.

Пример 3. Вот так, например, выглядит итоговая таблица отборочных матчей в первой группе чемпионата мира по футболу 1998 года во Франции:

Таблица 8

Страна

И

В

H

П

О

M

Бразилия

3

2

0

1

6

1

Норвегия

3

1

2

0

5

2

Марокко

3

1

1

1

4

3

Шотландия

3

0

1

2

1

4

Непосвященному человеку довольно трудно в ней разобраться. Но если разъяснить хотя бы сокращения, использованные в заголовках столбцов, (И— игры, В—выигрыши, H—ничьи, П—проигрыши, О—очки, M—место), то многое становится ясным. В частности, нетрудно понять, что за победу каждая команда получала три очка, за ничью — 1, за поражение — 0 очков.

3. Диаграммы

Итак, мы убедились, что таблицы позволяют представить статистическую информацию в более удобной для восприятия форме. Еще более удобным для человека способом представления информации является графический. Давайте внимательно посмотрим на рисунки, построенные по таблицам 2—4:

По рис. 1 удобно прослеживать динамику рождаемости, по рис. 2 — распределение новорожденных по именам, а по рис. 3 — соотношение между их полами. Эти рисунки называют диаграммами.

Диаграмма на рис. 1 — это обычный график кусочно-линейной функции. Такого рода диаграммы часто используются, чтобы показать изменение какой-либо величины с течением времени: на горизонтальной прямой отмечают даты или моменты времени, а по вертикали откладывают значения изучаемой величины (в нашем примере — количество новорожденных детей за каждую дату). Потом соединяют полученные точки ломаной.

Диаграмма 2 называется столбчатой (или столбиковой). По горизонтали записывают различные значения какого-либо признака (в нашем случае

Рис. 1

Рис. 2

Рис. 3

— имени) и над каждым значением рисуют столбик, высота которого равна интересующей нас величине (количеству новорожденных с данным именем). На столбиковой диаграмме особенно наглядно видны количественные соотношения величин друг с другом.

Диаграмма 3 (пожалуй, самая красивая и наглядная) — круговая. Французы называют ее «камамбером», поскольку она действительно напоминает головку знаменитого французского сыра, разрезанную на дольки. Каждая из долек соответствует одному из значений изучаемого признака (в нашем случае — пол ребенка), а ее размер пропорционален интересующей вас величине (количеству новорожденных данного пола). Чтобы построить круговую диаграмму, нужно поделить всю окружность на дуги так, чтобы их длины оказались в том же отношении, что и представленные на диаграмме величины.

Чаще всего (но не всегда!) различные виды диаграмм взаимозаменяемы, и одни и те же статистические данные можно представить на различных диаграммах (рис. 4).

Еще один интересный тип диаграмм позволяет наглядно показать наличие (или отсутствие) связи между двумя различными величинами. Пусть, например, имеются данные о площади и стоимости квартир, полученные из газетных объявлений:

Рис.4

Рис. 5

Площадь, кв. м.

30

26

18,8

44,2

34

34,6

45

19

17,4

36,6

Цена, тыс. долл. США

24

22

17

32

29

30

36

18

14

28

Чтобы убедиться, что между этими величинами есть самая непосредственная связь, можно нанести их на так называемую диаграмму рассеивания, или точечную диаграмму. По оси Ох будем откладывать площадь, по оси Oy — цену квартиры:

Рис. 6

Из диаграммы видно, что с увеличением площади увеличивается цена на квартиру. В то же время жесткой зависимости между площадью и ценой нет, поскольку существуют и другие факторы, влияющие на формирование цены. На диаграмме хорошо видны точки, в которых площадь увеличилась, а цена уменьшилась (найдите соответствующие им значения в таблице).

Интересно, что методы математической статистики позволяют пойти дальше: найти количественную меру зависимости между этими величинами и даже выписать примерное уравнение связи между ними:

Рис. 7

Уравнение, которое вы видите на диаграмме, — это так называемое уравнение линейной регрессии. Оно задает аппроксимирующую прямую, полученную по методу наименьших квадратов и наилучшим образом описывающую линейную связь между х и у. Из уравнения видно, что квадратный метр жилья стоит в среднем около 692 долл., а само «место» в доме — около 3850 долл.

Рис. 8

Если же между двумя величинами нет никакой связи, то на точечной диаграмме мы увидим хаотичное облако точек, не укладывающихся в какую-то заметную на глаз зависимость. Вот так, например, будет выглядеть диаграмма, на которой по оси Ох отложена по-прежнему площадь квартиры, а по оси Oy указан этаж (использованы те же самые газетные объявления) (рис. 8 см. на с. 15).

4. Электронные таблицы

Появившиеся во второй половине теперь уже прошлого века электронно-вычислительные машины многократно расширили возможности, связанные с обработкой статистических данных. Но настоящую революцию в автоматизации статистических исследований произвел персональный компьютер, появившийся с 80-х годов XX века на рабочем столе каждого статистика. Сегодня существуют десятки и даже сотни специализированных программ, предназначенных для обработки и анализа статистических данных. Упомянем здесь лишь наиболее популярные среди специалистов SPSS, Statistica, STADIA, ЭВРИСТА и др. Использование таких пакетов полностью избавляет исследователя от рутинного счета и позволяет сосредоточиться на творческих вопросах: постановке задачи, выборе наиболее оптимальных методов ее решения, интерпретации результатов.

Однако использование любого из этих пакетов в школе, безусловно, вызовет массу трудностей. Придется потратить значительные усилия на освоение интерфейса, специальных терминов и т.д., чтобы использовать потом меньше 1% всех возможностей пакета.

К счастью, есть еще одна разновидность программ, удачно сочетающих простоту использования с огромными вычислительными возможностями. Речь идет об электронных таблицах. Появившись почти одновременно с персональными компьютерами, эти замечательные программы завоевали огромную популярность среди экономистов, финансистов, социологов и других специалистов, которые, не будучи профессионалами в области статистических исследований, тем не менее вынуждены по долгу службы заниматься в той или иной форме анализом статистической информации.

Кроме того, принципы работы с электронными таблицами изучаются сегодня в обязательном порядке в школе на уроках информатики и становятся постепенно неотъемлемой частью общей информационной культуры.

Все сказанное показалось нам достаточным основанием, чтобы включить в эту лекцию отдельный параграф, посвященный принципам работы

с электронными таблицами. Дальнейшее изложение мы проведем на примере электронной таблицы MS Excel, которая есть сейчас на любом персональном компьютере, работающем в Windows2.

Принцип работы электронной таблицы очень прост. Как и обычная «бумажная» таблица, она состоит из строк и столбцов, на пересечении которых образуются ячейки. В ячейках можно хранить данные — числа, строки, даты. Каждая ячейка имеет индивидуальный адрес, состоящий из буквы (столбец) и числа (строка)3.

Пример 1. Перед вами лист электронной таблицы MS Excel, на котором представлена заработная плата сотрудников некоторой фирмы:

На этом рисунке в ячейке ВЗ записано число 5600, в ячейке А2 — текст «Иванов».

Но вся прелесть электронных таблиц в том, что кроме обычных данных (чисел, строк, дат) любая ячейка может хранить формулу, по которой будет вычисляться значение этой ячейки. Формула может ссылаться на другие ячейки и использовать любые арифметические операции и математические функции. Ввод формулы всегда начинается со знака «=». Это несколько необычно для математика, но зато позволяет компьютеру сразу отличить формулу от обычных данных. Попробуем, например, ввести в ячейку С2 формулу = В2*0,13 (именно так вычисляется сейчас подоходный налог, составляющий 13% от зарплаты). Вот как будет выглядеть таблица сразу после ввода:

2 Если вам стало страшно от этих слов - успокойтесь, глубоко вдохните и постарайтесь дочитать эту главу до конца.

3 Внимание! Буквы в адресах используются только латинские.

Как видите, произошло не только распознавание введенной формулы, но и моментальный расчет нужного значения. В ячейке хранится формула, а отображается на экране результат вычисления — 312.

И здесь мы подходим ко второй замечательной особенности электронных таблиц. Чтобы понять эту особенность, изменим число в ячейке В2 — заменим 2400 на 3200. Ячейка С2 моментально откликнется — она сама, независимо от нашего желания, изменится на 416. То есть электронная таблица ведет себя как «живой» организм: изменение любой ячейки мгновенно влечет за собой изменение всех связанных с ней ячеек.

Наконец, последнее, что необходимо знать, чтобы приступить к использованию электронных таблиц для статистических расчетов — средства «размножения» формул. Формула, которую мы ввели в ячейку С2, должна быть распространена на весь столбец — ведь подоходный налог нужно брать с каждого сотрудника. Только в каждой следующей ячейке она должна слегка видоизмениться и превратиться в =ВЗ*0,13; =В4*0,13, .... К счастью, вовсе необязательно заново набирать каждую из этих формул в своей ячейке. Достаточно подвести курсор мыши к правому нижнему углу ячейки, в которой находится формула, дождаться пока курсор превратится из привычной стрелки в характерный крестик и, нажав левую кнопку мыши, протянуть формулу на все остальные ячейки столбца. Формула скопируется во все нужные ячейки, да еще скорректируется именно так, как мы хотели:

Вот такая умная таблица! Если же какой-то адрес в формуле корректировать не нужно, то необходимо записать его в так называемом абсолютном представлении, поставив специальный знак «$» перед буквой и числом, например: $В$3. Это адрес той же ячейки ВЗ, но при копировании формулы с таким адресом он корректироваться не будет.

Теперь несложно сообразить, какими действиями можно заполнить столбец «На руки»: сначала вводим в ячейку D2 формулу =В2-С2, а затем протягиваем ее на весь столбец.

В заключение отметим, что кроме обычных арифметических операций в формулах могут использоваться самые разные математические (и в том числе статистические) функции. Для вызова библиотеки функций достаточно при вводе формулы нажать на кнопку fx — «Вставка функции». Функция суммирования настолько часто используется в таблицах, что для нее сделана отдельная кнопка со знаком суммирования — 51. Именно с ее помощью заполнена последняя, итоговая строка нашей таблицы:

Приведем еще один пример использования электронной таблицы для автоматизации статистических расчетов, которые вы наверняка неоднократно делали вручную.

Пример 2. Перед вами лист электронной таблицы MS Excel, представляющий собой фрагмент классного журнала:

В колонке «Средний балл» подсчитано среднее арифметическое оценок каждого ученика. Для этого вычисляется сумма оценок, которая делится на их количество. В ячейке N2 эта формула выглядит так:

=СУММ(В2:М2)/СЧЁТ(В2:М2)

Можно получить тот же результат с помощью другой специальной функции, сразу вычисляющей среднее значение по всем значениям из заданного диапазона:

=СРЗНАЧ(В2:М2)

Возвращаясь к материалу предыдущего пункта, где речь шла об использовании графиков и диаграмм, заметим, что кроме замечательных вычислительных «способностей» современные электронные таблицы обладают не менее замечательными графическими. Достаточно сказать, что все диаграммы в этой и других лекциях были построены с помощью все той же

электронной таблицы MS Excel. Причем никаких специальных навыков для их построения не требуется: достаточно нажать на кнопку «Мастер диаграмм», выбрать из специального меню интересующий вас тип диаграммы, пометить в таблице ряды ячеек, которые должны быть отражены на диаграмме, — и все готово. При этом любое изменение в таблице будет тут же отражаться на диаграмме!

На следующих ниже иллюстрациях вы видите графическое представление данных из примеров 1 и 2, полученное с помощью MS Excel:

Диаграмма к примеру 1

Диаграмма к примеру 2

В заключение еще раз подчеркнем, что основополагающие принципы работы с электронными таблицами настолько просты, что вполне доступны даже для самостоятельного изучения.

Вопросы и задачи

К разделу 1

1. Чем занимается статистика?

2. Какие сложности возникают при сборе статистической информации?

3. Перечислите основные задачи описательной статистики.

К разделу 2

4. Вспомните реальные ситуации, в которых вам приходилось сталкиваться с информацией, представленной в виде таблиц.

5. В журнале наблюдений регистрировались наблюдения за погодой в течение трех летних месяцев ( ° — ясно, А — облачно, ^ — дождь):

Заполните по этим данным сводную таблицу, содержащую данные о том, сколько каких дней было в каждом из трех летних месяцев и за все лето:

Месяц

Ясно

Облачно

Дождь

ВСЕГО

Июнь

Июль

Август

ИТОГО

6. Редакция заключила на шесть месяцев договор с несколькими разносчиками газет. Данные о количестве проданных газет представлены в таблице:

Фамилия

Январь

Февраль

Март

Апрель

Май

Июнь

ВСЕГО

Галкин

1204

1265

2 203

2347

1470

1220

Чалкин

1346

1134

2 245

2341

1564

1122

9752

Малкин

890

998

1 678

1456

1234

990

Палкин

1322

543

1 789

1245

1322

1229

7450

Рвалкин

1786

1453

2 433

2674

1890

1680

Глоталкин

1123

1256

1 988

2200

1560

1263

9390

ИТОГО

7671

12 336

9040

Заполните недостающие ячейки таблицы и ответьте на вопросы:

а) Сколько газет продал в феврале Палкин?

б) Сколько всего газет продал за полгода Галкин?

в) Сколько всего газет продали за июнь все разносчики?

г) Какой месяц был для редакции самым успешным?

д) Сколько всего газет было продано разносчиками за полгода? Посчитайте результат двумя способами.

К разделу 3

7. Какие виды диаграмм вы знаете? Когда их лучше использовать?

8. По сводной таблице, полученной в задаче 5, постройте:

а) столбчатую диаграмму, показывающую количество ясных дней в каждом месяце;

б) круговую диаграмму, показывающую соотношение ясных, облачных и дождливых дней за весь летний период.

9. По таблице из задачи 6 постройте:

а) столбчатую диаграмму, показывающую общее количество проданных газет по месяцам;

б) круговую диаграмму, показывающую долю каждого разносчика в общем количестве проданных газет.

10. На круговой диаграмме показано распределение земной суши, составляющей около 150 млн. кв. км, между шестью частями света:

Глядя на диаграмму, ответьте на следующие вопросы:

а) Какая часть света самая большая по площади?

б) Какова приблизительно площадь Африки?

в) Какова приблизительно площадь материка Евразия?

г) Нарисуйте круговую диаграмму, показывающую распределение земной суши между материками. Какую информацию вам придется для этого отыскать дополнительно?

11. В таблице приведен возраст женихов и невест, зарегистрировавших свой брак в прошлом месяце в одном из ЗАГСов города N. Постройте по этим данным диаграмму рассеивания. Видна ли на ней связь между этими величинами? Если да, попробуйте подобрать подходящее линейное уравнение, которое описывает эту зависимость. Попытайтесь придать содержательный смысл его коэффициентам.

Возраст жениха

42

20

38

48

39

18

23

23

39

34

39

27

33

19

28

27

22

25

44

36

Возраст невесты

33

18

30

45

38

20

22

20

28

33

24

27

30

18

22

21

33

18

47

24

12. Проведите в своем классе социологическое мини-исследование по количеству детей в семьях учеников. Результаты опроса отразите в виде таблицы и подходящей диаграммы. Как вы оцениваете такую ситуацию?

К разделу 4

13. Перечислите основные особенности электронных таблиц, отличающие их от обычных «бумажных».

14. Перенесите страничку из своего классного журнала в электронную таблицу MS Excel. Посчитайте средний балл для каждого ученика и средний балл за каждый день. Отразите полученные результаты на диаграммах.

15. Решите задачи 5 и 8 с помощью MS Excel.

16. Решите задачи 6 и 9 с помощью MS Excel.

17. Решите задачу 11 с помощью MS Excel.

Методические замечания

Первым отечественным учебником, в котором теме простейшего анализа данных было уделено серьезное внимание, стал учебный комплект [1], [2]. Теперь эта тема прописана в стандартах школьного математического образования.

Основная школа. Статистические данные. Представление данных в виде таблиц, диаграмм, графиков.

Старшая школа. Табличное и графическое представление данных.

К разделу 1

При изучении этого раздела учащиеся должны получить начальное представление о трех основных этапах любого статистического исследования: сборе, систематизации и анализе статистических данных.

Сбор данных—процесс, как правило, трудоемкий и дорогостоящий. Как вы знаете, этим занимаются сегодня целые научные институты и фонды. Если к сбору статистических данных подключить самих учащихся, то, во-первых, вы получите эти данные бесплатно, во-вторых, интерес к их дальнейшей обработке сильно возрастает. Попробуйте организовать с помощью учеников социологическое мини-исследование, тему которого могут предложить они сами. Вот возможные варианты:

• Какой из школьных предметов кажется вам наиболее интересным (трудным)?

• Сколько времени каждый из вас тратит на дорогу в школу?

• Довольны ли вы качеством питания в школьной столовой? Оцените по пятибалльной шкале вкусовые качества блюд (перечислить блюда).

• Сколько времени вы проводите у телевизора?

• Какой маркой сотового телефона вы пользуетесь?

Подумайте, как лучше сформулировать вопросы. Обсудите с учащимися форму вопросника, постарайтесь его размножить. Собранная в таком опросе информация пригодится при изучении дальнейших тем и послужит материалом для составления таблиц и построения диаграмм.

Заметим, что статистические данные можно собирать не только прямыми опросами или измерениями, но и с помощью современных средств ИКТ, прививая учащимся элементы информационной культуры.

Систематизация данных сегодня практически немыслима без применения компьютера. Его использование при изучении статистического материала необходимо уже с первых занятий. В крайнем случае, при отсутствии такой возможности непосредственно на уроке математики, необходимо найти время для выполнения соответствующих заданий на уроках информатики или после уроков.

Что касается анализа информации, то хотя школьный курс и ограничивается элементами описательной статистики, тем не менее даже такие простые средства анализа, как таблицы и диаграммы, позволяют делать вполне содержательные выводы.

К разделу 2

При изучении темы главная задача учителя — продемонстрировать, что таблицы действительно удобный способ для упорядочивания и систематизации больших объемов информации. Основные навыки, которые должен получить здесь ученик, состоят в следующем:

• быстро разбираться в структуре таблицы и находить в ней нужную информацию;

• самостоятельно структурировать информацию и представлять ее в виде таблицы;

• составлять на основе заданной таблицы новые (сводные);

• использовать таблицы для подсчета результатов различных статистических опытов и наблюдений.

Чем больше при этом будет рассмотрено различных видов таблиц, тем лучше. Можно привлекать самый разный материал из других предметов (учебники географии, истории, физики и др.), а также из периодической печати.

К разделу 3

Работа с диаграммами обычно вызывает интерес у всех учащихся. К наиболее популярным их разновидностям относятся кусочно-линейные графики, столбчатые и круговые диаграммы. Реже используются диаграм-

мы рассеивания (они оказываются особенно полезными при изучении статистических зависимостей, но этот вопрос выходит за рамки школьного курса).

От ученика требуется:

• уметь читать готовые диаграммы, извлекая из них нужную информацию;

• строить по имеющимся статистическим данным диаграммы заданного типа;

• самостоятельно выбирать наиболее подходящий для представления указанных данных тип диаграммы.

Так же, как и при работе с таблицами, интересно рассмотреть с учащимися дополнительные виды диаграмм, которые не входят в круг обязательного изучения. Можно дать задание самостоятельно осуществить их поиск, используя для этого всевозможные средства массовой информации, включая и электронные.

К разделу 4

Если при изучении математики компьютер может служить хорошим помощником, то при изучении статистики он просто необходим. Ограничиваться решением всех статистических задач только на бумаге означает:

• во-первых, обречь себя на неоправданную потерю учебного времени, которого и так всегда не хватает;

• во-вторых, автоматически отказаться от демонстрации действительно впечатляющих результатов статистической обработки данных, которые начинают проявляться только на больших объемах числовой информации;

• в-третьих, потерять интерес подавляющего большинства учащихся, которым быстро надоест утомительный ручной счет.

Поэтому мы настоятельно рекомендуем с первых шагов при изучении статистического материала привлекать компьютер. Самая удобная тема, с которой можно начать использование компьютера, — таблицы. Это объясняется тем, что электронные таблицы (ЭТ) являются сегодня самым простым и доступным для учащихся средством обработки данных. Преимущества электронных таблиц достаточно полно продемонстрированы в тексте лекции. Добавим к этому, что все вычисления, необходимые при разборе примеров, мы проводили в ЭТ; все диаграммы, которые вы видите на страницах этой и всех прочих лекций, были созданы в ней же; наконец, статистические данные для некоторых задач были сгенерированы с помощью все той же ЭТ. Разумеется, вам придется потратить какое-то личное время на

освоение какой-нибудь конкретной ЭТ, но оно быстро окупится при решении задач и подготовке к занятиям.

Какую электронную таблицу использовать? Общепринятым стандартом такого рода программ в России стал MS Excel. Эта программа входит (наряду с MS Word) в состав пакета MS Office, который есть сегодня во всех общеобразовательных учреждениях страны. Научиться работать с ней может каждый ученик (а учитель — тем более!).

Задания 14—17 в этой лекции мы просим сделать с помощью электронной таблицы. Ее можно использовать и при решении последующих заданий в лекциях 6—8. Просто мы не будем больше упоминать об этом специально.

Лекция 6

Случайная выборка и ее представление

В этой лекции мы узнаем, что такое выборочный метод, познакомимся с понятием случайной выборки и узнаем, в каком виде можно ее представлять.

Итак, статистика занимается сбором, систематизацией и анализом данных, полученных в результате многократных наблюдений за однородными случайными явлениями. Как мы уже убедились на прошлой лекции, эффективной формой представления статистических данных являются таблицы и диаграммы. Здесь мы используем их для представления случайной выборки.

Начнем же мы с обсуждения краеугольного камня всей статистики — выборочного метода.

1. Генеральная совокупность и случайная выборка

Основным методом статистики является выборочный метод. Суть его состоит в том, что в реальном опыте мы наблюдаем не всю совокупность явлений или объектов, которые хотели бы изучить, а лишь какую-то их часть. Например, при определении уровня заработной платы учителей практически невозможно выяснить зарплату всех работников, занятых в этой сфере, поэтому проводят выборочное обследование лишь малой их части. Или другой пример: для выяснения, какая сумма чисел выпадает на кубиках чаще всего, мы не можем продолжать наш опыт бесконечно долго. Однако с большой уверенностью можно ответить на этот вопрос уже после нескольких сотен опытов1.

Вся совокупность явлений или объектов, подлежащих статистическому исследованию, называется генеральной совокупностью. Элементами генеральной совокупности могут быть неодушевленные предметы, живые люди, природные явления, физические эксперименты и т.д. Однако в каждом конкретном исследовании генеральная совокупность должна быть достаточно однородной — по крайней мере, в отношении тех характеристик, которые мы собираемся изучать. В этом случае каждый элемент генераль-

1 Вы скажете, что после лекций 1—4 готовы ответить на вопрос и без проведения опытов — и будете правы — но только для правильных кубиков! А если в одном из кубиков находится дробинка, смещенная от центра?

ной совокупности описывается определенным набором признаков, поведение которых нас и будет интересовать. В простейших ситуациях этот признак всего один.

Пример 1. Генеральная совокупность — учителя России. Исследуемый признак—заработная плата.

Пример 2. Генеральная совокупность — бесконечная серия опытов с подбрасыванием двух кубиков. Исследуемый признак — сумма очков на кубиках.

И в том, и в другом примере практически невозможно подвергнуть обследованию всю совокупность явлений или объектов — это или слишком дорого (в первом примере), или вообще невозможно (во втором). Поэтому из всей генеральной совокупности для обследования выбирают небольшое (по сравнению с генеральной совокупностью) конечное множество элементов, которые составляют случайную выборку. Эти элементы изучают, выявляют различные характеристики и закономерности, а затем переносят полученные результаты на всю генеральную совокупность. В этом и состоит суть выборочного метода — по результатам, полученным в выборке, попытаться сделать выводы обо всей генеральной совокупности.

Понятно, что такое обобщение далеко не всегда возможно. Представьте себе ситуацию, что в первом примере мы выбрали для исследования учителей, которые работают в одной школе. Можно ли считать, что средняя зарплата учителя в этой школе приблизительно равна средней учительской зарплате по всей России? Вряд ли. Хотя и такое может быть, но маловероятно. Чтобы такие выводы можно было сделать с большей уверенностью, следовало более тщательно подойти к формированию нашей случайной выборки, сделать ее, как говорят, более репрезентативной, т.е. представительной. Видимо, при выборе учителей должны быть пропорционально представлены все регионы, виды школ, возрастные группы и т.д. Если бы у нас была возможность получить список всех учителей России, то можно было бы ввести его в компьютер, а затем с помощью датчика случайных чисел произвести этот случайный выбор. Такое решение было бы идеальным — но, оно неосуществимо на практике. Во-первых, мы никогда не сможем получить такого списка; во-вторых, если для анкетирования какого-то учителя из выборки, предложенной компьютером, придется ехать за полярный круг или подниматься высоко в горы, наше исследование окажется слишком дорогим. Поэтому приходится изобретать более практичные механизмы получения репрезентативных выборок.

Заметим еще, что, хотя в обоих примерах нас интересует поведение только одного указанного признака, лучше при проведении исследования регистрировать и те признаки, которые могут быть с ним связаны, чтобы собранная статистическая информация была как можно более полной. Например, при проведении социологического опроса среди учителей в опросный лист, скорее всего, будут включены вопросы, касающиеся возраста, стажа и пр. А при проведении опыта с кубиками лучше регистрировать не сумму выпавших очков, а количество очков, отдельно выпадавших на первом и втором кубиках. Более полная информация нужна, например, для того, чтобы, установить, какие факторы влияют на поведение интересующего нас признака, насколько велико их влияние и т.д.

* * *

В связи с тем, что в статистическом исследовании каждый элемент генеральной совокупности предстает как набор определенных, чаще всего числовых, характеристик, в математической статистике сложился более формальный взгляд на то, что такое случайная выборка. Ведь когда дело доходит до обработки результатов, то от предметов, людей или явлений остаются только ряды чисел. С этой точки зрения выборкой можно считать числовой ряд2, полученный в результате статистического наблюдения.

Более точно, случайной выборкой объема п в математической статистике называется последовательность

состоящая из независимых, одинаково распределенных случайных величин [34]. В более прикладных учебниках выборкой предпочитают называть последовательность независимых наблюдений за случайной величиной X, производимых в неизменных условиях [35]. Если угодно, все эти определения можно считать математической моделью случайной выборки.

Следуя таком подходу, мы будем часто отождествлять выборку с тем числовым рядом, который был получен в результате выборочного наблюдения. Этот числовой ряд получается, если выписать для каждого элемента выборки определенный числовой признак, который мы собираемся изучать.

2 Просим прощения у тех, кто еще не забыл значения этого термина в математическом анализе — здесь «числовой ряд» понимается просто как последовательность чисел.

Пример 1. При выборочном исследовании уровня зарплаты учителей была получена следующая выборка:

1800, 2350, 1560, 4500, 3680, 2100, 3140, 4880, 2200, 4500.

Пример 2. При выборочном исследовании суммы очков, выпадающей на двух игральных кубиках, была получена следующая выборка:

7, 6, 5, 6, 5, 7, 6, 8, 6, 2, 10, 10, 8, 10, 8, 7, 5, 9, 6, 7.

Как видите, от каждого учителя, участвующего в выборочном обследовании, осталась только его зарплата (в рублях), а от каждого опыта с кубиками — только сумма выпавших очков.

Конечно, если каждый элемент выборки описывается не одним, а несколькими признаками, нам придется рассматривать не один ряд, а несколько рядов, связанных друг с другом. Если, скажем, в первом примере ставится задача изучить связь зарплаты учителей с их педагогическим стажем, то нам понадобится еще один числовой ряд, выражающий стаж тех же самых учителей, для которых выписывалась зарплата (порядок следования чисел должен сохраняться — первому числу одного ряда соответствует первое число второго и т.д.).

Пример 1. При выборочном исследовании уровня зарплаты учителей были получены следующие данные об их трудовом стаже и зарплате:

Трудовой стаж: 1,4, 3,24, 12, 8,4, 22, 6, 28.

Зарплата: 1800, 2350, 1560, 4500, 3680, 2100, 3140, 4880, 2200, 4500.

Теперь каждый элемент выборки описывается парой чисел (ЗАРПЛАТА, СТАЖ) (в математике говорят — случайным вектором или многомерной случайной величиной). То же самое будет и в примере с кубиками, если записывать не сумму очков, а числа, выпавшие на каждом из кубиков.

Пример 2. При выборочном исследовании суммы очков, выпадающей на двух игральных кубиках, были получены следующие результаты:

Первый кубик: 2, 4, 3, 4, 2, 2, 4, 5, 4, 1, 6, 6, 6, 5, 5, 2, 4, 5, 1, 3.

Второй кубик: 5, 2, 2, 2, 3, 5, 2, 3, 2, 1, 4, 4, 2, 5, 3, 5, 1, 4, 5, 4.

Сумма очков: 7, 6, 5, 6, 5, 7, 6, 8, 6, 2, 10, 10, 8, 10, 8, 7, 5, 9, 6, 7.

Однако изучение статистических связей между различными признаками выходит за рамки школьного курса, поэтому в дальнейшем результаты всех наших выборочных обследований будут представлять собой обычные числовые ряды. Наша ближайшая цель — придумать наиболее наглядные способы представления содержащейся в них информации.

Приступая к этой задаче, нужно помнить, что объемы числовой информации, получаемой даже в простейших выборочных исследованиях, достаточно велики. Именно это и составляет главную проблему на первом этапе обработки статистических данных.

2. Таблица частот

Первый шаг, который может значительно облегчить работу с большими массивами данных, — это упорядочение. Попробуйте найти слово «пелерина» в романе Толстого «Анна Каренина» и в орфографическом словаре под ред. С.Г. Бархударова. По количеству содержащихся слов эти две книги приблизительно одинаковы, а вот по времени, затраченному на поиск, они будут различаться на несколько порядков3.

Пример 1. Среди школьников седьмых классов был проведен выборочный опрос: из скольких человек состоят их семьи? В результате такого опроса была получена следующая выборка:

2233334233232323243223245233243234332353

Здесь каждое число означает количество человек в семье соответствующего ученика. Числа выписаны в том порядке, в котором ученики сдавали свои ответы. Упорядочим эти числа по возрастанию:

2222222222222233333333333333333334444455

Статистический ряд, в котором все элементы упорядочены по возрастанию, называется ранжированным. Для анализа он гораздо удобнее: теперь мы ясно видим, что минимальное значение в нем равно 2, а максимальное — 5. Видно, как часто повторяется каждое из значений. Правда последнее замечание справедливо только благодаря тому, что выписанный ряд содержит не очень много чисел. А что делать, если этих чисел сотни или тысячи?

Совершенно очевидно, что такой ряд можно представить более компактно, если указывать только различные значения ряда и количество по-

3 На поиск нужного элемента в неупорядоченном массиве из N элементов вам придется в худшем случае затратить N шагов, а в упорядоченном - всего лишь log2 N. Мы надеемся, что вы не сделаете отсюда вывод, что «Анна Каренина» хуже орфографического словаря.

вторений каждого из этих значений. Соответствующая таблица называется частотной таблицей или таблицей распределения частот:

Состав семьи

Абсолютная частота

2

14

3

19

4

5

5

2

Первый столбец частотной таблицы содержит различные значения наблюдаемой величины, упорядоченные по возрастанию, второй столбец — сколько раз это значение повторилось в выборке, т.е. его абсолютную частоту. Таблица станет еще более информативной, если добавить к ней третий столбец, показывающий какую, долю эти значения составляют от всей выборки, т.е. их относительную частоту:

Состав семьи

Абсолютная частота

Относительная частота

2

14

0,35

3

19

0,475

4

5

0,125

5

2

0,05

Разумеется, сумма абсолютных частот будет равна объему выборки (в данном примере — количеству опрошенных учеников, т.е. 40), а сумма относительных частот — 1.

Заметим, что по таблице частот можно при желании восстановить и саму выборку, а точнее, ранжированный ряд. Для этого достаточно выписать каждое из различных значений, представленных в первом столбце таблицы, столько раз, какова его абсолютная частота.

3. Группировка данных

Итак, таблица частот делает представление статистических данных намного компактнее и информативнее. Из нее сразу видно, какие различные значения присутствовали в выборке, какие из них повторялись чаще, а какие реже. Но всегда ли дело обстоит так хорошо?

Пример 1 . На школьниках 1-го «А» класса было проведено исследование для выяснения того, сколько весит портфель первоклассника. В результате взвешиваний был получен следующий числовой ряд (масса каждого портфеля в кг):

2,1; 2,45; 1,9; 2,6; 3,1; 1,95; 3,4; 4,3; 1,15; 2,7; 2,2; 3,2; 2,4; 2,2; 1,8; 1,5; 2,4; 2,25; 2,6; 1,75. Попробуем, как и в предыдущем разделе, сделать эти данные более наглядными, представив их в виде частотной таблицы:

Масса портфеля

Абсолютная частота

Относительная частота

1,15

1

0,05

1,5

1

0,05

1,75

1

0,05

1,8

1

0,05

1,9

1

0,05

1,95

1

0,05

2,1

1

0,05

2,2

2

0,1

2,25

1

0,05

2,4

2

0,1

2,45

1

0,05

2,6

2

0,1

2,7

1

0,05

3,1

1

0,05

3,2

1

0,05

3,4

1

0,05

4,3

1

0,05

Как видите, абсолютная частота каждого значения оказалась равной 1 или 2. Это неудивительно, ведь точные совпадения в такой выборке маловероятны, а если измерять массу портфелей еще точнее, то совпадений не будет вовсе. Ясно, что составлять для такой выборки таблицу частот бессмысленно — никакого наглядного представления мы при этом не получим.

В такой ситуации для наглядного представления результатов выборки приходится группировать данные и представлять их в виде интервальной таблицы частот. Весь диапазон значений выборки разбивают на интервалы (чаще всего равные) и подсчитывают частоту попадания в каждый интервал. Интервалов должно быть не очень мало и не очень много — обычно 5—10. Если интервалов будет мало, то от нас ускользнут детали распределения, если много — то мы придем к такой же картине, которая была и без группировки4.

Вот как будет выглядеть интервальная таблица частот в нашем примере, если разбить диапазон от 1 до 5 кг на четыре равных интервала:

Масса портфеля

Абсолютная частота

Относительная частота

от 1 до 2

6

0,3

от 2 до 3

10

0,5

от 3 до 4

3

0,15

от 4 до 5

1

0,05

При попадании значения на границу интервалов его относят к какому-то одному из них (например, левому), чтобы не считать дважды. Так, если бы у кого-то из первоклассников портфель весил ровно 3 кг, мы включили бы это значение в интервал от 2 до 3 кг.

* * *

В некоторых задачах таблицу частот удобно дополнить еще одной характеристикой, получившей название накопленной частоты. Рассмотрим ее использование на примере.

Пример 2. Перед вами еще одна интервальная таблица частот—распределение семей по уровню доходов:

Доход на человека (в руб.)

Относительная частота

менее 500

2%

от 500 до 1000

6%

от 1000 до 1500

7%

от 1500 до 2000

12%

от 2000 до 2500

36%

от 2500 до 3000

27%

свыше 3000

10%

4 Количество интервалов во многом зависит от объема выборки и выбирается так, чтобы почти в каждом интервале, кроме крайних, оказалось хотя бы по пять значений выборки.

На этот раз относительные частоты в ней даны в процентах. Предположим, вы услышали по телевизору фразу: «Около 12% семей живет сейчас за чертой бедности». Попробуем определить по имеющейся у нас таблице эту «черту». Для этого нам придется суммировать относительные частоты в правом столбце таблицы до тех пор, пока мы не наберем сумму частот, превышающую 12%. Остановимся в этой строке и посмотрим, чему в это время равно значение в первом столбце — от 1000 до 1500 рублей. Если мы хотим определить эту черту более точно, поделим отрезок от 1000 до 1500 в нужной пропорции. Для этого заметим, что к началу этого отрезка сумма частот составляла 8%, а к концу стала равна 15%. Значит, интересующее нас значение х можно найти из пропорции:

Это и есть та самая черта, которую диктор назвал «уровнем бедности».

Решая эту задачу, мы должны были производить накопительное суммирование относительных частот до тех пор, пока не будет достигнут заданный уровень — 12%. Поскольку эти результаты можно использовать и для решения других задач, удобно хранить полученные результаты — накопленные частоты — в отдельном столбце таблицы:

Доход на человека (в руб.)

Относительная частота

Накопленная частота

менее 500

2%

2%

от 500 до 1000

6%

8%

от 1000 до 1500

7%

15%

от 1500 до 2000

12%

27%

от 2000 до 2500

36%

63%

от 2500 до 3000

27%

90%

свыше 3000

10%

100%

Отметим, что последняя накопленная частота всегда равна 1 (или 100%). Объясните сами почему.

4. Полигон и гистограмма

Итак, мы научились представлять результаты статистических исследований в виде частотных таблиц, которые позволяют значительно «компак-

тифицировать» числовые данные и повышают их наглядность. Однако по опыту предыдущей лекции (да и без него) мы знаем, что еще более наглядным способом представления числовой информации является графический.

Начнем с частотных таблиц, в которых данные не сгруппированы. Для наглядного представления результатов такой выборки в описательной статистике используют так называемый полигон частот — кусочно-линейный график, на котором по горизонтальной оси откладываются различные значения, полученные в выборке, а по вертикальной — их относительная частота. После этого полученные точки соединяются ломаной линией. Отсюда и название: полигон, в переводе с греческого означает многоугольник.

Полигон частот для примера 1 из раздела 2 изображен на рис. 1 :

Рис. 1

Данные интервальной таблицы частот принято представлять уже не полигоном, а гистограммой частот: по горизонтальной оси откладываются интервалы значений, а над каждым интервалом строится столбик, площадь которого равна относительной частоте попадания в данный интервал. Обратите внимание: именно площадь, а не высота. Хотя если интервалы равные, то высоты всех столбиков отличаются от соответствующих частот только постоянным множителем — длиной интервала. Гистограмма частот для примера 1 из раздела 3 изображена на рис. 2:

Рис. 2

Приведем еще несколько примеров, в которых наглядность полигона и гистограммы будет выражена ярче, поскольку в этих примерах будет гораздо больше исходных данных.

Пример 1. Перед вами результаты серии экспериментов по одновременному подбрасыванию десяти монет. В каждом эксперименте подсчитывалось количество монет, выпавших на «орла». Результаты представлены следующим числовым рядом:

5, 4, 5, 6, 2, 6, 8, 6, 3, 4, 5, 8, 5, 2, 5, 2, 5, 7, 3, 3, 5, 4, 5, 5, 6, 5, 7, 6, 3, 5, 5, 5, 5, 6, 5, 5, 5, 4, 7, 4, 5, 4, 5, 7, 7, 7, 6, 6, 4, 4.

Составим по нему таблицу частот:

Число орлов

Абсолютная частота

Относительная частота

0

0

0

1

0

0

2

3

0,06

3

4

0,08

4

8

0,16

5

19

0,38

6

8

0,16

7

6

0,12

8

2

0,04

9

0

0

10

0

0

Покажем их на полигоне:

Результаты вполне согласуются с интуицией: чаще всего «орел» выпадает на пяти из десяти монет, несколько реже на четырех и шести и т.д. Интересно посмотреть, насколько частоты этих исходов отличаются от теоретических вероятностей, которые мы сможем посчитать в конце нашего курса на самой последней лекции:

Пример 2. А вот так выглядит гистограмма распределения цен на однокомнатные квартиры (реальная выборка по газетным объявлениям на основе 347 квартир):

Мы не будем приводить здесь интервальную таблицу частот, а тем более исходную выборку: гистограмма дает гораздо более наглядное представление о ценах на этом рынке.

Вопросы и задачи

К разделу 1

1. Что такое генеральная совокупность? Что такое случайная выборка? Приведите примеры.

2. В чем суть выборочного метода?

3. Опишите генеральную совокупность при проведении выборочных статистических исследований для определения следующих величин:

а) наиболее популярной марки автомобиля;

б) рейтинга действующего президента;

в) годового потребления алкоголя;

г) частоты разводов;

д) наиболее вероятного числа бросаний кубика до появления первой шестерки.

4. Определите, являются ли репрезентативными следующие выборки:

а) автомобильные аварии в июне, если необходимо составить статистический отчет по авариям в городе за год;

б) городские жители, при подсчете числа автомобилей на душу населения в стране;

в) городские жители, при выяснении спроса на различные размеры обуви;

г) люди в возрасте от 40 до 50 лет, при выяснении рейтинга молодежной телепрограммы;

д) девушки в возрасте от 15 до 25 лет, при выяснении рейтинга молодежной телепрограммы.

5. Хрестоматийный пример неудачного выборочного обследования — опрос, проведенный американским журналом «Литературное обозрение» накануне президентских выборов 1936 года. Кандидатами на этих выборах были Рузвельт и Ландон. Чтобы сделать случайную выборку, редакция использовала телефонные книги. Из них с помощью датчика случайных чисел были выбраны абоненты, которым разослали открытки с просьбой ответить на вопрос, за кого они будут голосовать. Затратив кругленькую сумму на это мероприятие, журнал объявил, что с большим перевесом будет избран Ландон. На выборах победил Рузвельт. В чем состояла ошибка редакции?

К разделам 2 и 4

6. Что такое частотная таблица? Какие виды частот вы знаете?

7. Что такое полигон и как он строится?

8. В детском обувном магазине за неделю было куплено 750 пар обуви. Кладовщик Калошин проводил статистическое исследование и с этой целью записывал размеры каждой пятой из купленных пар. Эти числа составили следующий ряд данных:

23, 24, 16, 21, 18, 17, 20, 23, 18, 16, 19, 18, 22, 19, 21, 17, 24, 15, 23, 19, 16, 22, 18, 24, 19, 17, 22, 19, 15, 23, 21, 23, 19, 23, 17, 22, 16, 19, 22, 18, 20, 15, 21, 23, 19, 18, 23, 22, 20, 17, 19, 23, 21, 24, 22, 23, 20, 22, 21, 18, 16, 19, 22, 23, 20, 24, 21, 19, 24, 16, 20, 23, 24, 18, 22, 17, 15, 21, 24, 20, 19, 17, 21, 20, 15, 23, 24, 18, 16, 22, 23, 24, 21, 15, 23, 22, 20, 23, 19, 20, 17, 22, 19, 20, 24, 15, 23, 18, 22, 23, 15, 21, 15, 24, 19, 18, 19, 17, 15, 19, 23, 20, 17, 22, 23, 20, 18, 22, 19, 20, 18, 19, 24, 18, 16, 21, 24, 17, 15, 20, 22, 21, 24, 22, 18, 22, 18, 24, 15,21.

а) Постройте таблицу абсолютных, относительных и накопленных частот и нарисуйте полигон относительных частот.

б) Сколько, приблизительно, пар обуви 20-го размера продает магазин за год?

9. Заполните в данной таблице столбец абсолютных частот, используя относительные и зная, что объем выборки равен 60:

Значение ряда

Абсолютная частота

Относительная частота

1

0,05

2

0,1

3

0,25

4

0,35

5

0,2

6

0,05

10.Заполните в данной таблице столбец относительных частот, используя накопленные:

Значение ряда

Относительная частота

Накопленная частота

1

0,2

2

0,4

3

0,5

4

0,65

5

0,95

6

1

11. Перед вами результаты последнего тиража лотереи «Спортлото», в которой нужно правильно угадать 6 номеров из 49:

Количество угаданных номеров

Количество карточек

0

5200

1

4950

2

1626

3

211

4

12

5

1

6

0

Проведите расчеты и проверьте, согласуются ли полученные в этой выборке частоты с вероятностями соответствующих событий (см. материал лекции № 2).

12. Следующая таблица содержит данные о количестве забитых мячей в матчах 1-го круга чемпионата России по футболу:

Число забитых мячей

Количество матчей

0

29

1

42

2

40

3

37

4

22

5

9

6

6

7

3

8

1

11

1

а) Дополните ее столбцами относительных и накопленных частот.

б) Постройте полигон относительных частот.

в) В каком проценте матчей было забито не более трех мячей?

г) Сколько всего команд участвовало в чемпионате?

13. Перед вами данные, полученные в результате 100-кратного бросания монеты:

000РОРООРРРРР000РРРООРОРРОРРРОРРОРОРРОРР ОР000ОР000ОРРРРОРРРРОР000РРРРОРРОРОРРРРО 000РОРООРРРРРРООРОРР

Попробуйте по этим данным заполнить таблицу и нарисовать полигон относительных частот для величины, равной числу бросков до появления первого «орла»:

Число бросков

Абсолютная частота

Относительная частота

1

2

Указание : разбейте всю серию из О и Р на блоки, которые заканчиваются на О:

О О О РО РО О РРРРРО О О РРРО ...

Какое количество бросков до появления первого «орла» по этим данным наиболее вероятно? Попробуйте получить этот ответ теоретически.

К разделам 3 и 4

14. Что такое группировка данных? Что такое интервальная таблица частот?

15. Что такое гистограмма и как она строится?

16. В отделе мужской обуви универмага в течение дня производился учет стоимости проданной обуви. Были получены следующие результаты (в рублях):

1200, 1110, 2300, 890, 320, 1200, 560, 1340, 1400, 1050, 1050, 4700, 3200, 2900, 2100, 2450, 890, 1110, 1200, 1200, 2300, 1050, 1400, 1200, 890, 320, 1320, 890, 1100, 1050.

а) Представьте эти данные в виде интервальной таблицы абсолютных и относительных частот, разбив диапазон цен от 0 до 5000 рублей на интервалы длиной по 1000 рублей.

б) Постройте гистограмму относительных частот. Какой интервал цен оказался самым популярным?

в) Общая стоимость всей проданной за день обуви составила 43 690 рублей (это сумма всех чисел, приведенных в условии задачи). Как можно приближенно получить этот результат по составленной вами интервальной таблице частот? Получите его и сравните с точным значением суммы. Чем объясняется полученная разница?

17. В интервальной таблице частот показано распределение новобранцев N-ской части по росту:

Рост (в см)

Абсолютная частота

от

до

152

156

2

156

160

6

160

164

18

164

168

69

168

172

107

172

176

109

176

180

96

180

184

64

184

188

22

188

192

7

а) Дополните таблицу столбцами относительных и накопленных частот.

б) Постройте гистограмму относительных частот.

в) В части имеется равное количество плащ-палаток трех ростов — коротких, средних и длинных. Распределите их между новобранцами наиболее подходящим образом. Указание: используя столбец накопленных частот, разбейте новобранцев на три равные по численности «ростовые» группы.

18. В таблице представлены данные социологического опроса о количестве времени, проводимого зрителями у телевизора в течение одного дня:

Время у телевизора (в ч)

Доля зрителей (в %)

менее 1

10,1

от 1 до 2

15,1

от 2 до 3

17,1

от 3 до 4

16,0

более 4

41,7

При каких X следующее высказывание не противоречит данным таблицы: «Половина опрошенных проводит у телевизора до х часов в день, другая половина — свыше х часов»? Указание: добавьте к таблице столбец накопленных частот.

19. Рассмотрите еще раз примеры 1 и 2 из первого раздела лекции (зарплата учителей и сумма очков на двух кубиках). Какие способы наглядного представления приведенных там статистических данных вы теперь знаете? Воспользуйтесь ими и сделайте такое представление.

Методические замечания

По поводу этой темы стандарт предельно краток: Основная школа. Статистические данные. Понятие о статистическом выводе на основе выборки.

К разделу 1

Выборочный метод лежит в основе всех реальных статистических исследований, а с разговора о генеральной совокупности и случайной выборке начинается любой курс статистики (как прикладной, так и математической).

В примерах и задачах мы рассматриваем два разных типа генеральных совокупностей:

• множества реальных объектов (они всегда конечны, хотя, как правило, очень большие по численности);

• множества случайных опытов или явлений (как правило, потенциально бесконечные).

От учащихся вполне достаточно представления о случайной выборке как случайном выбранном подмножестве объектов генеральной совокупности. Полезно обсудить возможные механизмы такого выбора в различных реальных ситуациях. С этими механизмами связано понятие репрезентативности, которое необходимо рассмотреть хотя бы на интуитивном уровне. Если при изучении предыдущей темы, посвященной анализу данных, вам удалось провести со школьниками какие-либо реальные опросы, полезно выяснить, что было в каждом из них генеральной совокупностью, а что случайной выборкой, обладала ли выборка свойством репрезентативности.

Еще один момент, на котором стоит остановиться, — переход от случайной выборки к числовому ряду. Для учащихся не должно быть новостью, что в математике реальные объекты и явления представляются их математическими абстракциями. Это касается и любых статистических исследований: каждый объект или явление заменяются в них набором числовых характеристик, а в простейшем случае — одним числом (целым или действительным). Набор таких чисел образует числовой ряд, который также называется случайной выборкой. Такая двойственность терминологии обычно не вызывает путаницы.

В статистике термины «случайная выборка» и «числовой ряд» часто используются параллельно. Формально все методы, рассмотренные в этой лекции (получение частотных таблиц, построение диаграмм, вычисление числовых характеристик), можно применить к любому ряду чисел, но содержательные выводы из всех этих манипуляций можно получить только в том случае, если вспомнить, что этот ряд чисел был получен как случайная выборка из некоторой генеральной совокупности.

К разделу 2

Упорядочение данных лежит в основе любой автоматической обработки данных и является, обычно, первым шагом такой обработки. В статистике этому шагу соответствует переход от выборки к ранжированному ряду. Если позволяет время, можно обсудить различные методы упорядочения массивов (эта тема рассматривается на уроках информатики), посмотреть, как это делается с помощью электронных таблиц.

По опыту изучения предыдущей темы учащиеся уже знают, что таблицы являются удобным способом представления данных. В этом разделе

рассматривается особый вид таких таблиц — частотные таблицы, построенные на основе числового ряда.

Учащиеся должны четко усвоить терминологию и понимать, что такое абсолютные, относительные и накопленные частоты и в чем их содержательный смысл; уметь восстанавливать по одному виду частот другие. Нужно обратить внимание на то, что по абсолютным частотам относительные частоты восстанавливаются однозначно, а для обратной операции необходимо знать объем выборки. Замечательно, если построение частотных таблиц удастся провести с использованием MS Excel: это значительно ускорит работу и позволит обрабатывать большие объемы данных.

При рассмотрении выборок, полученных в результате проведения случайных опытов, полезно вспомнить о связи относительных частот и вероятностей. Если опыт имеет равновозможные исходы, рекомендуем сравнить относительные частоты, полученные в выборке, с вероятностями соответствующих исходов опыта.

К разделу 3

Необходимость в группировке данных возникает в том случае, когда требуется наглядно представить распределение частот для признака, значения которого в выборке почти не повторяются.

В статистике в связи с этим вводят понятия дискретного и непрерывного признака. Если признак может принимать значения из конечного (как правило небольшого) набора значений, его называют дискретным. Если же возможные значения представляют собой непрерывный промежуток (конечный или бесконечный), то говорят о непрерывном признаке. Понятно, что необходимость в группировке возникает именно для непрерывных признаков.

Заметим, однако, что один и тот же признак может рассматриваться в одних случаях как дискретный, а в других — как непрерывный. Очень часто это определяется точностью измерений. Если, скажем, в примере 1 взвешивать портфели на безмене, точность которого не превышает 0,5 кг, то необходимости в группировке не возникает. Точнее, эта группировка происходит еще на этапе сбора данных: каждую реальную массу портфеля мы заменяем ее грубым приближением, разбивая весь интервал возможных значений массы на промежутки длиной 0,5.

При группировке данных достаточно тонким делом является выбор количества интервалов. На наш взгляд, здесь вполне достаточно ограничиться рекомендацией, чтобы число интервалов было не очень большим и не

слишком маленьким, объяснив причину такого выбора. В некоторых учебниках по прикладной статистике можно встретить различные «магические» формулы типа формулы Старжессона, в которой число интервалов к определяется по формуле:

*= [1,44-Inn] + 1.

Вряд ли стоит относится к ним слишком серьезно и, тем более, давать их школьникам в качестве ориентира.

К разделу 4

Использование полигонов и гистограмм возвращает нас к теме графического представления статистических данных.

При рассмотрении полигонов нужно понимать, что «промежуточные» значения полученной кусочно-линейной функции не имеют смысла. Поскольку рассматриваемый признак меняется дискретно, то мы имеем дело с графиком функции, областью определения которой является дискретный набор точек. Соединение этих точек отрезками служит лишь для повышения наглядности графика.

При построении гистограмм еще раз хотим обратить внимание, что высота каждого столбика выбирается так, чтобы его площадь равнялась относительной частоте. Это требование вводится для того, чтобы сумма площадей всех столбиков на диаграмме равнялась 1. Если рассматривать гистограмму как график кусочно-постоянной функции, то можно сказать, что интеграл от нее равен 1. Вспомним, что этим свойством обладает плотность распределения для любой непрерывной случайной величины. Выбор такого способа нормировки столбцов по высоте позволяет рассматривать гистограмму как приближение для неизвестной нам плотности распределения и сравнить ее с какой-либо известной плотностью, как это было сделано в примере 1 для полигона. Так, например, полученную в примере 2 гистограмму можно попытаться приблизить к нормальной кривой, о которой еще пойдет речь в дальнейшем.

Лекция 7

Числовые характеристики выборки

В этой лекции мы узнаем, каким образом весь массив данных, представленных в выборке, можно охарактеризовать несколькими числовыми параметрами.

Английский статистик Р. Фишер писал: «Статистика может быть охарактеризована как наука о сокращении и анализе материала, полученного в наблюдениях». Вся предыдущая лекция была посвящена «борьбе» с обилием статистической информации. Мы научились представлять ее более наглядно и более компактно: в виде таблиц и диаграмм.

Теперь мы пойдем еще дальше и попробуем заменить всю совокупность числовых данных, полученных в выборке, одним-двумя числовыми параметрами, которые будут своеобразной квинтэссенцией всей выборки.

1. Характеристики среднего

Характеристики среднего описывают положение всего числового ряда в целом на числовой прямой. Их часто называют также характеристиками положения.

Наиболее известной и употребительной такой характеристикой является среднее арифметическое всех членов данного ряда, т.е.

В статистике эту величину называют еще средним значением или выборочным средним. В большинстве реальных исследований именно среднее арифметическое несет наиболее важную (но, разумеется, не всю!) информацию об изучаемом явлении. Достаточно вспомнить выражения «средний балл», «средняя зарплата», «средний доход», хорошо знакомые и понятные большинству людей, далеких от математики.

Пример 1. Пусть ученик получил в течение первой учебной четверти следующие отметки по алгебре:

Найдем его средний балл, т.е. среднее арифметическое всех членов ряда:

Именно эта величина, скорее всего, будет главным ориентиром для учителя при выставлении четвертной оценки. Заметьте, что среднее значение ряда вполне может не совпадать ни с одним из его элементов. В нашем примере средний балл получился 4,4, хотя все оценки выражались целыми числами. Следуя полученному результату, ученику придется поставить 4.

* * *

Посмотрим еще раз на приведенный ряд. А какую итоговую отметку поставили бы этому ученику вы? Думаю, что многие ответили бы — «5». Можно привести весомый аргумент в пользу такого решения: ведь именно такую оценку ученик получал в течение четверти чаще всего. Такая числовая характеристика называется в статистике модой.

Итак, модой числового ряда называют число, которое встречается в этом ряду наиболее часто. Можно сказать, что оно в этом ряду самое «модное». Для нашего примера мода равна 5.

В отличие от среднего арифметического, которое можно вычислить для любого числового ряда, моды у ряда может вообще не быть. Например, пусть тот же ученик получил по русскому языку следующие отметки:

4, 2,3,5.

Каждая отметка встречается в этом ряду только один раз, и среди них нет числа, встречающегося чаще других. Значит, у этого ряда нет моды. Иногда используют в этой связи другую терминологию: ряд, имеющий единственную моду, называют унимодальным, а ряд, у которого моды нет (или, если угодно, мод несколько) — полимодальным.

* * *

Еще одной важной средней характеристикой числового ряда является его медиана — число ряда, которое делит его ровно пополам. Более точно, медианой числового ряда называют число этого ряда (или полусумму двух его чисел), слева и справа от которого на числовой прямой лежит одинаковое количество членов ряда.

Чтобы найти медиану числового ряда, нужно его сначала упорядочить — составить ранжированный ряд. В нашем примере с оценками он выглядит так:

2, 4, 4, 4,5,5,5,5,5,5.

Если ряд содержит нечетное число членов, то нужно взять число, которое находится ровно посередине. Если ряд содержит четное число членов (как в нашем примере), то нужно взять два средних числа и найти их полусумму:

Итак, мы ввели в рассмотрение три числовых характеристики для описания поведения числового ряда в среднем:

• среднее арифметическое;

• мода;

• медиана.

Обсудим теперь особенности каждой из этих величин. Прежде всего заметим, что далеко не всегда имеет смысл вычислять все три характеристики. И дело здесь не в том, что какая-то из них может не существовать — это, как уже было сказано, касается только моды. Дело в том, что во многих ситуациях какая-то из характеристик может не иметь никакого содержательного смысла.

Пример 2. Гвозди в магазине продают на вес. Чтобы оценить, сколько гвоздей содержится в одном килограмме, дядя Вася решил найти массу одного гвоздя. Для повышения точности измерений он взвесил на лабораторных весах несколько разных гвоздей и получил следующий ряд чисел (масса гвоздей в граммах):

4,47; 4544; 45б4; 4,32; 4,45; 4,32; 4,54; 4,58.

Какую из характеристик — среднее арифметическое, моду или медиану этого ряда — ему следует взять в качестве оценки веса одного гвоздя? Найдем все три характеристики:

3?= 4,47, Мо=4,32; Ме=4,46.

Самой подходящей харктеристикой по смыслу задачи является среднее арифметическое. Несильно отличается от него и медиана, которая тоже вполне пригодна для оценки средней массы. А вот мода здесь вряд ли подойдет, поскольку все значения полученного ряда разные, и совпадение двух чисел 4,32 вряд ли отражает какую-то существенную закономерность в изготовлении гвоздей.

Таким образом, при формальном существовании всех трех характеристик, разумно использовать можно только две из них. Какую именно — все равно, поскольку они в данном случае очень близки друг к другу.

А вот пример, в котором, наоборот, мода содержит больше полезной информации.

Пример 3. Перед нами ранжированный ряд, представляющий данные о времени дорожно-транспортных происшествий на улицах Москвы в течение одних суток (в виде ч:мин):

0:15, 0:55, 1:20, 3:20, 4:10, 6:10, 6:30, 7:15, 7:45, 8:40, 9:05, 9:20, 9:40, 10:15, 10:15, 11:30, 12:10, 12:15, 13:10, 13:50, 14:10, 14:20, 14:25, 15:20, 15:20, 15:45, 16:20, 16:25, 17:05, 17:30, 17:30, 17:45, 17:55, 18:05, 18:15, 18:45, 18:50, 19:45, 19:55, 20:30, 20:40, 21:30, 21:45, 22:10, 22:35.

Как и для любого ряда, в данном случае мы можем найти среднее арифметическое — оно равно 13:33. Однако вряд ли имеет какой-то смысл утверждение типа «аварии на улицах Москвы происходят в среднем в 13 часов 33 минуты». В то же время, если сгруппировать данные этого ряда в интервалы, можно найти такой временной интервал, когда происходит наибольшее количество ДТП (такую характеристику называют интервальной модой). Получив такую характеристику, соответствующим службам имеет смысл серьезно проанализировать, почему именно в этот временной интервал происходит наибольшее количество происшествий, и попытаться устранить их причины.

И, наконец, пример, где удобнее пользоваться медианой.

Пример 4. На школьной спартакиаде проводится несколько квалификационных забегов на 100 метров, по результатам которых в финал выходит ровно половина от числа всех участников. Перед вами результаты всех спортсменов. Какой результат позволяет пройти в финал?

15,5; 16,8; 21,8; 18,4; 16,2; 32,3; 19,9; 15,5; 14,7; 19,8; 20,5; 15,4.

Здесь для ответа на вопрос нужно вычислить медиану: Me =17,6. Спортсменов, которые имеют результат выше найденного, будет как раз половина от числа всех участников. А вот результат выше среднего арифметического, которое равно здесь х = 18,9 , еще не позволяет рассчитывать на выход в финал: в списке есть спортсмен с результатом 18,4, который не попадает в финал. Мода этого ряда равна Mo =15,5 и дает слишком завышенную оценку для «среднего результата».

Посмотрим теперь более внимательно на некоторые интересные свойства среднего арифметического, моды и медианы, вытекающие из их определения.

Среднее арифметическое числового ряда является его наиболее естественным «центром». Если нарисовать все члены ряда на числовой прямой, то среднее арифметическое будет их центром масс. Точнее, представим себе, что в каждой из точек \, х2,хп на числовой оси находятся грузы одинаковой массы. Если теперь «подвесить» числовую ось в точке х, то вся система будет находиться в равновесии. Вот так, например, это будет выглядеть для числового ряда из последнего примера 4:

Из определения среднего арифметического вытекает и еще целый ряд замечательных свойств, многие из которых вы найдете в задачах после этой лекции. В частности, будет выяснено, как ведет себя среднее арифметическое при сдвиге или умножении всех членов ряда на одно и то же число.

Моду имеет смысл вычислять, если наблюдаемая величина имеет не очень много (по сравнению с объемом выборки) различных значений, а значит, числовой ряд включает большое число совпадающих чисел. Правда, и в этом случае, ряд, как уже говорилось, может быть полимодальным.

Особенностью моды является еще и то, что ее можно использовать не только в числовых рядах. Если, например, опросить большую группу учеников, какой школьный предмет им нравится больше всего, то модой этого ряда ответов окажется тот предмет, который будут называть чаще остальных. Это одна из причин, по которой мода широко используется при изучении спроса и проведении других социологических исследований. Например, при решении вопросов, в пачки какого веса фасовать масло, какие откры-

вать авиарейсы и т.п. предварительно изучается спрос и выявляется мода — наиболее часто встречающийся заказ. И даже выборы президента, с точки зрения статистики, не более, чем определение моды...

Достоинством медианы является ее большая по сравнению со средним арифметическим «устойчивость к ошибкам». Представим себе, что в таблицу результатов из примера 4 вкралась досадная оплошность: при записи одного из чисел мы пропустили десятичную запятую и вместо 21,8 написали 218. Тогда среднее арифметическое результатов возрастет с 18,9 секунд до 35,25 секунд, а медиана будет по-прежнему 17,6 секунд!

2. Вычисление средних по таблице частот

Мы дали определение трех числовых характеристик, которые можно вычислить для произвольного числового ряда. Однако в статистике, как мы уже говорили на предыдущей лекции, результаты наблюдений удобно представлять не в виде последовательности чисел, а в виде таблицы частот. Как в этом случае найти среднее арифметическое, моду и медиану?

Конечно, можно пойти по такому пути: восстановить по таблице саму выборку (точнее, ранжированный ряд) и «свести задачу к предыдущей»1. К счастью, в этом случае есть более рациональный способ вычислений.

Вернемся к примеру, с которого начиналась эта лекция: ученик получил в течение года следующие отметки по алгебре:

Представим эти данные в виде таблицы частот:

Отметка

Абсолютная частота

Относительная частота

Накопленная частота

2

1

0,1

0,1

4

3

0,3

0,4

5

6

0,6

1

ИТОГО

10

1

1 По этому поводу есть забавный «математический» анекдот: Физику и математику предлагают вскипятить воду, предоставив в распоряжение пустой чайник, газовую горелку и водопроводный кран. Оба решают эту задачу одинаково: зажигают газ, наливают воду в чайник и ставят его на плиту. После этого им предлагают решить ту же задачу, но при условии, что газ уже зажжен, а вода налита. Физик просто ставит чайник на плиту Математик гасит горелку, выливает воду и сводит задачу к предыдущей.

Мы уже знаем, что для вычисления среднего арифметического надо сложить все числа ряда и поделить полученную сумму на их количество — получится 4,4.

Но если мы знаем, сколько раз повторяется в выборке каждое значение (т.е. знаем его абсолютную частоту), вместо многократного сложения одного и того же числа можно умножить его на абсолютную частоту. Отсюда получается формула для среднего арифметического, использующая абсолютные частоты значений ряда:

Поделим теперь каждое слагаемое в этой формуле на знаменатель — получим формулу для среднего арифметического с помощью относительных частот:

2 0,1 + 4 0,3+5 0,6 = 4,4.

Особенно ощутим выигрыш от использования приведенных формул, когда чисел в выборке много и они многократно повторяются. Запишем найденные формулы в общем виде. Пусть ava2,...,ak — все различные значения, встречавшиеся в выборке; г\,п2, ...,пк— их абсолютные частоты; fv /2,fk — их относительные частоты. Тогда среднее арифметическое выборки может быть найдено по любой из двух формул:

Что касается моды и медианы, то их вычисление по таблице частот происходит еще проще.

Для вычисления моды нужно найти максимальное значение в столбце абсолютных или относительных частот и выбрать соответствующее ему значение числового ряда. В нашем случае максимальная частота равна 6, значит, модой выборки будет 5. Если максимальных частот в таблице несколько, то выборка не имеет моды (будет полимодальной).

Для вычисления медианы нужно найти первое значение накопленной частоты, превосходящее 0,5, и выбрать соответствующее ему значение числового ряда. В нашем случае накопленная частота впервые превос-

ходит 0,5 только в последней строке таблицы, значит, медианой выборки будет 5.

А что будет медианой выборки, если одна из накопленных частот в точности равна 0,5? Во-первых, это может случиться только в том случае, если ряд имеет четное число слагаемых. Во-вторых, ровно посредине ранжированного ряда будут находиться два значения: то, для которого накопленная частота равна 0,5, и следующее за ним. Значит, для вычисления медианы нужно взять их полусумму.

* * *

Вычисление числовых характеристик выборки по интервальной таблице частот нуждается в дополнительном рассмотрении. Ведь в такой таблице первый столбец занимают не числовые значения ряда, а целые интервалы. Каким образом умножать их на абсолютные или относительные частоты? В этом случае вместо интервалов используют их середины, т.е. полусуммы концов интервала.

Пример 1. Вычислим, сколько в среднем весит портфель первоклассника по данным, приведенным в примере 3 предыдущей лекции:

Масса (в кг)

Абсолютная частота

Относительная частота

от 1 до 2

6

0,3

от 2 до 3

10

0,5

от 3 до 4

3

0,15

от 4 до 5

1

0,05

С использованием абсолютных частот:

С использованием относительных частот:

1,5 0,3+2,5 0,5 + 3,5 0,15 + 4,5 0,05 = 2,45.

Конечно, при вычислении числовых характеристик выборки по интервальной таблице частот получаются только их приближенные значения — ведь мы заменяем целую группу чисел, попадающих в интервал, его серединой. Но с таким приближением вполне можно смириться: во-первых, ве-

личина интервалов небольшая; во-вторых, исходные значения выборки, как правило, лежат как слева, так и справа от середины; наконец, в-третьих, все статистические характеристики все равно носят изменчивый характер — в другой выборке они получатся иными. Так, в нашем примере с портфелями точное (до грамма) значение среднего арифметического будет 2,283 кг, в чем вы можете убедиться, если посчитаете его не по интервальной таблице частот, а по самой выборке, приведенной в разделе 3 предыдущей лекции. Но вряд ли такая точность имеет смысл в реальных статистических исследованиях.

Для вычисления моды и медианы по интервальной таблице частот в качестве моды берется целый интервал или его середина (в зависимости от постановки задачи), а для вычисления медианы используют пропорциональное деление отрезка, на котором происходит «перевал» накопленной частоты через 0,5.

Разберем это на нашем примере с портфелями. Переход накопленной частоты через 0,5 происходит на интервале от 2 до 3. При этом, в левом конце интервала накопленная частота равна 0,3, а в правом — 0,8 (рис. 1).

Рис. 1

Обозначив неизвестную нам медиану через Me, составим следующую пропорцию:

Откуда Me = 2,4.

В общем случае нужно найти такой интервал (а., а.+1), что F. < О,5 , а > 0,5 (через а. обозначены значения ряда, через F. — накопленные частоты). После этого медиана может быть вычислена по формуле:

3. Характеристики разброса

В предыдущих пунктах лекции мы рассмотрели числовые характеристики, позволяющие оценить поведение числового ряда «в среднем». Понятно, что это далеко не всегда дает полное представление о поведении изучаемой величины2. Например, на планете Меркурий средняя температура+15°. Исходя из этого статистического показателя, можно подумать, что на Меркурии умеренный климат, удобный для жизни людей. Однако на самом деле это не так. Температура на Меркурии колеблется от -150° до +350°.

Значит, чтобы получить представление о поведении числового ряда, помимо средних характеристик надо знать характеристики разброса или рассеяния, показывающие, насколько значения ряда различаются между собой, как сильно они разбросаны, рассеяны вокруг средних. Простейшей такой характеристикой является размах.

Размах — это разность наибольшего и наименьшего значений ряда данных.

Для температуры на Меркурии, например, размах равен 350° - (-150°) = = 500°. Конечно, такого перепада температур человек выдержать не может.

Размах очень просто вычисляется, но не всегда несет достоверную информацию, т.к. на его величину может сильно повлиять какое-то одно (возможно, ошибочное) значение статистического ряда.

Вот почему в реальных статистических исследованиях чаще используют другую характеристику разброса, которая сложнее вычисляется, но зато меньше подвержена таким колебаниям. Прежде, чем определить эту величину, рассмотрим на примере, какой самый естественный способ вычисления «среднего отклонения от среднего».

2 Вообще, неполнота информации, заключенной в средних величинах, — излюбленная тема для всевозможных статистических шуток и анекдотов. Наиболее любимый из них — «средняя температура по больнице 36,6°».

Пример 1. Дан числовой ряд, который представляет собой стоимость одного литра бензина на 10 автозаправочных станциях (в рублях):

15,2; 14,8; 15; 14,9; 15; 15,5; 14,8; 15; 15,2; 14,8.

Найдем среднее арифметическое этих цен:

Самым естественным, на первый взгляд, кажется посчитать отклонение от среднего для каждого члена ряда и затем найти их среднее арифметическое:

Мы получили нуль совсем не случайно: при вычислении «среднего разброса» по такой формуле часть отклонений входит в сумму со знаком «плюс», часть — со знаком «минус», а в сумме всегда получается нуль. Доказательство этого факта для произвольного числового ряда не составляет труда:

Какой же выход? Можно суммировать, например, модули отклонений — тогда уж нуля точно не будет. Иногда так и поступают, но с модулем не всегда удобно работать3. Поэтому в статистике решили складывать не модули отклонений, а их квадраты — они ведь тоже неотрицательные. Так появилось понятие дисперсии числового ряда.

Дисперсией числового ряда называется среднее арифметическое квадратов отклонений от среднего арифметического:

Найдем дисперсию числового ряда из нашего примера с ценами на бензин. Среднее арифметическое мы уже вычислили — оно равно 15,02. Найдем теперь дисперсию, т.е. среднее арифметическое квадратов отклонений от среднего:

3 Вспомните, сколько сложностей модуль вызывает у школьников!

Есть другой способ вычисления дисперсии: нужно сначала вычислить среднее арифметическое самих чисел, затем — среднее арифметическое их квадратов и, наконец, из среднего арифметического квадратов вычесть квадрат среднего арифметического.

Проверим справедливость этой формулы на нашем примере:

Действительно, мы получили тот же самый результат. Таким образом, дисперсию можно вычислять по формуле

Доказательство вам предлагается провести самостоятельно в задаче 16.

У дисперсии есть один существенный недостаток: если исходные значения ряда измеряются в каких-то единицах (например, в рублях), то у дисперсии эти единицы возводятся в квадрат («квадратные» рубли). В нашем примере среднее значение цены получилось 15 рублей 2 копейки, а вот дисперсия цен — около 4... «квадратных копеек».

Избавиться от таких странных единиц измерения можно, если использовать другую характеристику разброса — стандартное отклонение.

Стандартным (или средним квадратичным) отклонением числового ряда называется квадратный корень из дисперсии.

За стандартным отклонением в статистике закрепилось «стандартное обозначение»: его всегда обозначают греческой буквой а («сигма»). В рассмотренном примере стандартное отклонение будет с = -у/0,0456 ~ 0,213, т.е. приблизительно 21 коп.

Для оценки разброса по стандартному отклонению на практике очень часто используют так называемое правило трех сигм: 99% всех значений, полученных в выборке, лежит в интервале (х - За; х + За) . Правда, для этого нужно, чтобы выборка была нормально распределена. О том, что это такое, мы поговорим в нашей последней лекции.

4. Вычисление характеристик разброса по таблице частот

Как и при изучении средних характеристик, покажем, как найти характеристики разброса по таблице частот. Воспользуемся для этого уже знакомым нам примером 1 из первого раздела лекции.

Пример 1. Найдем размах, дисперсию и стандартное отклонение отметок ученика, заданных следующей частотной таблицей:

Отметка

Абсолютная частота

Относительная частота

Накопленная частота

2

1

0,1

0,1

4

3

0,3

0,4

5

6

0,6

1

ИТОГО

10

1

Проще всего вычислить размах — он равен разности последнего и первого значений числового ряда (ведь в таблице частот эти значения упорядочены), т.е.

5-2 = 3.

Дисперсию, как и среднее арифметическое, можно вычислять с использованием либо абсолютных, либо относительных частот. А если вспомнить, что у нас уже есть две формулы для определения дисперсии, получаем целых четыре разных способа вычисления (среднее арифметическое мы уже вычислили в начале лекции — оно равно 4,4):

1-й способ:

2-й способ:

3-й способ:

4-й способ:

Естественно, во всех четырех случаях получаем одинаковый результат: дисперсия равна 0,84. Стандартное отклонение будет ^0,84 ~ 0,92 . В каждом из четырех случаев можно записать общие формулы для подсчета числовых характеристик, но мы думаем, что в этом нет необходимости.

Отметим еще, что если для представления выборки используется интервальная таблица частот, то, как и при вычислении средних характеристик, в качестве значений выборки берут середины интервалов.

Вопросы и задачи

К разделу 1

1. Что такое среднее арифметическое, мода и медиана числового ряда? Какая из этих величин может не существовать?

2. На стадионе «Локомотив» была зафиксирована следующая посещаемость первых четырех футбольных матчей: 24 000, 18 000, 22 000, 24 000. Какова была средняя посещаемость этих матчей? Сколько зрителей должно посетить следующий матч, чтобы средняя посещаемость выросла?

3. Найдите медиану следующих рядов данных:

4. Президент компании получает зарплату 100 000 руб., четверо его заместителей получают по 20 000 руб., а 20 служащих компании — по 10 000 руб. Найдите все средние характеристики (среднее арифметическое, моду, медиану) зарплат в компании. Какую из этих характеристик выгоднее использовать президенту в рекламных целях?

5. На одной из станций метрополитена были замерены интервалы времени между поездами и получены следующие результаты (мин:сек):

2:16, 1:59, 2:05, 2:10, 2:05, 2:08, 2:03, 1:58, 1:56, 2:12.

Найдите среднее значение интервала времени между поездами метро. Ответ получите в виде мин: сек. Указание: помните, что в минуте 60,

а не 100 секунд, поэтому с числами данного ряда нельзя оперировать, как с десятичными дробями.

6. Каждое число исходного числового ряда увеличили на 10. Что произойдет с его средним арифметическим? модой? медианой?

7. Все числа исходного числового ряда увеличили в два раза. Что произойдет с его средним арифметическим? модой? медианой?

8. Найдите для числового ряда

1,2, 3,4, X

все возможные значения х, при которых:

а) среднее арифметическое ряда равняется 3;

б) мода равняется 3;

в) медиана равняется 3.

К разделу 2

9. Как вычислить среднее арифметическое, моду и медиану выборки по таблице частот? По интервальной таблице частот?

10. В таблице приведены данные о возрастном составе участников школьного хора:

Возраст (кол-во лет)

7

8

9

10

11

12

13

14

15

Число участников

3

6

5

1

2

3

2

2

1

Найдите среднее арифметическое, моду и медиану возрастов участников хора.

11. В таблице приведены данные о росте участников легкоатлетических соревнований:

Рост (см)

[160; 165)

[165; 170)

[170; 175)

[175; 180)

[180; 185)

[185; 190)

[190; ...

Число участников

5

12

19

25

10

7

2

Найдите среднее арифметическое, интервальную моду, медиану ростов участников соревнований.

12. Группу из восьмиклассников опросили, какое количество времени они тратят на приготовление домашних заданий. Их ответы представлены на гистограмме (см. с. 66).

Найдите по этим данным среднее арифметическое, моду и медиану для времени, которое восьмиклассники тратят на приготовление домашнего задания.

К разделу 3

13. Что такое размах, дисперсия и стандартное отклонение числового ряда?

14. Что можно сказать о ряде, размах которого равен 0? Что можно сказать о ряде, дисперсия которого равна О?

15. Как вам кажется, у какого из следующих рядов дисперсия больше:

первый ряд: 1, 2, 3, 4, 5; второй ряд: 3, 4, 5, 4, 3.

Проверьте свои предположения расчетами.

16. Докажите, что для произвольного числового ряда дисперсия может быть вычислена по формуле

17. Каждое число исходного числового ряда увеличили на 10. Что произойдет с его размахом? дисперсией? средним квадратичным отклонением?

18. Все числа исходного числового ряда увеличили в два раза. Что произойдет с его размахом? дисперсией? средним квадратичным отклонением?

19. Числовой ряд содержит 10 единиц и некоторое число х:

1, 1, 1, 1, 1, 1, 1, 1, 1, 1,х.

Найдите для этого ряда все известные вам числовые характеристики: среднее арифметическое, моду, медиану, размах, дисперсию, среднее квадратичное отклонение. Какие из них зависят отх? Нарисуйте графики этих зависимостей.

20. В таблице приведены расходы студента за 4 дня:

День

Понедельник

Вторник

Среда

Четверг

Расходы (руб.)

18

25

24

25

Определите, какая статистическая характеристика находится в каждом из следующих заданий (подставьте ее название вместо многоточия):

К разделу 4

21. В течение года Лена получила следующие отметки за контрольные по алгебре: одну «двойку», три «тройки», четыре «четверки» и три «пятерки», а Наташа — одну «двойку», четыре «тройки», четыре «четверки» и две «пятерки». Кто из них учится стабильнее? Какие числовые характеристики нужно вычислить, чтобы ответить на этот вопрос?

22. Вычислите размах, дисперсию и стандартное отклонение возрастов участников школьного хора из задачи 10.

23. Вычислите размах, дисперсию и стандартное отклонение ростов участников соревнований из задачи 11. Определите процент участников, у которых рост попадает в интервал

Методические замечания

Вычисление числовых характеристик выборки и их содержательная интерпретация включены в необходимый минимум содержания основной и старшей школы. При этом в основной школе рассматриваются только средние характеристики.

Основная школа. Статистические данные. Средние результатов измерений. Понятие о статистическом выводе на основе выборки.

Старшая школа. Числовые характеристики рядов данных.

К разделу 1

Высказывание Р. Фишера, приведенное в начале лекции, кажется на первый взгляд парадоксальным: как может сокращение информации привести к ее лучшему пониманию? Умение построить на основе большого объема данных несколько числовых характеристик, вмещающих в себя основные сведения о поведении всей выборки в целом, а также умение правильно применить эти сведения на практике — следующая ступень в изучении математических методов обработки данных.

Средние характеристики несут, безусловно, наиболее важную часть информации о поведении числового ряда, хотя и не исчерпывают ее полностью. Наиболее популярной из них является среднее арифметическое, знакомое учащимся по общему курсу математики. Но если до этого среднее арифметическое чаще всего приходилось считать для двух чисел, то здесь этих чисел будет гораздо больше. Полезно пользоваться при этом графической интерпретацией, изображая все числа и их среднее арифметическое на числовой прямой. Хорошим упражнением будет угадывание примерного положения среднего арифметического без проведения вычислений с последующей самопроверкой.

Мотивированные учащиеся могут познакомиться с некоторыми простейшими свойствами среднего арифметического, которые приводятся в задачах к этому разделу лекции. Речь идет прежде всего о линейности: при сдвиге или умножении всех членов ряда на одно и то же число среднее арифметическое сдвигается и умножается на то же самое число. Доказательство этого факта в общем случае совершенно элементарно, но требует от учащихся понимания формул, в которых присутствуют индексы.

Рассмотрение моды и медианы должно продемонстрировать другие подходы к определению среднего. При определении моды обратите внимание на терминологию: в некоторых учебниках авторы говорят об отсутствии моды у рядов, где два и более значения повторяются с максимальной час-

тотой; другие же предпочитают называть такие ряды полимодальными. Здесь, видимо, надо идти от здравого смысла: если, скажем, у ряда есть два значения с ярко выраженной максимальной частотой, вполне разумно назвать его бимодальным. Если же эта частота почти не отличается от остальных, лучше сказать об отсутствии моды. Мода отличается от других характеристик тем, что может быть введена и для нечисловых признаков.

При вычислении медианы обратите внимание на разные способы ее определения при четном и нечетном количестве чисел. Наиболее характерным свойством медианы является ее устойчивость к изменению отдельных чисел ряда. Это делает медиану особенно удобной в тех случаях, когда в исходных статистических данных возможны случайные «выбросы» в одну или другую сторону, связанные с ошибками на этапе сбора информации (соответствующие примеры есть в задачах к этому разделу).

После введения всех средних характеристик нужно обязательно обсудить с учащимися их характерные свойства и содержательный смысл. В тексте приводятся примеры, когда вычисление той или иной характеристики ничего не дает, поскольку не может быть сколько-нибудь осмысленно интерпретировано в терминах исходной выборки.

К разделу 2

Вычисление средних по таблице частот — вопрос чисто технический. Мы акцентируем ваше внимание на нем только потому, что типичной ошибкой при вычислении среднего арифметического или медианы в этой ситуации является игнорирование частот и вычисление средних только по столбцу различных значений, полученных в выборке.

В задаче 2 приведен пример ситуации, в которой нет явно заданной таблицы частот, но ее нужно «увидеть» в условии.

При вычислении числовых характеристик по интервальной таблице частот получаются их приближенные значения. Это связано с тем, что каждое значение исходного ряда «округляется» до середины интервала, в который оно попадает. Поэтому при вычислении медианы для повышения точности расчетов рекомендуется использовать линейную интерполяцию (см. пример 1).

К разделу 3

В тексте лекции достаточно образно описано, почему при анализе числового ряда нельзя ограничиваться только его средними характеристиками. Характеристики разброса или рассеяния зачастую несут не менее важную информацию, чем средние. Можно после обсуждения примеров из учеб-

ника попросить учащихся самостоятельно вспомнить ситуации, в которых информация о разбросе числовых данных оказывается не менее ценной, чем их средние характеристики (разброс температуры в течение суток, кровяного давления у пациентов, зарплат на предприятии, габаритных размеров при изготовлении изделий и т.д.).

Простейшей мерой разброса может служить размах — разность максимального и минимального значений ряда. Однако в отличие от медианы, которая практически не реагирует на отдельные случайные «выбросы», размах от них напрямую зависит. Поэтому зачастую величина размаха не дает реального представления о степени рассеивания данных.

При обсуждении вопроса о выборе средней меры разброса постарайтесь, чтобы учащиеся самостоятельно открыли (хотя бы на примерах), что средний разброс данных вокруг среднего арифметического равен нулю. Сильных учащихся можно попросить доказать это свойство для общего случая.

После такого открытия можно устроить обсуждение других «кандидатов» на выбор такой меры. Тут возможны предложения: суммировать модули отклонений, отдельно посчитать отклонения влево и вправо от среднего и т.д. Окончательный выбор в пользу дисперсии — среднего арифметического квадратов отклонений от среднего — объясняется как технической стороной вопроса (квадратичная функция гладкая, а модуль имеет в нуле излом), так и тем, что при выборе такой меры большие отклонения вносят больший вес в полученную величину.

Обращаем ваше внимание, что при вычислении дисперсии в большинстве случаев удобнее пользоваться не определением, а приведенной в лекции формулой4

Дисперсия заставляет вспомнить о размерности числовых величин, представленных в выборке. Именно соображения размерности заставляют рассмотреть наряду с дисперсией среднее квадратичное отклонение, которое выражает разброс в тех же единицах, что были в исходных данных.

Рассмотренные характеристики разброса не меняются при сдвиге всего ряда на заданную величину (задача 17). Если же ряд умножается на число,

4 Однако это не повод давать эту формулу в качестве определения дисперсии, как поступают некоторые авторы.

то то же самое происходит с размахом и средним квадратичным отклонением, а вот дисперсия умножается на квадрат этого числа (задача 18). Доказательство этих свойств следует непосредственно из определения и может быть дано в качестве задачи.

К разделу 4

Подсчет характеристик разброса по таблице частот не должно вызывать особых затруднений (кроме вычислительного характера), поскольку учащиеся уже делали это для средних величин. Обратим внимание на технологию «ручного» счета: полезно достроить заданную таблицу частот столбцом, в котором будут найдены квадраты исходных чисел, затем вычислить среднее арифметическое квадратов и среднее арифметическое исходных чисел, после чего вычислить дисперсию по формуле, приведенной двумя абзацами выше.

Лекция 8

Испытания Бернулли

В этой лекции мы рассмотрим одну из самых универсальных вероятностных моделей — схему Бернулли. Она позволит нам сформулировать результат, лежащий в основе всех приложений теории вероятностей, — закон больших чисел.

В нашей последней лекции мы вернемся к обсуждению вопроса, который был поставлен в самом начале нашего курса и лег в основу определения вероятности. Речь идет о связи относительной частоты и вероятности. Будет получена точная математическая формулировка замечательного факта устойчивости относительных частот и их приближении к вероятности случайного события при увеличении числа опытов.

А начнем мы наши рассмотрения с одной из наиболее универсальных вероятностных моделей — схемы независимых повторных испытаний, предложенной более трехсот лет назад швейцарским математиком Якобом Бернулли1.

1. Повторные независимые испытания

Вспомним определение вероятности, которое было дано в самом начале нашей первой лекции: вероятностью случайного события А называется число Р(А), к которому приближается относительная частота этого события в длинной серии экспериментов.

Тот факт, что такое число существует (т.е. что относительная частота случайного события вообще к чему-то приближается), мы оставляли до сих пор без каких-либо объяснений и ссылались на повседневный опыт. Теперь мы дадим некоторые математические обоснования этого факта. Для начала напомним терминологию.

Говоря о частоте и вероятности некоторого случайного события А, мы подразумевали наличие определенных условий, которые можно неоднократно воспроизводить. Этот комплекс условий мы называли случайным опытом или случайным экспериментом. Именно многократное повторе-

1 Я. Бернулли ( 1654—1705) — швейцарский математик, один из представителей многочисленного «математического» семейства Бернулли.

ние случайного опыта в неизменных условиях позволяло говорить о стабилизации частоты и приближении ее к некоторому числу P(Ä), называемому вероятностью случайного события А.

При этом естественно предполагать, что опыты проводятся человеком или природой так, что результат одного опыта никак не влияет на результаты последующих, т.е. все опыты независимы. Серию таких опытов будем называть повторными независимыми испытаниями.

Если в каждом опыте нас интересует вероятность наступления определенного события А, условимся говорить, что испытание закончилось успехом, когда в результате опыта событие А наступило, и неудачей, когда событие А не наступило2. С этой точки зрения наш опыт имеет всего два возможных исхода: А и А — успех и неудача. Вероятности этих исходов обозначим pwq\

р= Р(А) , q= P(À) =l-P(A) =1-р.

Серию повторных независимых испытаний с двумя исходами называют испытаниями Бернулли, а саму модель, построенную на таких испытаниях, — схемой Бернулли.

Для дальнейшего важно подчеркнуть еще раз три условия, которым должна удовлетворять схема Бернулли:

1) у каждого испытания должно быть два исхода, называемых условно успех и неудача;

2) в каждом опыте вероятность события А должна оставаться неизменной;

3) результаты опытов должны быть независимыми.

Этот простой набор требований делает схему Бернулли достаточно универсальной, но в то же время дает возможность получить целый ряд интересных результатов. Прежде, чем переходить к их выводу, рассмотрим ряд примеров.

Пример 1. Подбрасывание монеты. Событие А — выпал «орел». Серия из таких испытаний представляет собой схему Бернулли. Успехом счита-

2 Заметим, что названия «успех» и «неудача» носят условный характер и определяются выбором события А, а не содержательным смыслом исхода. Иногда успехом приходится считать вовсе не то, что мы подразумеваем под этим в повседневной жизни (брак в изделии, неверный ответ и т.д.).

ется появление «орла», неудачей — появление «решки». Вероятности успеха и неудачи равны:

Пример 2. Тестирование. Ученик отвечает на вопрос, к которому дается L вариантов ответа. Ровно один из предлагаемых вариантов верный. Предположим, что ученик не знает предмета и выбирает правильный ответ наугад. Будем считать успехом событие Л — выбран правильный ответ. Его вероятность Р{А) = — . Экзамен, в котором ученик отвечает на N таких вопросов, можно считать схемой Бернулли, в которой

Пример 3. Выбор с возвращением. В ящике находится L деталей, из которых / деталей не удовлетворяют стандарту качества. Из ящика достают деталь, проверяют и кладут обратно. Успехом будем считать событие Л — деталь бракованная. Вероятность успеха Р{Л) = — . Серия из N таких испытаний будет схемой Бернулли с

Пример 4. Выбор без возвращения. Проводится тот же опыт, но проверенная деталь обратно в ящик не возвращается. Будет ли это схемой Бернулли? Очевидно, нет. Результаты опытов становятся зависимыми: если в первом опыте вынутая деталь оказалась бракованной, то шансы на успех во втором опыте уменьшаются. Соответствующая условная вероятность будет равна ——- . Ее отличие от безусловной — будет незначительным только в том случае, если числа / и достаточно велики.

Последний пример показывает, что не любая последовательность испытаний с двумя исходами может рассматриваться как схема Бернулли.

2. Формула Бернулли

Перейдем теперь к обещанным результатам, которые можно получить из свойств испытаний Бернулли.

Первая интересная задача, которая возникает в этой схеме, состоит в следующем. Пусть проводится серия из N испытаний. С какой вероятностью в этой серии произойдет ровно к успехов (т.е. событие А наступит ровно к раз)?

Пример 1. Три раза подряд бросаем симметричную монету. С какой вероятностью ровно к раз она выпадет на «орла»? Здесь речь идет о том, что в серии из трех испытаний Бернулли с Р = Я = — произойдет ровно к успехов.

Вернемся к общему случаю. Обозначим интересующую нас вероятность PN {к) и докажем следующую формулу Бернулли:

Напомним, что через CkN в комбинаторике обозначается число сочетаний, т.е. число способов, которым можно выбрать любые к из УУпредметов. Это число находится по формуле САТ =-:- (см. лекцию 2).

* N (N-k)\.k\

Перейдем к доказательству формулы Бернулли. Рассмотрим всю серию из N испытаний как один случайный опыт. Какие у него элементарные исходы и сколько их? Каждый исход такого «длинного» опыта закодируем последовательностью из букв У и Н, которые могут чередоваться в произвольном порядке. Вот так, например, будут выглядеть все возможные исходы серии из трех испытаний:

УУУ, УУН, УНУ, УНН, НУУ, НУН, ННУ, ННН.

Как видим, таких исходов в этом случае восемь. Нетрудно сообразить, что в общем случае для N испытаний возможных исходов будет 2N — это немедленно следует из правила умножения (подобные задачи мы решали в лекции 2).

Будут ли все такие исходы равновозможны? Разумеется, нет! Однако вероятность каждого исхода можно легко вычислить, пользуясь формулой произведения вероятностей для независимых событий. В самом деле, по-

скольку все отдельные опыты в любой серии независимы, то вероятность любой последовательности из к успехов и (N - к) неудач может быть найдена по формуле рк qN~k. Так, для приведенных выше восьми исходов их вероятностями будут:

322 22 2 23

р , р q, р q, pq , р q, pq , pq , q .

Как видно даже из этого примера, какие-то исходы серии имеют одинаковые вероятности, какие-то разные. При этом равновозможность всех исходов серии достигается только при равенстве р = т.е. когда вероятности успеха и неудачи в каждом опыте одинаковые.

Для доказательства формулы Бернулли остается сделать последний шаг — посчитать, сколько всего серий, в которых содержится ровно к успехов. Другими словами, сколько последовательностей длины N можно составить из букв У и H так, чтобы в них было ровно к букв У?

У нас имеется N пустых мест, на которые нужно расставить к букв У и (N — к) букв Н. Сколькими способами это можно сделать? Каждый способ состоит в выборе тех к из N мест, на которых будут стоять буквы У3. Это можно сделать CkN способами. Значит, всего таких серий будет CkN, вероятность интересующего нас события может быть получена как сумма вероятностей входящих в него исходов (все слагаемые в сумме одинаковые):

Формула Бернулли в самом общем случае доказана. Вернемся к нашему примеру с троекратным бросанием монеты. Ответ на поставленный выше вопрос можно найти теперь по формуле Бернулли, применив ее для каждого значения к:

3 .. .или (N - к) из N мест, на которых будет стоять буква Н.

Поскольку в этом примере р = q = — , то неудивительно, что симметричные значения вероятностей получились одинаковыми:

Рассмотрим пример, в котором вероятности успеха и неудачи разные.

Пример 2. Тестирование. Экзамен состоит из 16 вопросов. К каждому вопросу предлагается 4 варианта ответа, из которых ровно один верный4. С какой вероятностью ученик, не знающий предмета, правильно ответит хотя бы на один вопрос?

Чтобы найти интересующую нас вероятность, перейдем к противоположному событию — ученик не ответит правильно ни на один из 16 вопросов. Эту вероятность можно найти по формуле Бернулли:

Отсюда, вероятность ответить хотя бы на один вопрос будет

4 Именно так выглядит сейчас часть «А» единого государственного экзамена по математике.

Как видим, шансы хоть что-то угадать, даже при полном отсутствии знаний, достаточно велики.

Пример 3. Снова тестирование. Экзамен состоит из 16 вопросов. К каждому вопросу предлагается 4 варианта ответа, из которых ровно один верный. Положительная оценка ставится, если ученик ответил хотя бы на 5 вопросов. С какой вероятностью ученик, не знающий предмета, сдаст экзамен?

На этот раз нам придется применить формулу Бернулли несколько раз. Положительная оценка ставится за 5, 6,..., 16 правильных ответов. Поэтому искомая вероятность будет:

Мы ввели здесь специальное обозначение, которое будем использовать и в дальнейшем:

Для вычисления суммы придется применить формулу Бернулли 12 раз. Можно сэкономить время, если решать задачу через дополнительное событие:

Как видите, вероятность, что ничего не знающий ученик сдаст экзамен, довольно велика. Это говорит о том, что систему выставления оценок нужно ужесточить.

Вполне естественно поставить вопрос таким образом: за сколько правильных ответов нужно ставить положительную оценку, чтобы вероятность случайной сдачи снизилась, например, до 0,01? На этот вопрос можно ответить и сейчас, но для этого придется провести довольно много вычислений.

Будем последовательно поднимать «планку» экзамена, пока не достигнем заданного уровня строгости:

Значит, если ставить положительную оценку за 9 и более правильных ответов из 16, то шансы «проскочить» этот экзамен для тех, кто вообще ничего не знает, будут невелики — всего лишь 0,01.

Заметим, что вычисление приведенных значений Ц6 {к.. 16) —дело довольно трудоемкое. Скажем по секрету, что мы снова использовали здесь возможности электронной таблицы MS Excel, которая среди прочих имеет встроенную функцию БИНОМРАСП(N;р\ ЛОЖЬ), позволяющую вычислить вероятности PN (к) при различных значениях к. Просуммировать эти значения в электронной таблице — дело уже несложное.

В разделе 4 будет показано, как можно быстро находить вероятности подобного рода и без использования последних достижений чудо-техники5 .

3. Биномиальное распределение

Используя понятие случайной величины (см. лекция 4), можно дать равносильное определение схемы Бернулли. Пусть имеется последовательность независимых случайных величин

каждая из которых может принимать всего два значения 1 и 0 с вероятностями р и q = 1 - р соответственно. Договоримся считать значение 1 — успехом, а значение 0 — неудачей. Тогда, как легко сообразить, число успехов в N испытаниях выражается случайной величиной SN, равной сумме величин Хх,Хг,XN :

5 С помощью открытий, сделанных французскими математиками несколько столетий тому назад.

Используя полученную ранее формулу Бернулли, можно выписать закон распределения для случайной величины SN :

Это распределение называется биномиальным6, или распределением Бернулли.

Как вы помните, для графического описания дискретного распределения используется полигон частот. Вот так будут выглядеть полигоны частот для биномиальных распределений с равными вероятностями р = q = и возрастающими значениями N:

Рис. 1

6 Термин объясняется связью этого распределения с формулой бинома Ньютона:

А на рис. 2 изображены полигоны частот для биномиальных распределений с различными вероятностями успеха и неудачи — р = —, q = — :

Рис. 2

Из графика видно, что в симметричном случае максимум вероятности достигается ровно посередине, а для произвольного — в районе точки N • р. Более точно, справедлива теорема о наиболее вероятном числе успехов в схеме Бернулли (доказательство можно найти в любом учебнике по теории вероятностей): наиболее вероятным числом успехов в серии из N испытаний Бернулли будет

• [Np-q] +1, если Np-q не целое;

• Np-q и Np-q + \, если Np-q целое.

Пример 1. При 100 бросаниях симметричной монеты наиболее вероятным числом «орлов» будет 50, а при 101 бросании — 50 и 51.

Пример 2. При 16 вопросах в тесте и вероятности «угадывания» правильного ответа — наиболее вероятным числом правильных ответов будет 4.

* * *

Несложно посчитать основные числовые характеристики биномиального распределения — математическое ожидание и дисперсию. Для этого

можно воспользоваться тем, что случайная величина SN является суммой N независимых случайных величин:

SN = Xl + X2 + ...+ XN.

Используя свойства математического ожидания и дисперсии (см. лекцию 4), немедленно получаем:

E(SN) = E(Xl) + E(X2) + ...+ E(XN)

и

D(SN) = D(Xl) + D(X2) + ...+ D(XN).

(в формуле для дисперсии существенно, что случайные величины X. независимы).

Остается выяснить, чему равны математическое ожидание и дисперсия одной случайной величины X.. Заметим прежде всего, что они не зависят от /, поскольку все X. имеют одно и то же распределение — вот оно:

Значение

0

1

Вероятность

Я

Р

Отсюда по определению математического ожидания и дисперсии получаем:

Подставляя найденные значения в формулы для SN, получаем:

4. Приближения биномиального распределения

Как уже было сказано, схема Бернулли — одна из самых универсальных моделей в классической теории вероятностей. Очень многие реальные си-

туации могут быть сведены к этой схеме. Однако у биномиального распределения есть один существенный недостаток: значения вероятностей PN {к) не очень просто вычислить, когда VV и к становятся большими. А как раз на практике такие ситуации встречаются очень часто.

Пример 1. Монету бросают 100 раз. С какой вероятностью будет получено ровно 50 «орлов»? Для ответа на этот вопрос нужно воспользоваться формулой Бернулли:

Однако вычисление по ней вызовет массу затруднений, поскольку придется оперировать с гигантскими числами типа 100! и 2100. Правда, в итоге получится число совсем небольшое — всего лишь около 0,08. Возможно, такой ответ покажется вам неожиданным — ведь мы только что в предыдущем разделе получили, что 50 «орлов» — наиболее вероятное их количество. В этом нет никакого противоречия — оно действительно наиболее вероятное, поскольку вероятность 49 или 51 «орлов» еще меньше. Случайная величина, равная количеству «орлов» в 100 испытаниях, имеет слишком много возможных значений — от 0 до 100, поэтому даже на самое вероятное из них приходится не так уж много шансов.

Вернемся все-таки к вопросам подсчета. Величину 0,08 мы получили с помощью функции БИНОМРАСП электронной таблицы MS Excel, о которой уже говорилось выше. Аналогично можно найти вероятность Цт (500) , а вот при вычислении Цот (5000) даже «умный» MS Excel сломается и скажет «#ЧИСЛО!». Дело в том, что число С™д0 содержит несколько сотен знаков, и обычная вычислительная программа, к разряду которых относится MS Excel, с ним не справляется.

Однако выход есть, причем найден он был задолго до появления современных компьютеров французскими математиками Муавром (1667—1754), Лапласом (1749—1827) и Пуассоном (1781—1840). Оказывается, при больших значениях числа N биномиальное распределение становится очень похожим на так называемое нормальное распределение.

Точнее, при больших N справедливо приближенное равенство

— нормальная кривая или кривая, Гаусса. «Странный» множитель перед экспонентой нужен здесь для того, чтобы выполнялось основное свойство плотности распределения:

График функции ср(л) изображен на рисунке:

Несмотря на устрашающий вид, значение функции ф(х) может быть вычислено с помощью обыкновенного инженерного калькулятора. В MS Excel есть соответствующая функция — НОРМРАСП(х;0; 1 ;ЛОЖЬ). Кроме того, таблица значений ф(х) часто приводится в учебниках по теории вероятностей.

Приведенную выше формулу называют локальной формулой Муавра-Лапласа. Попробуем вычислить с ее помощью вероятности, о которых шла речь выше в примере с монетой:

Как видите, вычисление не составляет особого труда, — притом, что точность приближения довольно высокая (все полученные знаки верные). Вы, наверное, обратили внимание, что приведенная формула называется локальной — она используется для приближения вероятности PN (к). Существует еще интегральная формула Муавра-Лапласа, которая дает приближение для PN(a..b) (напомним, мы договорились обозначать так вероятность того, что число успехов лежит в промежутке от а до Ъ). Выглядит она так:

где Ф (л) — так называемая функция Лапласа. Она является одной из первообразных нормальной кривой ф(л) :

Ф'(х)=ф).

Чтобы однозначно выделить Ф(х) из всех первообразных, на нее накладывается условие

Ф(0) = 0.

График функции Лапласа выглядит так: (см. на с. 86).

Она является нечетной и монотонно возрастает на всей числовой оси. При этом

Перечисленные свойства Ф(л) легко выводятся из свойств функции ф(л) . А вот выписать явную формулу для вычисления Ф(л), к сожалению, нельзя — она не выражается в элементарных функциях7. Для ее приближенного вычисления можно использовать таблицы, которые есть практически в любом учебнике по теории вероятностей, или воспользоваться возможностями MS Excel. В последнем случае вам нужно будет использовать формулу =НОРМСТРАСП(х)-0,5, поскольку в Excel представлен другой вариант первообразной НОРМСТРАСП, отличающийся от функции Лапласа на 0,5.

Приведем пример, в котором для вычисления вероятности используется интегральная формула Муавра-Лапласа.

Пример 2. Какова вероятность, что после 100 бросаний монеты количество «орлов»

а) будет лежать в промежутке от 45 до 55;

б) не превысит 60.

7 Это свойство функции Лапласа далеко не уникально: в курсе математического анализа часто встречаются функции, которые невозможно представить как композицию элементарных.

Сначала вычислим величины Np и Npq, которые будут использоваться в формулах:

Вероятность для пункта а):

Вероятность для пункта б):

Заметим, что при вычислении Ф (-л) мы пользуемся нечетностью функции Лапласа:

Ф(-х) = -Ф(х)

(именно поэтому в таблицах приводятся значения Ф (л-) только для положительных х).

Как видите, использование локальной и интегральной формул Муавра-Лапласа существенно упрощает вычисление вероятностей в схеме Бернулли. Но оказывается, не всегда эти формулы дают хорошее приближение даже при больших значениях N.

Пример 3. По статистике, каждый сотый автомобиль некоего завода «A3» имеет брак в системе охлаждения двигателя. С какой вероятностью среди 100 автомобилей, выпущенных им на прошлой неделе, не будет бракованных?

Прежде всего отметим, что мы снова имеем дело со схемой Бернулли. Действительно, если считать одним испытанием выпуск очередного автомобиля, а успехом — появление брака, то речь идет о вероятности Ц00 (0) для схемы Бернулли с р = 0,01 и q = 0,99 .

Поскольку число N достаточно большое, попробуем применить приближенную формулу Муавра-Лапласа:

Заметим, что точное значение этой вероятности будет около 0,366 (его можно посчитать в MS Excel). Как видим, приближенная формула дает довольно существенную погрешность — около 9%. Это объясняется тем, что приближение Муавра-Лапласа начинает плохо работать, когда вероятность успеха р слишком мала. Оказывается, этой формулой следует пользоваться только в том случае, когда произведение Np > 10. В нашем случае Np = 100 0,01 = 1, и поэтому формула Муавра-Лапласа дает серьезную ошибку.

Вместо нее следует пользоваться другим замечательным распределением, известным в теории вероятностей как распределение Пуассона:

где X = Np. Найденное по этой формуле приближение для примера 2 дает гораздо лучший результат:

Ошибка меньше 1%! Вообще, формулой Пуассона следует пользоваться, когда речь идет о так называемых «редких событиях»: когда в одном испытании вероятность успеха р очень маленькая, но при этом количество испытаний достаточно велико и число Np лежит в диапазоне от 0,1 до 10. Нужно понимать, правда, что значения 0,1 и 10 указаны здесь только ориентировочно: чем ближе к ним, тем хуже становится приближение.

В заключение, приведем еще один пример практического использования схемы Бернулли и приближенных формул.

Пример 4. Театр, вмещающий 1000 человек, имеет два входа. Около каждого входа имеется свой гардероб. Сколько мест должно быть в каж-

дом гардеробе, чтобы в 99 случаях из 100 все зрители могли раздеться в своем гардеробе?

Сначала выясним, причем здесь испытания Бернулли. Будем считать одним испытанием случайное решение одного зрителя — в какой из двух входов идти. Тогда вероятности успеха и неудачи будут равными: Р = Я = — .

В задаче требуется выяснить, при каком числе успехов к, будет выполнено неравенство

Поскольку N здесь достаточно велико, а , то можно применить интегральную формулу Муавра-Лапласа:

Отсюда

Получается, что нам нужно решить обратную задачу: по заданному значению функции Ф (л-) найти аргумент. Это можно сделать с помощью таблицы значений функции Лапласа или с помощью функции НОРМСТОБР(х + 0,5) в MS Excel. Тем или иным способом находим, что возрастающая функция Ф(л) достигает уровня 0,49 при х ~ 2,33 . Отсюда

Таким образом, в каждом гардеробе должно быть не менее 537 мест. Заметим, что если рассчитать вместимость гардероба исходя из наиболее вероятного числа зрителей, приходящегося на каждый вход, то она должна быть меньше — всего лишь 500. Но тогда нет такой высокой гарантии — 0,99, что гардероб не будет переполнен.

5. Закон больших чисел

Мы подошли, наконец, к формулировке одной из важнейших теорем всей теории вероятностей, лежащей в основе замечательного факта устойчивости частот.

Рассмотрим серию из N испытаний Бернулли, в каждом из которых мы наблюдаем за наступлением (успех) или ненаступлением (неудача) случайного события А. Обозначим через N4 — количество успехов, т.е. опытов, в которых произошло интересующее нас событие А. ТогдаN4 по нашей терминологии (см. лекцию 1) будет абсолютной частотой события А в этой серии, а его относительной частотой.

Теорема Бернулли (закон больших чисел). Для любых сколь угодно малых чисел £ > 0 и 5 > 0 найдется такое число Neè, что для всех N> Neè будет выполняться

т.е. вероятность того, что отклонение частоты нашего события от его вероятности Р(А) окажется меньше 8, будет сколь угодно близка к 1 при достаточно большом количестве испытаний.

На более понятном (но уже не таком строгом) языке закон больших чисел можно сформулировать так: при большом числе испытаний с большой уверенностью можно ожидать, что относительная частота случайного события будет близка к его вероятности. Эта уверенность тем больше, чем больше число испытаний.

Заметим, что формулировка теоремы не совсем обычна: здесь не утверждается наверняка, что частота будет близка к вероятности. Говорится лишь, что этого следует ожидать с большой вероятностью. В математике такая сходимость случайных величин называется сходимостью по вероятности.

Теперь покажем, каким образом результаты теоремы Бернулли можно использовать на практике. Вернемся к одному из наших первых случайных опытов — подбрасыванию кнопки. Этот опыт интересен тем, что из-за отсутствия симметрии здесь невозможно сделать какие-либо априорные предположения о вероятности его исходов.

Пусть событие А состоит в том, что кнопка падает острием вверх. Предположим, что после 100 испытаний мы получили относительную частоту этого события 0,65. Как по ней оценить вероятность Р(А)?

Попробуем привлечь для этого закон больших чисел. Он с определенной степенью уверенности гарантирует, что при большом числе испытаний полученная частота будет близка к неизвестной вероятности. Однако нам, вполне естественно, хочется знать — насколько близка и насколько велики эти гарантии? Можно ли, скажем, утверждать, что неизвестная вероятность отличается от 0,65 не больше, чем на 0,01 с гарантией 99%?

Для ответа на этот вопрос придется привлечь еще одну теорему. Она не просто говорит о большой вероятности того факта, что частота мало отклонится от вероятности — она оценивает эту вероятность.

Теорема. В описанных выше условиях выполняется приближенное равенство

где Ф(л) —функция Лапласа.

Заметьте, что слева стоит та же самая вероятность, что и в законе больших чисел. Но теперь у нас есть возможность не просто сказать, что она близка к 1 при больших N, а найти ее при конкретных значениях N,p и 8.

Доказательство легко следует из интегральной формулы Муавра-Лапласа, и мы не будем его здесь приводить. Вернемся теперь к нашему примеру с кнопкой. По приведенной теореме получаем:

Но нам неизвестны p и q! Рассмотрим худший случай: р= q = — . Почему он будет худшим? Потому что при равных значениях р и q знаменатель дроби будет наибольшим8, а значит, сама дробь и, следовательно, значение монотонно возрастающей функции Ф(л) наименьшим:

Значение Ф (л) мы нашли по таблице. Как видите, гарантировать отличие частоты от вероятности на 0,01 после 100 опытов можно только на очень небольшом уровне доверия — всего лишь 16%.

Понизим наши требования к точности — снизим ее с 0,01 до 0,1 :

Вот теперь уровень доверия резко возрос! Ну а если все же мы хотим добиться точности 0,01 и остаться на том же уровне доверия 95%, сколько опытов для этого понадобится провести? Для этого нам нужно выбрать N так, чтобы выполнялось равенство:

Поскольку мы уже знаем, что 2-Ф(2) = 0,95, то остается решить уравнение

из которого следует, что N = 10000.

Таким образом, чтобы оценить вероятность по частоте с точностью до 0,01 и быть уверенным в этой оценке на 95%, нужно провести около 10000 опытов. Вообще, из приведенных рассуждений нетрудно вывести

8 Докажите это самостоятельно, используя то, что q = 1— р .

закономерность: при одной и той же степени доверия для повышения точности в 10 раз нам необходимо увеличить количество опытов в 100 раз! Этот факт часто формулируют так: ошибка при определении вероятности по частоте обратно пропорциональна квадратному корню из числа проведенных опытов:

• проведем 100 опытов — ошибемся на 0,1;

• проведем 10000 опытов — ошибемся на 0,01;

• проведем миллион опытов — ошибемся на 0,001.

И во всех случаях нужно помнить, что всем этим результатам можно доверять только на 95%9. Таковы законы, которые управляют случайностью, и ничего с этим не поделаешь...

Вопросы и задачи

К разделу 1

1. Что такое повторные независимые испытания? Что такое испытания Бернулли?

2. Будут ли испытаниями Бернулли следующие серии опытов (если да, то найдите p и q в тех случаях, когда это возможно):

а) десятикратное бросание кубика; успех — выпадение шестерки;

б) ответы у доски на уроках математики в течение месяца; успех — получение пятерки;

в) проверка лампочек при их продаже в магазине; успех — лампочка бракованная;

г) ежедневная регистрация осадков; успех—отсутствие дождя и снега;

д) вытаскивание 10 карт из колоды без возвращения; успех — вытаскивание красной масти.

3. Приведите свой пример испытаний Бернулли.

К разделу 2

4. Запишите формулу Бернулли.

5. Какова вероятность, что при бросании шести кубиков выпадет хотя бы одна шестерка?

6. В подъезде горит 5 лампочек. Вероятность, что любая лампочка не сгорит в течение ближайшего месяца, равна 0,2. Какова вероятность, что в течение месяца

9 При любом другом уровне доверия приведенная закономерность остается без изменения.

а) сгорят все лампочки;

б) сгорит ровно одна лампочка;

в) останутся гореть по крайней мере 3 лампочки.

К разделу 3

7. Что такое биномиальный закон распределения? От каких параметров он зависит?

8. Чему равно математическое ожидание и дисперсия случайной величины, распределенной по биномиальному закону?

9. Вратарь футбольной команды отражает в среднем каждый третий пенальти. Сколько пенальти из пяти он отразит скорее всего? С какой вероятностью?

К разделу 4

10. Какие приближения для биномиального закона при больших N вы знаете? Когда они используются?

11. Завод отправил заказчику 10000 стандартных изделий. Средняя доля изделий, повреждаемых при транспортировке, составляет 0,02%. Найдите вероятность того, что в этой партии будет повреждено

а) ровно 3 изделия;

б) не более 3 изделий.

12. Вероятность рождения мальчика составляет 0,5. Найдите вероятность того, что среди 200 новорожденных

а) 100 мальчиков;

б) 90 мальчиков;

в) от 90 до 110 мальчиков.

13. Известно, что около 12% всех взрослых мужчин носят обувь 45-го размера. Сколько обуви этого размера нужно запасти в воинской части, чтобы с надежностью 0,95 ее хватило на 1000 ожидаемых новобранцев?

К разделу 5

14. Сформулируйте закон больших чисел.

15. Вероятность случайного события А в одном испытании равна 0,2. В каком интервале с вероятностью 0,9 будет лежать относительная частота события А после

а) 10 опытов;

б) 100 опытов;

в) 1000 опытов.

16. Вероятность случайного события А в одном испытании равна 0,2. Сколько испытаний надо провести, чтобы с вероятностью 0,99 частота отклонялась от вероятности не более, чем на 0,01?

17. Чтобы найти долю левшей среди всего населения производится выборочное обследование. При каком объеме выборки эта доля будет определена с точностью до 0,01 на уровне доверия 90%?

Методические замечания

В стандартах эта тема отсутствует. Тем не менее схема повторных испытаний Бернулли лежит в основе большинства задач по теории вероятностей (в том числе и тех, что вы уже решали в первых лекциях), а закон больших чисел, впервые сформулированный и доказанный Бернулли, является математическим фундаментом всех приложений теории вероятностей и математической статистики.

К разделу 1

Здесь мы снова возвращаемся к понятиям случайного опыта, случайного события и его вероятности. В явном виде формулируется еще одно важное требование — независимости повторных испытаний. Для большинства опытов независимость следует из самой сути явления (бросание монеты или кубика, случайный выбор с возвращением и т.д.). В более сложных экспериментах зависимостью испытаний приходится просто пренебрегать (например, случайный выбор без возвращения из большой совокупности объектов). Нужно понимать, что схема повторных независимых испытаний является некоторой математической идеализацией и далеко не всегда в чистом виде выполняется в реальности.

Испытания Бернулли выделяются из общей схемы повторных независимых испытаний тем, что мы забываем обо всех деталях опыта и фактически разделяем все множество исходов на два класса: те, что благоприятствуют наступлению некоторого случайного события А (успех), и все остальные (неуспех). С этой точки зрения любые повторные независимые испытания можно считать испытаниями Бернулли, если договориться, какое случайное событие мы будем при этом рассматривать в качестве успеха. Получается, что в каждой схеме повторных независимых испытаний скрыто много разных схем Бернулли: выбор каждой конкретной из них определяется выбором соответствующего события А.

Важно понимать суть тех требований, которым должны удовлетворять испытания Бернулли: неизменность комплекса условий, независимость испытаний, разделение всех возможных исходов на успех и неудачу. С этой

целью мы рассматриваем примеры и даем задания, в которых не всякие повторные испытания удовлетворяют этим требованиям.

Таким образом, первое важное умение, которое закладывается в этом разделе, — «увидеть» в опыте схему Бернулли или убедиться в ее отсутствии.

К разделу 2

Формула Бернулли — одна из первых нетривиальных формул теории вероятностей, доступная для понимания школьников. Кроме того, она дает ключ к решению многих содержательных задач. Ее доказательство служит хорошим примером использования изученных ранее формул: формулы умножения для независимых событий, формулы сложения для несовместных событий и формулы для подсчета числа сочетаний.

При выводе формулы обращаем ваше внимание на переход от множества исходов одного опыта (успех-неудача) к множеству исходов всей серии из N последовательных испытаний. Хорошая комбинаторная задача — выписать все возможные исходы такой серии для небольшого N, а затем посчитать их количество в общем случае.

Формула Бернулли в сочетании с другими формулами теории вероятностей дает возможность вычислить вероятность сложных событий, возникающих в схеме Бернулли: вероятность того, что число успехов будет не больше (не меньше) заданного числа; что она будет лежать в заданном интервале и т.д. Для этого достаточно просуммировать вероятности соответствующих исходов, найденные по формуле Бернулли.

К разделу 3

В этом разделе мы вновь возвращаемся к материалу лекции 4, посвященной случайным величинам. Количество успехов в N последовательных испытаниях Бернулли естественно рассматривать как случайную величину, принимающую значения от 0 до N. Формула Бернулли дает закон распределения этой величины, а свойства математического ожидания и дисперсии позволяют легко найти ее числовые характеристики.

Обратите внимание на характерный вид распределения Бернулли: оно имеет ярко выраженный максимум в одной (для четного N) или двух (для нечетного N) соседних точках, называемых наиболее вероятным числом успехов в схеме Бернулли. С ростом числа испытаний максимум распределения смещается вправо, а вероятности всех значений при этом уменьшаются, поскольку суммарная вероятность, равная 1, распределяется меж-

ду все большим количеством возможных значений. Это хорошо видно на приведенных в тексте лекции графиках.

Таким образом, несмотря на то, что при бросании миллиона монет самым вероятным числом «орлов» будет все равно половина, т.е. 500 тысяч, ожидать, что ровно столько их и выпадет, не стоит. Это некоторое предостережение от неправильного истолкования закона больших чисел, который появится в следующих разделах.

К разделу 4

Так называемые предельные теоремы в схеме Бернулли позволяют приблизить точные значения вероятностей, которые можно получить по формуле Бернулли, вероятностями, полученными из других распределений: нормального и Пуассона.

Нормальное распределение играет в теории вероятностей особую роль. Дело в том, что если значения некоторой случайной величины складываются из большого числа взаимно независимых величин, то ее распределение будет близко к нормальному. Причем это не зависит от природы слагаемых, лишь бы каждое из них было мало по сравнению со всей суммой. Этот факт носит в теории вероятностей название центральной предельной теоремы и лежит в основе многих статистических приложений10.

В нашем случае мы рассматриваем величину, равную числу успехов в большом числе испытаний Бернулли. Как было показано в разделе 3, ее можно рассматривать как сумму независимых случайных величин, принимающих в каждом опыте значения 0 и ли 1 :

$n = Хх + Х2 + ...+ XN.

Поскольку возможные значения суммы лежат в диапазоне от 0 до N, а наиболее вероятные значения сосредоточены около Np, то это дает возможность считать, что при больших N эта величина распределена приблизительно по нормальному закону. Отсюда и берется приближенная формула Муавра-Лапласа, доказательство которой технически довольно сложно и по этой причине не приводится.

Однако если Np слишком мало, то наиболее вероятные значения суммы становятся сравнимы с величиной отдельных слагаемых, и «нормаль-

10 В реальных исследованиях иногда предполагают нормальность случайной величины даже там, где для этого нет достаточных оснований.

ность» закона нарушается — приходится использовать вместо него другое распределение — Пуассона.

Именно в этом суть предельных теорем. Практическая же ценность вытекающих из них приближенных формул состоит в том, что они позволяют заменить вычисление вероятностей по формуле Бернулли их приближенным вычислением через более простые функции. Правда, увидев формулы для вычисления этих функций и узнав, что для одной из них (функции Лапласа) явной формулы вообще нет, вы можете возразить: какие же они простые? Тем не менее технически проще посчитать значения нескольких показательных или степенных функций, нежели найти значения типа 1 000!.

До появления компьютеров использование приближенных формул было вообще единственной возможностью вычислить PN(k) при больших N и к. Сейчас ситуация несколько изменилась (есть программы, которые без проблем найдут вам точное значение числа 1000!), но приближенными формулами все равно пользоваться проще. Тем более что таблицы значений функций ср(*), Ф(л) и распределения Пуассона приводятся почти во всех учебниках по теории вероятностей.

К разделу 5

Мы заканчиваем наш небольшой цикл лекций одним из самых замечательных результатов теории вероятностей, о котором слышали даже люди, далекие от математики. Упоминание о действии закона больших чисел авторам этих лекций приходилось встречать в выступлениях политиков, художественных кинофильмах, газетных статьях и т.д.11

Именно этот закон служит математическим обоснованием устойчивости частот в длинных сериях независимых испытаний. Мы начинаем со строгой математической формулировки этого закона — пусть она вас не пугает. Вполне достаточно понимания теоремы Бернулли на интуитивном уровне. Это понимание мы еще раз попробуем резюмировать в следующем абзаце.

Закон больших чисел дает определенную степень уверенности, что при большом числе испытаний полученная относительная частота случайного события будет близка к его вероятности. Эту степень уверенности можно сделать сколь угодно большой (т.е. близкой к 1 или 100%) за счет увеличения числа испытаний.

11 Разумеется, не всегда эти упоминания были к месту.

Кроме самого закона, мы даем приближенную формулу, по которой можно вычислить эту степень уверенности. Здесь, по существу, речь идет о так называемой доверительной оценке вероятности по полученной в опыте частоте. Схема такой оценки такова: вы говорите — я хочу получить неизвестную мне вероятность с точностью до 0,01, сколько для этого провести опытов? Вам отвечают: сколько ни проводите, нельзя гарантировать, что вы достигнете заданной точности. Но при этом добавляют: откажитесь от стопроцентной веры в полученный результат и снизьте ее хотя бы до 95%. Согласны? Да. Тогда проведите 10000 опытов и полученную в них частоту примите за вероятность.

Именно в этом суть изложенной в этом разделе схемы оценивания вероятности по частоте. Больше того, такой подход лежит в основе всех статистических выводов: никогда по данным, полученным в выборке, мы не можем с полной уверенностью обобщить их на всю генеральную совокупность. Да и нужно ли это? На практике вполне достаточно какой-то определенной степени этой уверенности в правильности этих выводов. Разумеется, величина этой степени (90%, 95%, 99% и т.д.) зависит от конкретной задачи и ситуации.

Ответы и решения

Лекция 5

Месяц

Ясно

Облачно

Дождь

ВСЕГО

Июнь

18

8

4

30

Июль

23

5

3

31

Август

19

6

6

31

ИТОГО

60

19

13

92

6. а) 543; б) 9709; в) 7504; г) март; д) 55463. 8.

10. а) Азия; б) около 30 млн кв. км; в) около 55 млн кв. км;

Лекция 6

3. а) Все автовладельцы; б) все избиратели; в) все взрослое население; г) все зарегистрированные за определенный период браки; д) бесконечная серия испытаний с кубиком.

4. а) Нет; б) нет; в) да; г) нет; д) скорее всего, нет.

5. Во-первых, телефон в то время имели только зажиточные люди. Во-вторых, регулярно отвечать на почтовую корреспонденцию привыкают, обычно, деловые люди, которые и прислали ответные открытки. Таким образом, в выборку попали в основном богатые представители делового мира.

8. а)

Размеры

Абсолютная частота

Относительная частота

Накопленная частота

15

12

0,08

0,08

16

8

0,053333333

0,133333333

17

11

0,073333333

0,206666667

18

16

0,106666667

0,313333333

19

19

0,126666667

0,44

20

15

0,1

0,54

21

14

0,093333333

0,633333333

22

19

0,126666667

0,76

23

20

0,133333333

0,893333333

24

16

0,106666667

1

150

1

б) Около 15 • 552 = 3900 пар. 9.

Значения ряда

Абсолютная частота

Относительная частота

1

3

0,05

2

6

0,1

3

15

0,25

4

21

0,35

5

12

0,2

6

3

0,05

10.

Значения ряда

Относительная частота

Накопленная частота

1

0,2

0,2

2

0,2

0,4

3

0,1

0,5

4

0,15

0,65

5

0,3

0,95

6

0,05

1

11.

Количество угаданных номеров

Количество карточек

Относительная частота

Вероятность

0

5200

0,43333

0,43596

1

4950

0,41250

0,41302

2

1626

0,13550

0,13238

3

211

0,01758

0,01765

4

12

0,00100

0,00097

5

1

0,00008

0,00002

6

0

0,00000

0,00000

Вероятность правильно угадать ровно к номеров будет:

(в таблице мы округлили эти значения до пяти знаков после запятой).

12. а)

Число забитых мячей

Количество матчей

Отн. частота

Накопл. частота

0

29

0,1526

0,1526

1

42

0,2211

0,3737

2

40

0,2105

0,5842

3

37

0,1947

0,7789

4

22

0,1158

0,8947

5

9

0,0474

0,9421

6

6

0,0316

0,9737

7

3

0,0158

0,9895

8

1

0,0053

0,9947

11

1

0,0053

1,0000

б)

в) 78%; г) 20 команд.

13.

Число бросков

Абсолютная частота

Относительная частота

Вероятность

1

20

0,455

0,5

2

11

0,250

0,25

3

5

0,114

0,125

4

2

0,045

0,0625

5

4

0,091

0,03125

6

1

0,023

0,015625

7

1

0,023

0,0078125

Вероятность того, что первый орел выпадет при к-ом броске равна J_

Так что наиболее вероятное число бросков — 1.

16. а)

Интервал цен

Абсолютная частота

Относительная частота

0

1000

7

0,233

1000

2000

16

0,533

2000

3000

5

0,167

3000

4000

1

0,033

4000

5000

1

0,033

б)

Самый популярный интервал — от 1000 до 2000 руб. б) Возьмем середину каждого интервала и умножим на абсолютную частоту:

500-7 + 1500-16 +2500-5 + 3500-1+4500-1 = 48000.

17. а)

Рост (в см)

Абсолютная частота

Относительная частота

Накопленная частота

от

до

152

156

2

0,004

0,004

156

160

6

0,012

0,016

160

164

18

0,036

0,052

164

168

69

0,138

0,19

168

172

107

0,214

0,404

172

176

109

0,218

0,622

176

180

96

0,192

0,814

180

184

64

0,128

0,942

184

188

22

0,044

0,986

188

192

7

0,014

1

б)

в) Накопленная частота переходит через 1/3 на интервале (168; 172], а через 2/3 — на интервале ( 176; 180]. Найдем на каждом из этих интервалов точку, в которой будет достигаться уровень 1/3 и 2/3 соответственно. По интервальной таблице частот мы можем найти эти значения лишь приближенно, используя линейную интерполяцию: в точке 168 накопленная частота равна 0,19, в точке 172 - 0,404. Если считать, что на интервале от 168 до 172 она растет линейной, то уровень 1/3 будет достигнут в точке

Аналогично находится вторая точка— 176,93. Значит, самое разумное дать такую команду: все солдаты с ростом до 171 см получают плащ-палатки первого роста, от 172 до 177 см — второго роста, выше 178 см — третьего роста.

18. Добавим к заданной таблице столбец накопленных частот:

Время у телевизора (вч)

Доля зрителей (в %)

Накопленная частота (в %)

менее 1

10,1

10,1

от 1 до 2

15,1

25,2

от 2 до 3

17,1

42,3

от 3 до 4

16,0

58,3

более 4

41,7

100

Высказывание не будет противоречить данным таблицы при любом х из промежутка от 3 до 4. Именно на этом интервале происходит «перевал» накопленной частоты через 50%.

Лекция 7

2.

Средняя посещаемость вырастет, если на следующий матч придет больше 22000 зрителей.

3. а) 5; б)

4.

5. Самый простой выход — перевести все в одни единицы — секунды. После этого вычислить среднее арифметическое х = 125,2 сек. А затем перевести это в минуты и секунды: х = 2 мин 5 сек.

6. Среднее арифметическое, мода и медиана увеличатся на 10.

7. Среднее арифметическое, мода и медиана увеличатся в 2 раза.

8. а)

Отсюда х- 5 .

б) Мода будет равняться 3, если х= 3 . В других случаях ее либо не будет, либо она будет равна другому числу.

в) Медиана будет равняться 3 при всех х> 3 . При х< 3 она будет меньше 3.

10. ^ = 10,04; Мо = 8; Ме=9.

11. * = 175,8; Мо= (175;180].

12.

14. Этот ряд состоит из одинаковых чисел.

15. У первого ряда дисперсия 2, у второго — 0,56.

17. Не изменятся.

18. Размах и среднее квадратичное отклонение увеличатся в два раза, дисперсия увеличится в 4 раза.

19.

Размах =

20. а) Среднее арифметическое; б) медиана; в) мода; г) размах; д) дисперсия; е) среднее квадратичное отклонение.

Характеристики разброса

Лена

Наташа

Размах

3

3

Дисперсия

0,876

0,777

Ср.кв. отклонение

0,936

0,881

Наташа учится немного стабильнее.

22. Размах = 15-7 = 8;

23. Размах = 200- 160 = 40;

Рост (см)

[160; 165)

[165; 170)

[170; 175)

[175; 180)

[180; 185)

[185; 190)

[190; ...

Число участников

5

12

19

25

10

7

2

Отн. частота

0,0625

0,15

0,2375

0,3125

0,125

0,0875

0,025

Каждый из интервалов в пунктах а)—в) накрывает несколько полных интервалов из таблицы частот и еще два крайних интервала частично. Чтобы найти долю участников более точно, можно воспользоваться линейной интерполяцией, взяв из крайних интервалов долю, пропорциональную длине «накрытой» части:

а) интервал ( 168,6; 183) полностью накрывает интервалы ( 170; 175) и (175; 180), а также частично (165; 170) и (180;185):

б) аналогично в интервале ( 161,4; 190,2) — 96%;

в) и в интервале (154,2; 197,4) — 99%.

Лекция 8

2. а) Да; б) нет; в) да — с некоторыми оговорками; г) нет; д) нет.

5. Будем считать успехом выпадение шестерки. Тогда

Искомая вероятность:

6. Будем считать успехом, что лампочка сгорит в течение ближайшего месяца. Тогда р = 0,8; q = 0,2 . Искомая вероятность:

9. Имеем пять испытаний Бернулли с вероятностью успеха 1. Поскольку Np- q = 1 — целое, то наиболее вероятное числом успехов будут 1 и 2.

11. Поскольку N достаточно большое, a Np = 10000 • 0,0002 = 2 , то можно воспользоваться приближенной формулой Пуассона:

12. Поскольку N достаточно большое, a Np= 200-0,5 = 100, то можно воспользоваться приближенными формулами Муавра-Лапласа:

а)

б)

в) ЯЛ90..110)

13. Мы имеем серию из 1000 испытаний Бернулли, в которой успехом будем считать, что очередной новобранец носит обувь 45-го размера. Вероятность успеха будет 0,12. Нам нужно выяснить, для какого минимального значения к число успехов не превысит этого к с вероятностью 0,95:

/?000 (0..А)>0,95.

Для вычисления Р1Ш (0..А) воспользуемся интегральной формулой Бернулли:

Поскольку Ф(1,645) « 0,45 , то , а значит, к = 137 пар обуви 45-го размера хватит, чтобы обеспечить нужную вероятность.

15. Воспользуемся формулой из последнего раздела лекции:

Отсюда Ф , а значит,

а)

б)

в)

16. Нужно найти такое N, чтобы

Следовательно, нужно провести N= 10618 опытов.

17. Задача повторяет предыдущую с другими исходными данными и неизвестными заранее р и q. Возьмем худший случай, когда р = q: нужно найти такое N, чтобы

Отсюда N= 6765 — таков должен быть объем выборки.

Дополнение к списку литературы

34. Чистяков В.П. Курс теории вероятностей. — М: Наука, 1987.

35. Тюрин Ю.Н., Макаров A.A. Анализ данных на компьютере. — М: Финансы и статистика, 1995.

[35] — прекрасное пособие по обработке статистических данных на компьютере.

Содержание

Лекция 5. Анализ данных.................................................................................3

Лекция 6. Случайная выборка и ее представление.....................................30

Лекция 7. Числовые характеристики выборки............................................51

Лекция 8. Испытания Бернулли.....................................................................72

Ответы и решения........................................................................................100

Дополнение к списку литературы...............................................................115