Взаимосвязь между случайными величинами определяется с помощью. Корреляционный анализ. Подробный пример решения. Определение понятия случайной величины

Случайной величиной называется величина, которая в результате опыта может принять то или иное заранее неизвестное значение.

Примерами могут служить: потери и подсосы воздуха, степень усвоения кислорода, неточности взвешивания компонентов шихты, колебания химического состава сырья в связи с недостаточным усреднением и т. д.

Соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями, называется законом распределения, который количественно выражается в двух формах.

Рис. 5.1 Функция распределения (а) и плотность распределения (б)

Вероятность события , зависящая от значения , называется функцией распределения случайной величины:

. (5.1) есть неубывающая функция (рис. 5.1,а). Значения ее при предельных значениях аргумента равны:и.

Плотность распределения

Чаще используется другая форма закона распределения – плотность распределения случайной величины , являющаяся производной функции распределения:

. (5.2) Тогда вероятность нахождения величины в интервалеиможно выразить через плотность распределения:

. (5.3`) Плотность распределения есть неотрицательная функция (рис. 21,б), площадь под кривой распределения равна единице:

. (5.4) Функция распределения может выражаться через плотность распределения:

. (5.5) Для решения большинства практических задач закон распределения , т. е. полная характеристика случайной величины, неудобен для использования. Поэтому чаще применяют числовые характеристики случайной величины, определяющие основные черты закона распределения . Наиболее распространенными из них являются математическое ожидание и дисперсия (или среднеквадратичное отклонение).

Математическое ожидание

Математическое ожидание случайной величины определяется следующим образом

. (5.6) где

Математическое ожидание случайной величиныобычно оценивается ее средним арифметическим, которое при увеличении числа опытовсходится к математическому ожиданию

. (5.7) где - наблюдаемые значения случайной величины.

Важно отметить, что в случае, если – непрерывно меняющаяся во времени величина (температура свода, стенки, химический состав продуктов горения), то необходимо брать в качестве значения величинызначения величины , разделенные такими интервалами во времени, чтобы их можно было рассматривать как независимые опыты. Практически это сводится к учету инерционности по соответствующим каналам. Способы оценки инерционности объектов будут рассмотрены ниже.

Дисперсия и среднеквадратическое отклонение

Дисперсия определяет рассеяние случайной величины около ее математического ожидания

. (5.8) Оценка дисперсии производится по формуле

. (5.9) а среднеквадратического отклонения по формуле

Коэффициент корреляции

Коэффициент корреляции характеризует степень линейной связи между величинамии, т. е. здесь уже имеем дело с системой случайных величин. Оценка производится по формуле

. (5.10)

Определение ошибок и доверительных интервалов для характеристик случайных величин

Для того, чтобы рассмотренными характеристиками случайных величин можно было пользоваться с определенной надежностью, необходимо кроме указанных оценок вычислить для каждой из них ошибки или доверительные интервалы, которые зависят от степени разброса, числа опытов и заданной доверительной вероятности. Ошибка для математического ожидания приближенно определяется по формуле

. (5.11) где– критерий Стьюдента; выбирается по таблицам в зависимости от заданной доверительной вероятностии числа опытов(например, прии,).

Таким образом, истинное значение математического ожидания с вероятностью находится в доверительном интервале

. (5.12) При заданной точности расчетаи надежности эти же формулы можно использовать для расчета необходимого числа независимых опытов.

Подобным образом определяется и ошибка величин и

. (5.13) Считается, что линейная зависимость междуидействительно существует, если

. или

. (5.14) Например, призависимость между исследуемыми величинами действительно имеет место, если

. (5.15) В противном случае существование зависимости между величинами инедостоверно.

Случайная величина

Определение понятия случайной величины

Форма связи между случайными величинами определяется линией регрессии, показывающей, как в среднем изменяется величина

при изменении величины, что характеризуют условным математическим ожиданиемвеличины, вычисляемым при условии, что величинаприняла определенное значение. Таким образом, кривая регрессиинаесть зависимость условного математического ожидания от известного значения

. (5.16) где,–параметры уравнения (коэффициенты).

Изменения случайной величиныобусловлены изменчивостью стохастически связанной с ней неслучайной величины, а также других факторов, влияющих на, но не зависящих от. Процесс определения уравнения регрессии складывается из двух важнейших этапов: выбора вида уравнения, т. е. задания функции, и расчета параметров уравнения регрессии.

Выбор вида уравнения регрессии

Выбирается этот вид исходя из особенностей изучаемой системы случайных величин. Одним из возможных подходов при этом является экспериментальный подбор типа уравнения регрессии по виду полученного корреляционного поля между величинамииили целенаправленный перебор структур уравнений и оценка каждой из них, например, по критерию адекватности. В случае же, когда имеется определенная априорная (доопытная) информация об объекте, более эффективным является использование для этой цели теоретических представлений о процессах и типах связей между изучаемыми параметрами. Такой подход особенно важен, когда необходимо количественное описание и определение причинно – следственных связей.

Например, лишь имея некоторые представления о теории сталеплавильных процессов, можно делать вывод о причинно – следственных связях для зависимости скорости обезуглероживания от расхода вдуваемого в конвертерную ванну кислорода или обессеривающей способности шлака от его основности и окисленности. А, исходя из представлений о гиперболическом характере зависимости содержания кислорода в металле от содержания углерода, можно заранее предположить, что линейное уравнение зависимости скорости обезуглероживания от интенсивности продувки в области низких содержаний углерода (менее 0,2%) будет неадекватно, и таким образом избежать нескольких этапов экспериментального подбора типа уравнения.

После выбора вида уравнения регрессии производится расчет его параметров (коэффициентов), для чего чаще всего используется метод наименьших квадратов , который будет рассмотрен ниже.

Определив уравнение теоретической линии регрессии, необходимо дать количественную оценку тесноты связи между двумя рядами наблюдений. Линии регрессии, проведенные на рис. 4.1, б, в, одинаковы, однако на рис. 4.1, б точки значительно ближе (теснее) расположены к линии регрессии, чем на рис. 4.1, в.

При корреляционном анализе предполагается, что факторы и отклики носят случайный характер и подчиняются нормальному закону распределения.

Тесноту связи между случайными величинами характеризуют корреляци­онным отношением р ху. Остановимся подробнее на физическом смысле данно­го показателя. Для этого введем новые понятия.

Остаточная дисперсия 5^ ост характеризует разброс экспериментально

наблюдаемых точек относительно линии регрессии и представляет собой пока­затель ошибки предсказания параметра у по уравнению регрессии (рис. 4.6):



s2 =f}