N-T.ru / Совместные проекты / ЛЭСМИ |
Методология регрессионного анализа![]() УДК 519.233.5 : 519.242.5 Рекомендована к изданию Ученым Советом Национального технического университета Украины «Киевский политехнический институт» Рецензенты: Винничук С.Д. – доктор технических наук, ст. научный сотрудник Щербак Л.Н. – доктор технических наук, профессор, лауреат Государственной премии Украины в области науки и техники (Национальный авиационный университет); Мыслович М.В – доктор технических наук, профессор, лауреат Государственной премии Украины в области науки и техники (Институт электродинамики НАН Украины). Радченко С.Г. Методология регрессионного анализа. Изложена новая методология регрессионного анализа применительно к получению линейных по параметрам моделей для прикладных сложных систем. Рассматривается планирование эксперимента для стандартных и нестандартных областей факторного пространства. Разработаны алгоритмы и программное обеспечение решения задач. Приведены примеры решения задач в системной постановке. Книга предназначена для научных работников, специалистов в области получения статистических моделей, решающих реальные производственные задачи, а также аспирантов и студентов. Радченко С.Г. Методологія регресійного аналізу. Викладено нову методологію регресійного аналізу стосовно до одержання лінійних за параметрами моделей для прикладних складних систем. Розглянуто планування експерименту для стандартних і нестандартних областей факторного простору. Розроблено алгоритми й програмне забезпечення розв’язання задач. Наведено приклади розв’язання задач у системній постановці. Книга призначена для науковців, фахівців в області одержання статистичних моделей, що вирішують реальні виробничі завдання, а також аспірантів і студентів. Отзывы и замечания просьба посылать по адресу: 03056, Украина, Киев-56, проспект Перемоги, 37, НТУУ «КПИ», Кафедра технологии машиностроения – 1230. Радченко Станиславу Григорьевичу. Тел.: 38 (044) 454-95-30; 483-13-39. E-mail: lapach@ukr.net (для Радченко С.Г.). АннотацияСформулированы проблемы и задачи создания новой методологии регрессионного анализа применительно к получению многофакторных статистических моделей прикладных сложных систем. Рассмотрен выбор начальных условий аппроксимации эмпирической зависимости для полного и дробного факторных экспериментов. Сформулированы статистические критерии качества многофакторных планов экспериментов. Изложен линейный по параметрам регрессионный анализ и рекомендации по его использованию в случаях, если предпосылки анализа в определенной степени не выполняются. Показана необходимость использования ортогональной концепции при получении статистических моделей. Приведено разработанное алгоритмическое (алгоритм RASTA3) и программное (ПС ПРИАМ) обеспечение получения статистических моделей. Изложено оптимальное планирование эксперимента в системе «план эксперимента – структура модели». Приведены статистические свойства последовательных многофакторных регулярных планов и планов на основе ЛПτ равномерно распределенных последовательностей. Решены специальные задачи планирования эксперимента с использованием алгоритмов RASTA1, RASTA2, RASTA8. Впервые изложен метод топологического отображения прообраза факторного пространства в образ, используемый при наличии статистической взаимосвязи между факторами. Разработан метод повышения воспроизводимости результатов повторных опытов эксперимента в неоднородных условиях – поправка RASTA. Впервые разработаны методы планирования эксперимента для нестандартных областей факторного пространства с линейными ограничениями. Сформулирована концепция инвариантно-группового подхода в теории планирования эксперимента. Разработаны алгоритмы RASTA4, RASTA5.1 отображения области прообраза, где можно получать модели с наилучшими критериями, в область образа, в котором получении моделей традиционными методами не дает хороших результатов. Разработано использование фиктивных факторов – алгоритм RASTA13 – и оптимальных координат факторного пространства для устойчивого оценивания статистических моделей. Приведены примеры получения многофакторных статистических моделей реальных прикладных систем и полученные количественные и качественные результаты решения по измерительным, техническим, технологическим системам. Изложенная новая методология регрессионного анализа может быть использована при создании и совершенствовании наукоемких изделий, высоких технологий, условий эксплуатации систем, измерений в нестандартных условиях. С новой методологией целесообразно ознакомиться научным сотрудникам, преподавателям, аспирантам, студентам высших учебных заведений. СодержаниеВведение Глава 1. Проблемы и задачи создания новой методологии регрессионного анализа 1.1. Общая постановка задачи аппроксимации эмпирической зависимости 1.2. Проблемы выбора начальных условий аппроксимации эмпирической зависимости 1.3. Статистические критерии качества многофакторных планов экспериментов 1.4. Проблема соответствия используемого метода формализованного описания реальной действительности описываемому классу систем Выводы Глава 2. Линейный регрессионный анализ 2.1. Общая методика регрессионного анализа 2.2. Система предпосылок регрессионного анализа и ее выполнение при проведении прикладных исследований 2.3. Ортогональное представление главных эффектов и взаимодействий в многофакторных статистических моделях 2.4. Интерпретация полученного формализованного описания предметной области 2.5. Система критериев качества многофакторных статистических моделей 2.6. Проверки многофакторных статистических моделей по основным критериям качества 2.7. Алгоритмическое и программное обеспечение получения статистических моделей, алгоритм RASTA3, ПС ПРИАМ Выводы Глава 3. Оптимальное планирование эксперимента для получения статистических моделей 3.1. Информационная система «план эксперимента – структура модели» 3.2. Основные критерии выбора плана эксперимента 3.3. Формализованный выбор структуры статистической модели 3.4. Статистические свойства последовательных многофакторных регулярных планов 3.5. Статистические свойства планов на основе ЛПτ равномерно распределенных последовательностей Выводы Глава 4. Специальные задачи планирования эксперимента 4.1. Последовательные регулярные планы экспериментов 4.2. Построение квазиортогональных и квази-D-оптимальных планов экспериментов, алгоритмы RASTA1, RASTA2 4.3. Генерирование квазирегулярных квазиравномерных многофакторных планов экспериментов, алгоритм RASTA8 4.4. Планирование эксперимента при наличии статистической взаимосвязи между факторами 4.5. Повышение воспроизводимости результатов повторных опытов эксперимента в неоднородных условиях Выводы Глава 5. Планирование эксперимента в нестандартных областях факторного пространства с линейными ограничениями 5.1. Рассмотрение факторного пространства как метрического и топологического пространств 5.2. Топологическое отображение прообраза в образ и условия отображения 5.3. Возможные методы топологического отображения прообраза факторного пространства в образ 5.4. Сохранение информационных свойств многофакторных уравнений регрессии при отображении прообраза в образ 5.5. Инвариантно-групповой подход в теории планирования эксперимента Выводы Глава 6. Оценивание статистических моделей при нестандартных линейных ограничениях факторного пространства 6.1. Алгоритм отображения области прообраза в область образа при линейных ограничениях факторного пространства, алгоритм RASTA4 6.2. Алгоритм отображения области прообраза в область образа RASTA5.1 6.3. Вычислительный эксперимент по устойчивому оцениванию коэффициентов регрессионных моделей для нестандартных областей факторного пространства с линейными ограничениями Выводы Глава 7. Использование фиктивных факторов, оптимальных координат факторного пространства для устойчивого оценивания статистических моделей 7.1. Алгоритм RASTA13 устойчивого оценивания коэффициентов статистических моделей с использованием фиктивных факторов 7.2. Выбор оптимальных координат факторного пространства для квазиортогонального оценивания статистических моделей Выводы Глава 8. Прикладное решение задач статистического моделирования систем и процессов 8.1. Информационная коррекция переменных систематических погрешностей средств измерений и измерительных информационных систем 8.2. Многофакторное математическое моделирование и компромиссная оптимизация технологического процесса электроэрозионной прошивки отверстий 8.3. Многофакторное математическое моделирование модульной сборки многоэлементных конструкций 8.4. Математическое моделирование и оптимизация конструкции и технологии изготовления спиральных монолитных твердосплавных сверл 8.5. Эффективность статистической методологии и возможное дальнейшее ее развитие Выводы Заключение Приложение А. Каталог многофакторных регулярных планов экспериментов Приложение Б. Каталог ЛПτ равномерно распределенных последовательностей Краткий словарь математических терминов Список литературы Именной указатель Предметный указатель SummaryProblems and tasks of creation of new methodology of regression analysis have been formulated as applied to obtaining the multifactor statistical models of applied complex systems. A choice of initial conditions of approximation of empirical dependence has been considered for the complete and fractional factor experiments. Statistical criteria of quality of multifactor experiment designs have been formulated. A linear in parameters regression analysis is stated as well as recommendations on its use in the cases when the analysis preconditions are not fulfilled to a certain extent. A necessity of using the orthogonal conception when obtaining statistical models is shown. The developed algorithmical support (algorithm RASTA 3) and software means “Planning, Regression and Analysis of Models” (SM PRAAM) is presented for obtaining statistical models. Optimal design of the experiment in the system “experiment design – model structure” has been stated. Statistical properties of successive multifactor regular designs and designs based on ЛПτ of uniformly distributed sequences have been presented. Special tasks of the experiment design using the algorithms RASTA 1, RASTA 2, RASTA 8 have been fulfilled. The methods of topological mapping of the pre-image of the factorial space into the image used under availability of statistical interrelation between the factors have been stated for the first time. A method has been developed for raising the reproducibility of results of the experiment repeated tests in inhomogeneous conditions – RASTA correction. The experiment design methods were first developed for nonstandard domains of factorial space with linear constraints. A conception of the invariant-group approach in the experiment design theory has been formulated. The algorithms RASTA 4, RASTA 5.1 have been developed for mapping the pre-image domain, where the models with the best criteria may be obtained, into the image domain, where obtaining of the models by traditional methods gives no good results. The use of the unreal factor – the algorithm RASTA 13 – and optimal coordinates of the factorial space for stable estimation of statistical models has been developed. Examples of obtaining the multifactor statistical models of the real applied systems are presented as well as the obtained quantitative and qualitative results of solutions by the measuring, technical, technological systems. The stated new methodology of the regression analysis may be used when creating and perfecting the high-tech articles, high technologies, operation conditions for the system, measurements in nonstandard conditions. It is expedient that the research workers, lecturers, postgraduates and students of higher educational institutions could be acquainted with the new methodology. ContentsIntroduction Chapter 1. Problems and tasks of creation of a new methodology of the regression analysis 1.1. General posing of the problem of approximation of the empirical dependence 1.2. Problems of choice of initial approximation conditions of the empirical dependence 1.3. Statistical quality criteria of multifactor experiment design 1.4. Problems of correspondence of the used method for formalized description of the reality to the class of systems under description Conclusions Chapter 2. Linear regression analysis 2.1. General procedure of the regression analysis 2.2. System of preconditions of the regression analysis and its performance when making the applied investigations 2.3. Orthogonal representation of the basic effects and interactions in multifactor statistical models 2.4. Interpretation of the obtained formalized description of the subject domain 2.5. System of quality criteria of multifactor statistical models 2.6. Control of multifactor statistical models by the basic quality criteria 67 2.7. Algorithmic support and software of obtaining statistical models, algorithm RASTA 3, SM PRAAM Conclusions Chapter 3. Optimal experiment design for obtaining statisticalmodels 3.1. Information system “experiment design–model structure” 3.2. Basic criteria of the choice of experiment design 3.3. Formalized choice of the structure of statistical model 3.4. Statistical properties of subsequent multifactor regular plans 3.5. Statistical properties of plans based on ЛПτ of uniformly distributed sequences Conclusions Chapter 4. Special problems of experiment design 4.1. Subsequent regular experiment designs 4.2. Making of quasi-orthogonal and quasi-D-optimal experiment designs, algorithms RASTA 1, RASTA 2 4.3. Generation of quasi-regular, quasi-uniform multifactor experiment designs, algorithm RASTA 8 4.4. The experiment design under availability of statistical interrelation between factors 4.5. Raising reproducibility of results of repeated tests of the experiment in nonuniform conditions Conclusions Chapter 5. Experiment design in nonstandard domains of the factorial space with linear constraints 5.1. Consideration of the factorial space as the metrical and topological spaces 5.2. Topological mapping of pre-image into image and mapping conditions 5.3. Possible methods of topological mapping of the factorial space pre-image into the image 5.4. Preservation of informational properties of multifactor regression equations when mapping the pre-image into the image 5.5. Invariant-group approach in the experiment design theory Conclusions Chapter 6. Estimation of statistical models under nonstandard linear constraints of the factorial space 6.1. Algorithm of mapping the pre-image domain into the image domain under linear constraints of the factorial space, algorithm RASTA 4 6.2. Algorithm of mapping the pre-image domain into the image domain RASTA 5.1 6.3. Computation experiment on stable estimation of the coefficient of regression models for nonstandard domains of the factorial space with linear constraints Conclusions Chapter 7. Use of unreal factors, optimal coordinates of the factorial space for nonstable estimation of statistical models 7.1. Algorithm RASTA 13 for stable estimation of coefficients of statistical models using unreal factors 7.2. Coise of optimal coordinates of factorial space for quasi-orthogonal estimation of statistical models Conclusions Chapter 8. Applied solution of the problems of statistical modeling of systems and processes 8.1. Informational correction of variable system errors of measurement means and measuring information systems 8.2. Multifactor mathematical modeling and compromise optimization of technological process of electroerosion broaching of holes 8.3. Multifactor mathematical modeling of the module assemblage of multielement structures 8.4. Mathematical modeling and optimization of the structure and manufacturing technology of spiral monolith hard-alloy drills 8.5. Efficiency of statistical methodology and its possible further development Conclusions Inference Supplement A. Catalogue of multifactor regular experiment designs Supplement B. Catalogue of ЛПτ uniformly distributed sequences Brief vocabulary of mathematical terms References Name index Subject index Введение
Математические модели необходимы при создании и совершенствовании систем, процессов, объектов. Основными подходами получения математических моделей являются теоретико-аналитический и экспериментально-статистический. С возрастанием сложности объектов моделирования, их новизны использование теоретико-аналитического подхода затруднительно или невозможно, и основным подходом становится экспериментально-статистический. Получение статистических моделей по экспериментальным данным предполагает полноту исходной информации о свойствах моделируемых объектов в виде причинных, структурных связей факторов с критериями качества, законе распределения получаемых случайных величин и др. Необходимая информация в значительной степени отсутствует. Поэтому аппроксимация исходных данных осуществляется в условиях неопределенности и требует разработки и использования специальных методов, в частности, устойчивых (робастных). В книге изложены проблемы и задачи аппроксимации исходных данных с учетом свойств и особенностей моделируемой действительности. Выбор начальных условий для получения моделей осуществляется таким образом, чтобы выполнялись необходимые критерии качества многофакторных планов экспериментов. Приведено разработанное алгоритмическое и программное обеспечение решения задач. Общая методика регрессионного анализа должна учитывать основные свойства и особенности моделируемой действительности. В случае невыполнения предпосылок регрессионного анализа необходимо использовать действия предварительного характера для «блокирования» отрицательных следствий невыполнения предпосылок. Статистические модели характеризуются наилучшими свойствами, если все эффекты, введенные в модель, ортогональны друг к другу, нормированы и статистически значимы. Поэтому при построении статистических моделей необходимо использовать концепцию ортогонального представления эффектов. Для успешного получения моделей нужно применять оптимальное системное планирование эксперимента в виде информационной системы «план эксперимента – структура модели». Выбирается устойчивый (робастный) план эксперимента. Считается, что структура многофакторного уравнения регрессии исследователю не известна и ее выбор осуществляется формализовано из множества структурных элементов модели полного факторного эксперимента. Приведены статистические свойства многофакторных регулярных планов и планов на основе ЛПτ равномерно распределенных последовательностей. При проведении исследований условия получения моделей могут не соответствовать стандартным. Поэтому необходима разработка различных планов экспериментов, не представленных в известных каталогах: последовательных регулярных, квазиортогональных, квази-D-оптимальных, квазирегулярных и квазиравномерных (алгоритмы RASTA1, RASTA2, RASTA8). Форма факторного пространства может не соответствовать стандартной: куб, сфера, симплекс. Необходима разработка метода, позволяющего планировать эксперимент в произвольной выпуклой области факторного пространства. Таким методом является топологический метод устойчивого оценивания статистических моделей. Использование его означает инвариантно-групповой подход в теории планирования эксперимента и позволяет устойчиво решать некорректно поставленные задачи. Разработаны алгоритмы RASTA4 и RASTA5.1 оценивания статистических моделей при нестандартных линейных ограничениях факторного пространства. Другими методами устойчивого оценивания статистических моделей являются использование фиктивных факторов (алгоритм RASTA13) и применение оптимальных координат факторного пространства. Разработаны методы и алгоритмы устойчивого оценивания статистических моделей для коррелированных факторов. Они могут использоваться при проведении исследований в различных предметных областях. Приведены примеры успешно решенных задач в системной постановке из области моделирования средств измерений, технических и технологических систем и процессов и эффективность статистической методологии. В приложениях приведены каталоги многофакторных регулярных планов экспериментов, ЛПτ равномерно распределенных последовательностей. Даны краткий словарь используемых математических терминов, список литературы, именной и предметный указатели. Изложенные подходы, методы, алгоритмы позволяют эффективно получать регрессионные модели в системной, реальной постановке, решать некорректно поставленные задачи. Специалисты в области прикладной математики обращают внимание на актуальность решения прикладных задач и трудности получения хороших результатов. «Самым важным и самым трудным шагом в работе математика в прикладной области является построение математической модели. Как правило, это плод длительных совместных усилий математика и специалиста в соответствующей области. Часто лишь в результате многочисленных бесед и дискуссий удается дать удовлетворяющее обе стороны математическое описание явления». Автор выражает благодарность коллегам Лапачу Сергею Николаевичу и Бабичу Павлу Николаевичу за полезное обсуждение материала монографии и советы по ее улучшению. Книга предназначена для научных работников, специалистов, использующих прикладную статистическую методологию для решения реальных производственных задач, создания наукоемких изделий, высоких технологий, интеллектуальных средств измерений. Ознакомиться с ней будет полезно студентам, магистрам, аспирантам.
|
Дата публикации: 16 декабря 2011 года |
|