ЭНЦИКЛОПЕДИЯ ЭЛЕМЕНТАРНОЙ МАТЕМАТИКИ

II

АЛГЕБРА

АКАДЕМИЯ ПЕДАГОГИЧЕСКИХ НАУК РСФСР

ЭНЦИКЛОПЕДИЯ ЭЛЕМЕНТАРНОЙ МАТЕМАТИКИ

ПОД РЕДАКЦИЕЙ

П. С. АЛЕКСАНДРОВА, А. И. МАРКУШЕВИЧА и А. Я. ХИНЧИНА

КНИГА ВТОРАЯ

АЛГЕБРА

ГОСУДАРСТВЕННОЕ ИЗДАТЕЛЬСТВО ТЕХНИКО-ТЕОРЕТИЧЕСКОЙ ЛИТЕРАТУРЫ

МОСКВА 1951 ЛЕНИНГРАД

Редактор А. 3. Рывкин.

Техн. редактор Н. Я. Мурашова.

Подписано к печати 11/XII 1950 г. Бумага 6(^2Vie- 13,25 бум. л. 26,5 печ. л. 29,63 уч.-изд. л. 44 700 тип. знак, в печ. л. T-Ö9189. Тираж 50 000 экз. Цена книги 10 р. 40 к.

Переплет 2 р. Заказ № 886.

2-я типография «Печатный Двор» им. А. М. Горького Главполиграфиздата при Совете Министров СССР. Ленинград, Гатчинская, 26.

ОГЛАВЛЕНИЕ

Предисловие...................................... 6

ВЕКТОРНЫЕ ПРОСТРАНСТВА И ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ

(А. И. Узков)

Глава I. Определители и решение линейных уравнений....... 11

§ 1. Векторы иа плоскости......................... 11

§ 2. Числовые векторы. Определители любого порядка....... 18

§ 3. Свойства определителя, вытекающие из его определения. . 21

§ 4. Перестановки. Выражение определителя порядка п...... 24

§ 5. Дальнейшие свойства определителя................ 29

§ 6. Разложение определителя по элементам ряда. Вычисление определителей .............................. 33

§ 7. Решение систем уравнений..................... 38

Глава II. Векторные пространства и исследование систем линейных уравнений............................ 42

§ 8. Векторные пространства. Абстрактная точка зрения..... 42

§ 9. Простейшие свойства операций над векторами......... 45

§ 10. Линейная зависимость векторов.................. 49

§11. Подпространства............................ 56

§ 12. Применение к системам уравнений................. 59

§ 13. Базис пространства. Координаты.................. 62

§ 14. Ранг произвольной системы векторов.............. 66

§ 15. Решение произвольных систем линейных уравнений..... 70

§ 16. Геометрическая интерпретация. Системы с тремя неизвестными ................................... 73

§ 17. Применение к системам уравнений высших степеней .... 78

§ 18. Дополнительные замечания..................... 81

Глава III. Линейные преобразования плоскости и трёхмерного пространства............................. 84

§ 19. Метрика. Скалярное произведение векторов........... 84

§ 20. Преобразование координат...................... 88

§ 21. Операции над матрицами....................... 92

§ 22. Линейные преобразования...................... 100

§ 23. Представление линейных преобразований матрицами..... 105

§ 24. Геометрические свойства линейных преобразований и свойства представляющих их матриц.................. 110

§ 25. Симметрические преобразования. Случай плоскости..... 114

§ 26. Симметрические преобразования трёхмерного пространства 117

§ 27. Представление произвольного линейного преобразования произведением ортогонального и симметрического...... 122

§ 28. Упрощение уравнений линий и поверхностей второго порядка ................................... 124

Литература................................... 126

КОЛЬЦО МНОГОЧЛЕНОВ И ПОЛЕ РАЦИОНАЛЬНЫХ ФУНКЦИЙ

(Л. Я. Окунев)

Глава I. Кольцо многочленов от одного неизвестного........ 129

§ 1. Кольцо многочленов.......................... 129

§ 2. Свойства делимости многочленов от одного неизвестного . 142

§ 3. Деление на линейный двучлен* — а. Корни многочленов. . 159

§ 4. Многочлены над полем рациональных чисел.......... 168

§ 5. Разложение многочленов на неприводимые множители над полем рациональных чисел. Признак неприводимости .... 174

§ 6. Основная теорема алгебры...................... 188

§ 7. Проблема решения уравнений в радикалах. Двучленные уравнения................................. 202

§ 8. Уравнения второй и третьей степеней............... 205

§ 9. Уравнение четвёртой степени.................... 220

§ 10. Алгебраическое расширение и другая постановка проблемы решения уравнений в радикалах.................. 225

Глава II. Кольцо многочленов от нескольких неизвестных и поле рациональных функций...................... 235

§ 11. Кольцо многочленов от нескольких неизвестных....... 235

§ 12. Поле алгебраических дробей..................... 244

§ 13. Симметрические многочлены.................... 254

§ 14. Некоторые приложения теории симметрических многочленов 261

Глава III. О решении алгебраических уравнений в радикалах. . 269

§ 15. Подстановки............................... 269

§ 16. О неразрешимости уравнений выше четвёртой степени в радикалах .................................. 273

§ 17. Группа алгебраического уравнения................ 281

§ 18. Уравнения с симметрической группой.............. 294

§ 19. О разрешимости алгебраических уравнений в квадратных радикалах................................. 300

§ 20. О разрешимости в квадратных радикалах уравнений 3-й и 4-й степеней............................... 304

Литература................................... 310

ЧИСЛЕННЫЕ И ГРАФИЧЕСКИЕ МЕТОДЫ РЕШЕНИЯ УРАВНЕНИЙ

(А П. Доморяд)

Введение..................................... 313

Глава I. Решение алгебраических уравнений.............. 317

§ 1. Постановка задачи........................... 317

§ 2. Определение границ действительных корней.......... 318

§ 3. Отделение корней........................... 324

§ 4. Способ Горнера............................. 332

I 5. Способ Лагранжа............................ 336

§ 6. Способ Лобачевского......................... 343

Задачи к главе I................................ 355

Глава II. Решение трансцендентных уравнений............. 357

§ 7. Способ линейного интерполирования и способ Ньютона. . . 357

§ 8. Обобщение способа Ньютона.................... 363

§ 9. Способ итерации............................ 367

§ 10. Различные способы извлечения корней из чисел....... 372

Задачи к главе II............................... 378

Глава III. Решение систем уравнений................... 380

§ 11. Способ Ньютона............................ 380

§ 12. Способ итерации............................ 383

§ 13. Замечания о вычислении мнимых корней алгебраических уравнений................................. 390

Задачи к главе III............................... 391

Глава IV. Графические методы........................ 392

§ 14. Уравнения с одним неизвестным.................. 392

§ 15. Решение уравнений с помощью номограмм........... 399

§ 16. Решение систем уравнений...................... 405

Задачи к главе IV............................... 410

Добавления...................................... 412

1. Краткие исторические сведения .................... 412

2. Советы преподавателям и рекомендуемая литература...... 415

Алфавитный указатель......................... 418

ПРЕДИСЛОВИЕ

Школьный курс алгебры представляет собой своеобразное соединение сведений из различных отделов математики. Сюда входят: обобщение понятия числа (последовательное построение системы рациональных, действительных и, наконец, комплексных чисел), отнесённое нами к арифметике (см. статью И. В. Проскурякова в первой книге); изучение - кольца многочленов и поля рациональных функций (охватывающее так называемые тождественные преобразования рациональных выражений) и решение алгебраических уравнений в простейших случаях, т. е. собственно алгебраический материал, отнесённый к настоящей книге; сведения о некоторых элементарных неалгебраических функциях — степенной, показательной, логарифмической, о пределах, последовательностях и простейшем ряде (геометрическая прогрессия), т. е. материал из области анализа (см. третью книгу настоящего издания), и, наконец, элементы комбинаторики, отнесённые нами в шестую книгу, где читатель найдёт также и основные сведения из теории вероятностей. Таким образом, читатель, заинтересованный научными основами школьного курса алгебры, должен знать, что он найдёт эти основы не в одной, а в нескольких книгах «Энциклопедии элементарной математики» и именно в книгах первой, второй, третьей и шестой, озаглавленных «Арифметика», «Алгебра», «Анализ» и «Разные вопросы».

Настоящая книга состоит из трёх статей. Статья А. И. Узкова даёт изложение основ того раздела математики (так называемой линейной алгебры), который вырос из теории систем алгебраических уравнений первой степени (линейных уравнений). Раздел этот (включающий, в частности, теорию определителей) освещает с единой и общей точки зрения ряд разрозненных фактов школьного курса и, кроме того, приводит к такому обобщению и углублению некоторых геометрических понятий (вектор, пространство, движение и др.), которое уже успело завоевать себе широкую область приложений.

Статья Л. Я. Окунева излагает теорию многочленов от одного и многих неизвестных и вопросы решения алгебраических уравнений в радикалах. В частности, здесь рассматривается важный для эле-

ментарной математики вопрос об условиях разрешимости алгебраических уравнений в квадратных радикалах.

В статье А. П. Доморяда, строго говоря, к алгебре относится лишь первая глава, включающая общий способ Н. И. Лобачевского для решения алгебраического уравнения любой степени с численными коэффициентами. В целом же статья представляет весьма полную сводку важнейших методов численного и графического решения алгебраических и трансцендентных уравнений, иллюстрированную конкретными примерами.

Исторические сведения по развитию теории алгебраических уравнений и других разделов алгебры не входят в эту книгу; они отнесены к «Очерку истории математики», помещаемому в седьмой книге.

Редакция

А. И. УЗКОВ

ВЕКТОРНЫЕ ПРОСТРАНСТВА И ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ

ГЛАВА I

ОПРЕДЕЛИТЕЛИ И РЕШЕНИЕ ЛИНЕЙНЫХ УРАВНЕНИЙ

§ 1. Векторы на плоскости

Под вектором в элементарной геометрии понимают направленный отрезок. Вектор обычно изображается на чертеже отрезком со стрелкой, указывающей его направление. Обозначать векторы мы будем, как правило, одной буквой жирного шрифта. Однако иногда будет применяться также и обозначение вектора двумя буквами, указывающими его начало и конец (со стрелкой сверху).

Два вектора мы будем называть равными, если они могут быть совмещены параллельным перемещением. Очевидно, что так определённое равенство векторов обладает обычными свойствами равенства: каждый вектор равен самому себе; если один вектор равен другому, то и второй равен первому; наконец, два вектора, порознь равные третьему, равны и между собою.

При работе с векторами оказывается полезным следующее соглашение об операциях над ними: под умножением вектора на число понимают образование нового вектора, длина которого равна длине данного вектора, умноженной на абсолютную величину данного числа, а направление либо совпадает с направлением данного вектора (если число положительно), либо противоположно этому направлению (если число, на которое умножаем, отрицательно). Кроме умножения вектора на число, определяют также сложение векторов. Его достаточно определить для двух векторов с общим началом. В таком случае суммой двух векторов AB и АС называют вектор, являющийся диагональю AD параллелограмма, построенного на данных векторах (рис. 1).

Эти операции позволяют составлять из данных векторов выражения вида £oö2-h ••• -\~knan с любыми (действительными) числовыми коэффициентами. Такие выражения называются линейными комбинациями данных векторов.

Мы будем называть векторами также «отрезки» нулевой длины, т. е. такие, у которых начало и конец совпадают. Все такие

«нулевые векторы» оказываются равными между собой в смысле установленного выше определения. Нулевой вектор считается параллельным любому вектору.

Операции над векторами, определённые выше, обладают многими свойствами действий над числами: сумма не зависит от порядка слагаемых и обладает свойством ассоциативности, т. е. (а-\-Ь)-\- с=а -\- (Ь -\- с); если мы имеем сумму нескольких произведений векторов на числа, то одинаковые множители можно выносить за скобки (рис. 2) и т. д. Операция, обратная сложению (вычитание), также всегда выполнима: чтобы из вектора а вычесть вектор Ь, достаточно образовать сумму а -\- (— 1) • Ь. Эти основные свойства операций над векторами позволяют, как это делается в элементарной алгебре, производить формальные преобразования равенств (переносить члены из одной части в другую, умножать обе части равенства на одно и то же число или прибавлять к ним один и тот же вектор; можно также складывать отдельно левые и правые части векторных равенств, получая при этом также справедливые равенства).

Рис. 1.

Рис. 2.

Если два вектора а и Ь параллельны одной и той же прямой и а^О (нулевому вектору), то вектор Ъ всегда можно представить в виде b — ka, где k — число. Вектор, не параллельный вектору а, в этом виде представить нельзя, как это сразу следует из определения произведения вектора на число.

Мы ограничимся пока рассмотрением векторов, лежащих в одной плоскости. В этом случае сделанное выше замечание позволяет любой вектор выразить в виде линейной комбинации двух задан-

них векторов, не параллельных между собою: в самом деле, если а и Ь — данные векторы, а х — любой вектор той же плоскости, то можно, прежде всего, параллельным перенесением совместить начала всех трёх векторов (рис. 3), затем через конец вектора х провести прямые, параллельные векторам b и я, до пересечения с прямыми, на которых лежат векторы а и Ь. Тогда из чертежа видно, что x=OX1-\-OYl, а так как векторы ОХх и ОУх параллельны, соответственно, векторам а и Ьу то можно так подобрать числовые множители х и у, чтобы было ха = ОХ1 и yb = OYi. Подставляя эти выражения в предыдущее равенство, получим: х = ха-\-~\-yb, т. е. выражение вектора х в виде линейной комбинации векторов а и Ь.

При этом замечательно, что один и тот же вектор не может быть выражен двумя различными линейными комбинациями данных векторов: если бы было х = ха -\-уЬ = = х'а-\-у'by то равенство (х'— х)а = = (у' —у) b было бы также справедливым, вопреки тому, что векторы а и b не параллельны между собой.

В сказанном по существу заключена идея метода координат, известного из аналитической геометрии: если на плоскости заданы два вектора ег и е2, то возможность однозначного представления любого вектора х в виде линейной комбинации данных, т. е. в виде х = = х1е1-\- х^е2, позволяет каждому вектору х поставить в соответствие два числа хх и хъ которые сами однозначно определяют данный вектор. Эти числа называются координатами вектора х по отношению к паре векторов el9 в2. Иногда эту пару векторов называют базисом (или координатной системой) на нашей плоскости. Из указанной выше однозначности представления вектора в виде линейной комбинации непараллельных векторов следует, что векторы равны тогда и только тогда, когда равны их координаты. Для дальнейшего будет удобно координаты вектора х записывать в виде столбца

Если заданы два вектора х = х1е1-\-х2е2 и y=yie1 -\-у2е2У то в силу упомянутых выше свойств операций над векторами будет также справедливо равенство х -\-у = (хх -f-Л) #i + -{-Уе еъ означающее, что координаты суммы двух векторов равны суммам соответствующих координат слагаемых. Аналогично получается также правило, связанное с умножением вектора на число: при

Рис. 3.

умножении вектора на число его координаты умножаются на то же число.

Мы располагаем теперь уже достаточными знаниями, чтобы попробовать применить их к исследованию конкретного вопроса.

В качестве объекта такого применения мы выбираем хорошо известное из школьного курса исследование системы двух уравнений первой степени с двумя неизвестными, т. е. системы уравнений вида

(1)

где коэффициенты аи Ьи си а2, &2, с2 — данные числа, которые мы пока будем предполагать действительными.

Задача решения системы уравнений (1) состоит в определении таких значений «неизвестных» х и у, которые при подстановке их в уравнения (1) обращали бы последние в верные числовые равенства. Из школьного курса известно, что иногда система (1) решается однозначно, т. е. существует только одна система значений х и у, «удовлетворяющая» обоим уравнениям системы, иногда таких решений вовсе нет, а иногда их бесконечное множество.

То, что сказано выше о векторах, позволяет нам все эти случаи видеть совершенно непосредственно. В самом деле, рассмотрим на плоскости некоторую координатную систему и три вектора: вектор а с координатами ах и а2, вектор Ь с координатами Ъх и Ь2 и, наконец, вектор с с координатами сг и с2. Если пока считать х и у известными числами, то левые части уравнений (1) будут координатами вектора ax-\-by. А так как эти координаты равны координатам вектора су то вектор ах-\-Ьу должен быть равен вектору с. Наоборот, если нам удалось каким-либо образом подобрать такие числа X и у, чтобы выполнялось равенство ах -\- by = су то эти числа будут решением системы (1).

Таким образом, решение системы (1) совершенно эквивалентно решению одного векторного уравнения

(2)

т. е. отысканию представления вектора с в виде линейной комбинации данных векторов а и о.

Геометрическая картина сразу подсказывает нам те возможности, которые могут здесь представиться, а именно:

1. Если оказывается, что векторы а и Ь не параллельны, то каждый вектор может быть представлен линейной комбинацией этих векторов, и такое представление однозначно [т. е. найдётся только одна пара значений х и у, удовлетворяющая уравнению (2)]. Это означает, что заданная система имеет в этом случае одно решение, каковы бы ни были свободные члены сх и с%.

2. Если векторы а и b параллельны, то решение может существовать только в том случае, когда вектор с параллелен векторам а и Ь; в противном случае нужных чисел х и у найти нельзя.

3. Если все три вектора a, b и с параллельны, причём хотя бы один из векторов а и b отличен от нулевого, то все решения получаются следующим образом (дальше для определённости считается, что не равен нулю вектор а): придаём неизвестному у произвольное значение и переносим вектор by в правую часть: ах = с — by. Так как вектор с — by параллелен вектору а, то оказывается возможным подобрать так значение Ху чтобы было выполнено последнее равенство.

Оставшийся неразобранным случай, когда оба вектора а и b равны нулю, совсем не составляет трудностей: решение не может существовать, если вектор с отличен от нуля. Если же вектор с также равен нулю, то решениями данной системы будут служить любые пары чисел х и у.

С помощью изложенных соображений можно даже получить формулы для решения системы (1) в случае, когда векторы а и b не параллельны. В самом деле, из рис. 4 видно, что значения х и у, удовлетворяющие системе, равны, соответственно, отношениям отрезков ш и ду.

Первое из этих отношений, как видно из того же рисунка, равно отношению высот параллелограммов ОСЕВ и OADBy у которых основанием считается вектор Ь. Но в силу того, что основание параллелограммов — общее, отношение высот равно отношению площадей, т. е.

(3)

Аналогично, отношение равно отношению площадей параллелограммов OCFA и OBDA, а значит.

(3')

Теперь не составило бы труда вычислить площади этих фигур, рассматривая подразделение их на треугольники, и тем самым полу-

Рис. 4.

чить явные формулы, выражающие значения неизвестных через коэффициенты данных уравнений. Однако в нашем случае это делается гораздо проще с помощью обычной процедуры: умножая обе части первого из уравнений данной системы (1) на b2f а обе части второго— на —bl9 а затем складывая, ползучим для определения х уравнение

(atb2 — аф{) X = сф2 — сфх. (4)

Точно так же, для определения у получается уравнение

(atb2 — афг)у = агс2 — a2cv (4')

Легко заметить сходство этих формул с формулами (3), (3').' если образовать выражения для х и у, то у них окажется общий знаменатель, как и в формулах (3) и (3'j; кроме того, этот знаменатель зависит только от коэффициентов av а2, Ь, Ь2> являющихся координатами векторов а и Ь, а в формулах (3) и (3') знаменателем является площадь параллелограмма, построенного на этих векторах. Это наталкивает на мысль выяснить геометрическое значение выражения аф2— a2bv Выберем на плоскости базис, состоящий из двух взаимно перпендикулярных векторов ev е2, длина каждого из которых равна единице (рис. 5), и построим векторы а = ахех -\- а2е2 и b= blel-\--\-b2e2. Тогда длины отрезков OAlf ОВ1У ОА2 и OB2t взятые с надлежащими знаками, будут равны, соответственно, числам al9 bv а2 и Ь2 (на чертеже все они предположены положительными). Тогда площадь параллелограмма ОАСВ будет, очевидно, выражаться так:

Итак, оказывается, что эта площадь в точности равна интересующему нас выражению.

Правда, во всех наших геометрических построениях имеется одна неточность: площадь в элементарно-геометрическом смысле есть величина положительная; выражение же агЬ2— а2Ьх может быть и отрицательным. Мы не обратили внимания на это обстоятельство раньше только потому, что на наших чертежах значения всех интересующих нас величин получались положительными. Этот недостаток можно устранить, приписав площади параллелограмма опреде-

Рис. 5.

лённый знак: площадь параллелограмма, построенного на векторах а и Ь, обычно считается положительной, если при обходе контура параллелограмма, начиная с его стороны а (в её направлении), обход совершается в ту же сторону, что и при обходе параллелограмма, построенного на векторах В\ и £2, начиная со стороны В\. Сделав несколько чертежей, аналогичных рис. 5, читатель без труда убедится, что определённый так знак площади всегда совпадает со знаком выражения ахЬ.2 — афх.

Заметим, что идея снабжать площади фигур определённым знаком, в зависимости от направления обхода, применяется не только к параллелограммам, но и оказывается полезной в целом ряде вопросов, позволяя формулировать результаты наиболее общим и окончательным образом.

Выражение вида аф^— аф1 называется определителем второго порядка и обозначается так:

Этим обозначением подчёркивается, что наше выражение является функцией столбцов, состоящих из координат векторов а и о. Обращение этого выражения в нуль, как легко усмотреть из предыдущего, указывает на то, что векторы а и Ь параллельны. Если ахЪ% — афх^Ь0у то решение системы (1) даётся формулами

(5)

вытекающими из равенств (4) и (4'). Из выясненного нами геометрического смысла определителя вытекает, что эти формулы выражают в точности то же самое, что и формулы (3) и (3').

Для дальнейшего нам понадобятся некоторые свойства определителей. При этом будет удобнее пользоваться ещё более сокращёнными обозначениями: мы будем обозначать определитель

просто так: | a, b |, явно рассматривая его как функцию двух векторов.

А) Определитель есть функция, линейная по каждому аргументу.

При этом под линейностью понимают наличие двух следующих свойств1):

1) Термин «линейный» связан с тем обстоятельством, что этим свойством обладает «линейная» функция / (х) = kx, где k — постоянное. В этом случае из правил действий над числами следует непосредственно, что /(x-j-y) = = k (X +y)—f (х) +f(y) и f (ffix) = inj (x), т. е. что имеют место свойства 1) и 2), формулируемые ниже.

1) Если значение аргумента умножить на какое-либо число, то новое значение функции получается из первоначального умножением на это же число.

2) Если значение аргумента равно некоторой сумме, то значение функции равно сумме её значений, получаемых при значениях аргумента, равных отдельным слагаемым.

Говоря о линейности по каждому аргументу, мы выражаем то обстоятельство, что свойства 1) и 2) имеют место в применении к любому из двух аргументов нашей функции.

Кроме линейности, определитель обладает ещё двумя свойствами:

Б) Если два вектора, из которых составлен определитель, равны между собою, то значение определителя равно нулю.

В) Определитель, составленный из базисных векторов, т. е. из векторов с координатами (в этом порядке), равен единице.

Наличие всех этих свойств проверяется непосредственным подсчётом. Их можно также получить геометрически. Для примера ограничимся алгебраической проверкой второй половины свойства А:

§ 2. Числовые векторы. Определители любого порядка

Теперь естественно посмотреть, как можно применить сказанное в предыдущем параграфе к решению и исследованию систем большего числа уравнений первой степени с большим числом неизвестных. Достаточно написать такую систему хотя бы с тремя неизвестными, чтобы усмотреть, что коэффициенты уравнений в этом случае группируются в столбцы, состоящие из трёх (или большего числа) чисел. Это делает невозможным в случае, если столбцы состоят более, чем из трёх чисел истолковать их как столбцы координат вектора в обычном геометрическом смысле, причём такая трудность усугубляется ещё и тем, что иногда приходится рассматривать системы уравнений с комплексными коэффициентами: ведь невозможно представить себе вектор, координаты которого комплексны.

Все эти затруднения, однако, можно обойти следующим путём, идея которого оказывается очень плодотворной и часто применяется в самых различных математических дисциплинах: элементарное понятие вектора можно обобщить так, что указанные выше трудности исчезнут сами собой, и в то же время существенные свойства векторов будут сохранены. К этому нужно добавить ещё и то, что сама геометрическая терминология будет подсказывать нам эти свойства, когда мы их будем разыскивать.

Конечно, все возникающие на этом пути понятия должны быть точно определены, т. е. сведены к известным уже нам математическим понятиям.

Прежде всего о числах. Просмотр «алгебраической» части § 1 убеждает нас в том, что во всех проведённых там алгебраических вычислениях природа рассматриваемых чисел безразлична: важно только то, что над этими числами можно производить четыре основных алгебраических действия, и эти действия подчиняются обычным законам. Это позволяет нам рассматривать каждый раз не все числа, имеющиеся в нашем распоряжении, а любые их совокупности, внутри которых можно выполнять указанные основные операции. Таким образом, мы приходим к понятию числового поля.

Числовым полем мы будем называть любую совокупность чисел, обладающую тем свойством, что сумма, разность, произведение и частное (при рассмотрении частного предполагается, что делитель отличен от нуля) любых двух чисел этой совокупности являются числами той же совокупности1).

Совокупность всех комплексных чисел удовлетворяет этому условию и поэтому является числовым полем. Точно так же числовыми полями являются совокупность всех действительных чисел и совокупность всех рациональных чисел. Эти три числовых поля наиболее часто встречаются в приложениях и поэтому наиболее важны. Однако существуют и другие поля: например, как читатель легко убедится, совокупность всех чисел вида а -|- b j/2, где а и b — любые рациональные числа, также является полем.

Для нас в дальнейшем будет во многих случаях безразлично, какое именно числовое поле рассматривается. В таких случаях мы для удобства будем обозначать всё это поле одной буквой.

Итак, пусть К—некоторое числовое поле, а п — некоторое натуральное число.

n-мерным числовым вектором над полем К мы будем называть любой столбец, составленный из п чисел нашего поля.

Как мы видели, векторам на плоскости соответствуют столбцы из двух действительных чисел. Теперь в смысле только что введённого определения сами эти столбцы являются двухмерными числовыми векторами над полем действительных чисел.

В определённый таким образом оборот речи целесообразно ввести следующее упрощение: если рассматриваются векторы всё время над одним и тем же полем, то указание этого поля мы будем просто опускать. Точно так же будет опускаться и слово «числовые», так как никаких других векторов мы пока не будем рассматривать.

Назвав столбец из чисел вектором, естественно назвать сами числа, из которых столбец составлен, координатами этого вектора.

1) См. Э. э. м., кн. 1, И. В. Проскуряков, Понятия множества, группы, кольца и поля. Теоретические основы арифметики.

После этого уже можно определить основные операции над векторами, пользуясь аналогией с рассмотренными в § 1 «геометрическими» операциями.

Суммой двух n-мерных векторов мы назовём n-мерный вектор, координаты которого равны суммам соответствующих координат слагаемых.

Аналогично этому, произведением n-мерного вектора на число k (из поля К) назовём n-мерный вектор, координаты которого равны соответствующим координатам данного вектора, умноженным на число k.

Эти определения могут быть выражены формулами следующим образом:

В дальнейшем часто окажется удобным обозначать векторы одной буквой жирного шрифта, как это делалось в § 1; в таких случаях координаты вектора будут обозначаться той же буквой светлого шрифта с индексом, указывающим номер этих координат.

Следующим определением мы придадим всей получающейся теории в некотором смысле ещё более геометрический характер: n-мерным числовым пространством над полем К называется совокупность всех n-мерных числовых векторов над этим полем.

Среди /г-мерных числовых векторов мы особо выделим векторы

Любой вектор X однозначно представляется линейной комбинацией этих векторов:

Таким образом, векторы ev ... , еп играют роль базиса в нашем «пространстве». Более точно мы определим смысл термина базис несколько позднее, когда нам в большей степени понадобятся его свойства.

Исходя из введённых определений, можно было бы развивать геометрию нашего пространства. Она в сильной степени напоминает обычную аналитическую геометрию. Некоторыми вопросами её мы ещё будем иметь случай заняться. Сейчас нашей целью является выяснение возможности обобщить понятие определителя так, чтобы можно было написать явные формулы, дающие решение системы уравнений с любым числом неизвестных.

После того, что было сказано об определителях второго порядка, естественно обобщение проводить так, чтобы были сохранены, конечно, с естественными изменениями, обнаруженные свойства определителей второго порядка. Необходимость изменений вызывается тем, что вместо двумерных векторов мы имеем дело с /z-мерными.

Это приводит к такому определению.

Определителем порядка п называется функция

от п n-мерных числовых векторов, обладающая следующими свойствами:

A) она линейна по отношению к каждому аргументу;

Б) если значения двух её аргументов равны, то значение функции обращается в нуль;

B) \ev е%, ... , еп\ = 1.

Таким образом, для того чтобы сохранить при обобщении нужные нам свойства определителей второго порядка, мы их просто кладём в основу этого обобщения.

Ясно, что сформулированное определение само по себе не даёт уверенности ни в том, что такая функция существует, ни в том, что она только одна. Это может быть доказано только при дальнейшем исследовании и будет проведено в общем виде в § 5.

§ 3. Свойства определителя, вытекающие из его определения

Предположим сначала, что функция | Oj, а2, ... , аЛ |, обладающая свойствами А), Б), В), существует. Из этих свойств вытекает ряд других, которые, как мы увидим, позволяют написать явное выражение этой функции.

Рассмотрим подробнее свойство А) (линейность). В применении к первому аргументу оно запишется так:

(1)

(ср. сказанное о линейности на стр. 17—18). Подобные же формулы можно написать, поставив сумму двух векторов на место не первого, а любого из аргументов.

Читатель легко заметит, что эти формулы по своему строению аналогичны формулам

(1')

имеющим место для умножения чисел. Как известно, в случае чисел из формул (Г), справедливых по отношению к каждому множителю, вытекает известное общее правило умножения многочленных выражений. Например, если два первых множителя являются суммами, то

Из формул (1) также вытекает, что с определителем можно поступать, как со своеобразным произведением: если значения одного или нескольких аргументов представляют собою суммы, то можно применять обычное правило раскрытия скобок и выносить числовые множители за знак определителя.

Известное читателю доказательство этого для обычных произведений принимает в случае определителей такой вид (в качестве примера рассматривается случай, когда два первых аргумента являются суммами двух слагаемых, а числовые множители равны единице и в записи отсутствуют):

Таково первое следствие из свойств А), Б), В). Следующим важным следствием является такое:

От перемены мест двух векторов, входящих в определитель, его значение меняет знак.

В самом деле, пусть мы хотим переменить местами два первых вектора at и а2. Рассмотрим определитель

Он равен нулю в силу свойства Б), так как в его выражение входят два одинаковых вектора. С другой стороны, применяя к нему только что доказанное свойство, его можно представить в виде суммы четырёх определителей:

Из этих четырёх определителей первый и четвёртый равны нулю по той же причине, что и выше. Таким образом, из сказанного получается, что

а это как раз и есть доказываемое свойство.

Проведённое рассуждение в действительности является совершенно общим и не зависит от того, какие именно векторы мы переставляем. Мы ограничились рассмотрением первых двух векторов только для удобства записи.

Доказанные свойства позволяют, как уже было отмечено, найти явное выражение определителя. Чтобы вначале не затруднять читателя осложняющими деталями, связанными с общностью, мы покажем идею дальнейшего исследования, возвратившись снова к определителям второго порядка.

Пусть даны произвольные двумерные числовые векторы:

Посмотрим, что можно сказать о выражении | а, Ь\. Записывая это выражение в виде

и применяя доказанное выше правило «раскрытия скобок», получим:

Вынося числовые множители за знак определителя, будем иметь выражение

В стоящей справа сумме первое и последнее слагаемые равны нулю, так как в них два аргумента определителя равны. Поэтому, заметив ещё, что |#о, в\\ = — \в\9 £21 (правило перестановки аргументов!) и \ev ^21 = 1, можно переписать полученное выражение так:

Но это и есть наше исходное выражение определителя второго порядка.

Читателю рекомендуется повторить тот же ход рассуждений в применении к определителю третьего порядка \а, Ьу с\9 в котором

В этом случае применение правила раскрытия скобок к выражению

даёт сумму 27 слагаемых, в каждом из которых будет стоять множителем один из определителей вида

и т. д.; 21 из этих определителей обращаются в нуль в силу наличия равных значений аргументов, все остальные одной или несколькими перестановками аргументов легко сводятся к определителю \ev е2, ег\, равному единице в силу свойства В). Например,

Проводя всю выкладку подробно, читатель получит выражение

Из проделанных выкладок следует, что в рассмотренных случаях свойства А), Б), В) приводят к однозначно определённым выражениям для определителя, т. е. что никакие выражения, кроме полученных, не могут обладать свойствами А), Б), В). Поэтому возможно только одно из двух: либо функции, обладающей свойствами А), Б), В), вообще не существует, либо существует только одна такая функция (для каждого рассматриваемого порядка).

Последнюю альтернативу при п = 2 и п = Ъ легко разрешить: достаточно проверить, обладают ли найденные выражения этими свойствами. В случае определителей второго порядка это уже было сделано раньше, а для выражения (2) читатель может выполнить такую проверку сам по образцу проведённой на стр. 18. Так как проверка показывает, что все три свойства А), Б), В) для выражения (2) имеют место, то обнаруживается и существование определителя третьего порядка.

§ 4. Перестановки. Выражение определителя порядка n

Мы покажем теперь, что принятое нами определение даёт возможность однозначно установить выражение определителя любого порядка. При этом окажется применимым в точности тот же путь, который был только что указан для определителей второго и третьего порядков.

Прежде всего мы сообщим некоторые сведения о так называемых перестановках.

Если имеется некоторое конечное число каких-либо элементов (предметов), то любое расположение этих элементов в определённом порядке следования называется перестановкой. Число возможных перестановок зависит только от числа имеющихся элементов.

Если число предметов равно я, то число возможных их перестановок составляет п\ = 1 -2 ... п.

Часто бывает, что для рассматриваемых предметов определён некоторый «нормальный» порядок следования. Так, если элементы являются целыми числами, то нормальным порядком считается расположение их по возрастанию. Аналогично этому, если рассматриваются векторы еи еь ... , еп, то «нормальным» расположением считается как раз то, которое только что написано. Если дана некоторая перестановка этих элементов, то естественно пытаться как-то указать, насколько она отличается от нормального расположения. Это делается следующим образом: рассмотрим в такой перестановке какие-либо два элемента; их расположение может либо быть таким же, как и при нормальном расположении, либо будет противоположным нормальному расположению. В последнем случае говорят, что рассматриваемая пара элементов образует инверсию или беспорядок. Можно подсчитать общее число инверсий, образуемых всевозможными парами элементов в перестановке. Это число равно нулю тогда и только тогда, когда перестановка сама является нормальным расположением. В противном случае получается число, обязательно большее нуля. Поэтому естественно это число принять в качестве меры отклонения данной перестановки от нормального расположения.

Поясним сказанное на нескольких примерах. Перестановки

(3, 2, 5, 4, 1), (2, 5, 3, 4, 1), (3, 5, 4, 1, 2)

являются перестановками пяти чисел 1, 2, 3, 4 и 5. В первой из них пара чисел 3 и 2 образует инверсию, во второй эта же пара чисел инверсии не образует. Читателю предоставляется самому убедиться, что общее число инверсий в каждой из этих перестановок будет, соответственно, равно 6, 6 и 7.

Перестановка называется чётной, если число инверсий в ней чётное. В противном случае она называется нечётной.

Из написанных выше перестановок первые две — чётные, а третья — нечётная.

Если дана некоторая перестановка, то, поменяв в ней местами два элемента, мы получим некоторую новую перестановку. Такая перемена мест двух элементов в перестановке называется транспозицией этих элементов. Выполняя транспозиции несколько раз последовательно, мы будем получать всё новые и новые перестановки.

Для нас является важным то обстоятельство, что из любой данной перестановки можно получить любую другую с помощью ряда последовательных транспозиций пар элементов.

В самом деле, для перестановок двух элементов утверждение очевидно, так как таких перестановок всего две, и каждая из них получается из другой одной транспозицией. Это обстоятельство

позволяет для доказательства нашего утверждения в общем случае использовать индукцию по числу элементов в перестановке.

Предположим, что утверждение уже доказано для перестановок из п—1 элементов. Пусть даны две любые перестановки из п элементов (конечно, одних и тех же!)

Ни к> > Q и (JuU ••• * /*)•

Требуется рядом транспозиций вторую из них перевести в первую. Прежде всего находим среди элементов jlf /2; ... , ]п элемент /j. Пусть это будет jk. Если /к ф Ju то производим во второй перестановке транспозицию элементов jk и j\. Получаем перестановку

(Jky Л> • • • » Jk-1> J и Jk+v • • •)•

Если сравнить её с первой из данных перестановок, то мы увидим, что её элементы, начиная со второго, образуют некоторую перестановку элементов /2, /3, ... , in. Так как число этих элементов равно п—1, то согласно сделанному предположению можно рядом транспозиций превратить эту перестановку в i2, i3, ... , ilV а это и нужно. Исключённый из рассмотрения случай jk=j\ ещё проще, так как в нём не требуется подготовительной транспозиции.

Вторым важным для нас фактом является то, что при транспозиции двух элементов перестановки её чётность меняется на противоположную.

В самом деле, если транспозиция производится над соседними элементами перестановки, — это очевидно, так как может появиться или исчезнуть лишь одна инверсия между переставляемыми элементами: расположение этих элементов относительно других элементов перестановки и других элементов между собою не изменяется.

В общем случае, когда транспонируемые элементы лежат не рядом, перемена мест указанных элементов может быть получена транспозициями соседних элементов следующим образом: сначала меняем местами первый из данных элементов со следующим за ним, затем во вновь полученной перестановке снова меняем местами первый из данных элементов со следующим за ним и т. д. до тех пор, пока первый из данных элементов не займёт места второго из данных. После этого второй из данных элементов переставляем с предшествующими элементами несколько раз до тех пор, пока он не займёт первоначального места первого из данных элементов. Легко усмотреть, что если между данными элементами находилось m элементов перестановки, то для «перенесения» первого элемента на место второго потребуется т-\-1 транспозиция соседних элементов, а для того, чтобы после этого перенести второй элемент на место первого, нужно m транспозиций соседних элементов. Всего для выполнения нужной нам транспозиции потребовалось 2т -\-1 транспозиций соседних элементов. А так как при каждой такой транспо-

зиции чётность перестановки менялась на противоположную, то в силу нечётности числа 2т-f- 1 чётность полученной после перемены мест указанных элементов перестановки будет противоположна чётности данной.

Применим изложенные соображения для получения выражения определителя произвольного порядка, предположив пока, что определитель [т. е. функция, удовлетворяющая условиям А), Б) и В) определения § 2] существует.

Рассмотрим, прежде всего, частный случай:

(1)

т. е. случай, когда определитель составлен из базисных векторов ev..., еп. Здесь ясно, что значение будет равно нулю, коль скоро хотя бы два из векторов ef. е<0,...,е,- совпадают [в силу свойства Б)]. Таким образом, остаётся рассмотреть только значение определителя (1), когда все векторы eJk различны. Но тогда ряд векторов eJv ву2, Bj является перестановкой векторов el9 воу..., епу а поэтому рядом последовательных транспозиций его можно обратить в ряд ei9 е2, ..., еп. При этом данный определитель обратится в определитель \el9 е%,..., ел\9 равный 1, в силу условия В). Учитывая теперь, что при каждой транспозиции входящих в определитель векторов определитель только меняет знак (см. § 3), мы получаем следующий результат:

Определитель | ву 2,... 9ejn |, в котором все векторы Bj±9ej^9... вУл различны, равен ~\-\ или —I, смотря потому, является ли перестановка ву2,..., eJn векторов е19 в2, ..., еп чётной или нечётной. Если два из векторов ej%9 еу2,..., ejn совпадают, то значение определителя равно нулю.

Конечно, чётность перестановки е}1, е;-2, ..., ejn рассматриваемых векторов е19 еъ..., еп совпадает с чётностью перестановки их индексов JU Jî> • • • 9 Jn*

Пусть теперь даны произвольные векторы al9 а<>, ..., ап. Их координаты целесообразно обозначать ещё одним индексом, помещаемым перед номером вектора. Так, вторая координата третьего вектора будет обозначаться а23, четвёртая координата первого вектора будет а41 и т. д. Таким образом,

Эти векторы, как однажды было замечено, выражаются через векторы ev е2у ..., еп так:

Поэтому определитель \aîf aiy...,an\ может быть переписан следующим образом:

Используя указанную в § 3 возможность оперирования с определителем как со своеобразным «произведением», можем переписать это выражение в виде

где стоящая справа сумма распространяется на все комбинации индексов jt9 у2,..., jn. Однако в силу сделанного выше замечания определители |ej, ----> ejn\> в которых хотя бы два индекса Уи А, • • • » Уд совпадают, равны нулю. Поэтому среди членов в правой части остаются только те, в которых все эти индексы ] различны, причём стоящие там определители | е* , е. ,..., в I равны dt 1. Поэтому мы окончательно имеем выражение

(3)

в котором знак-|-приписывается тем членам, у которых перестановка индексов у2, ...,/д чётная, а знак — приписывается членам, у которых эта перестановка нечётная. Ясно, что число членов в сумме (3) равно числу различных перестановок из п элементов, т. е. равно п\

То, что наши рассуждения приводят к совершенно однозначному выражению, позволяет сформулировать следующую теорему:

Если существует функция \ а19 аъ..., ап\ от п п-мерных числовых векторов, удовлетворяющая условиям А), Б), В) нашего определения, то её значения определяются выражением (3).

Другими словами, требования А), Б), В) однозначно определяют нашу функцию.

Естественно, возникает вопрос о том, насколько эта функция будет определена, если некоторые из указанных требований отбросить. Оказывается, что в таком случае однозначность уже не будет иметь места. Особенно интересен результат, который получается при отбрасывании условия В). Так как этот результат нам будет полезен в дальнейшем, мы его сформулируем и докажем.

Если дана функция F (av а2, ..., ап) от п n-мерных числовых векторов аи аъ..., ап, удовлетворяющая условиям А) и Б), то её значения выражаются формулой

где I аи а2,..., ап\ означает определитель, составленный из вектороз alf а2у ..., ап, т. е. выражение (3).

Таким образом, достаточно знать только одно значение F(£i,еп) нашей функции, чтобы однозначно определить все её значения.

Для доказательства достаточно заметить, что в предыдущих рассуждениях мы пользовались свойством В) только в случаях, когда требовалось указать значение \elt е2, ..., еп \. Поэтому аналогия с умножением многочленов и свойство менять знак при перемене мест векторов сохраняются и для рассматриваемой функции F(aua2t ..., йп): достаточно в проведённых выше доказательствах заменить I av а2,..., алI на F(au а*,..., ап). Но если такую замену сделать в доказательстве формулы (3), мы вместо неё получим:

т. е. как раз то, что требуется.

§ 5. Дальнейшие свойства определителя

Мы должны теперь изучить свойства выражения (3) предыдущего параграфа. При этом окажется, что сами свойства А), Б), В) для этого выражения имеют место. Тем самым впервые обнаружится существование определителя. Ряд других свойств позволит сравнительно просто вычислять определители любого порядка и, как увидим дальше, применить определители для решения систем уравнений с любым числом неизвестных.

Чтобы не вводить новых терминов, будем называть «определителем» само выражение (3) предыдущего параграфа и примем для него более развёрнутое обозначение: вместо \аи a2i.t.,an\ будем писать:

как это уже делалось для определителей второго и третьего порядков.

Рассмотрим более подробно выражение (3):

(*)

Из самой записи правой части видно, что в каждый член стоящей там суммы входит ровно по одному множителю из каждого столбца. Вспоминая теперь, что индексы jv у2, ..., /я образуют просто некоторую перестановку индексов 1, 2, ..., п, можем сказать также, что каждый член суммы содержит ровно по одному множителю из каждой строки, написанной выше квадратной таблицы. Важно также обратить внимание на то, что знак -\- или — зависит только от чётности перестановки Л» Уа> •••>/»> т- е* только от тех мест в таблице, на которых стоят множители рассматриваемого члена.

Из этих наблюдений немедленно обнаруживается свойство линейности А). Если все элементы одного из столбцов нашей таблицы умножить на некоторое число k, то, поскольку все члены стоящей справа суммы содержат точно по одному элементу из рассматриваемого столбца, вся сумма просто умножится на число k, и мы получаем первое условие линейности:

От умножения всех элементов одного из столбцов определителя на число k значение определителя умножается на это число.

Другими словами, общий множитель всех элементов одного из столбцов можно вынести за знак определителя.

Представим себе теперь, что нам задан определитель

Применяя к нему равенство (*), замечаем, что в каждом слагаемом полученной суммы будет содержаться один из множителей a'jk -f- a"jk. Раскрывая в каждом слагаемом скобки, разобьём сумму на две суммы, которые будут отличаться от исходной только тем, что в них вместо элемента k-го столбца стоят элементы одного из двух столбцов

Таким образом, значения этих частичных сумм будут равны, соответственно, определителям

а исходный определитель равен сумме этих определителей.

Рассмотрим теперь выражение (*) в случае, когда два из столбцов av а2у .., ап совпадают. Для определённости предположим, что совпадают первые два столбца (рассуждения, которые приводятся ниже, не зависят от номеров этих столбцов). Возьмём какой-либо член ±в/ 1 Я/ 2 • ajnn суммы (*). Он содержит множитель aj I из 1-го столбца и множитель aj 2 из 2-го столбца. Поменяв местами индексы jt и /2, получаем новый член ±Я/а1 a]ti ajnn> суммы (*). Знаки этих членов определяются перестановками jlfjo,.. и Л> Л> •••»/»• А так как эти перестановки получаются одна из другой транспозицией индексов j\ и /2, то они неизбежно различной чётности, так что знаки в обоих случаях необходимо различны. Что касается самих произведений ay t, aJn2... ау-лЛ и afal то они совпадают, так как в силу равенства столбцов аг и #2 будет: aj t = dj J и afms = aj г Итак, в случае совпадения двух столбцов определителя |al9 а2, ая[ в его выражении каждому члену будет соответствовать такой же член с противоположным знаком, т. е. в этом случае значение определителя равно нулю. Таким образом, свойство Б) также имеет место.

Остаётся проверить свойство В). Для этого рассмотрим определитель

Применяя к нему равенство (*), видим, что в сумме остаётся только один член, отличный от нуля, — это произведение стоящих по диагонали единиц. Соответствующая этому члену перестановка индексов, как легко видеть, есть 1, 2, 3,п. Так как эта перестановка не содержит инверсий, то она чётная, а следовательно, значение нашего определителя равно -|- 1.

С этого момента мы можем утверждать, что смысл термина «определитель», который мы ввели в начале этого параграфа, совпадает с первоначальным смыслом, установленным определением § 2. Одновременно, конечно, обнаружено, что выражение (*) обладает и свойствами, доказанными в начале § 3.

К уже известным нам свойствам полезно добавить ещё два свойства, важные для вычисления определителей и вытекающие из уже доказанных:

Значение определителя не меняется, если к элементам одного из его столбцов прибавить элементы другого столбца, умноженные на одно и то же число.

При доказательстве удобно воспользоваться нашими старыми обозначениями. Пусть, например, к элементам первого столбца определителя \ах, а2, аг, ап\ мы прибавим соответствующие элементы третьего столбца, умноженные на число k. Тогда получается определитель | ах -\- ka3, аь аг, ..., ап |. Пользуясь линейностью определителя по первому аргументу, получаем:

Но второе слагаемое в правой части равно нулю в силу свойства Б). Этим всё доказано.

Значение определителя не изменится, если его столбцы заменить соответствующими строками.

Операция замены столбцов соответствующими строками называется транспонированием таблицы определителя.

Рассмотрим определитель

получающийся из данного транспонированием. В полученной таблице первый индекс служит уже номером столбца, а второй — номером строки. Поэтому, применяя для явного выражения определителя сумму (*), мы должны записать:

Переставим теперь в каждом произведении alkl a2k^,..ankn множители таким образом, чтобы в них вторые индексы шли в порядке возрастания. Конечно, при этом расположение первых индексов нарушится, и мы получим запись того же произведения в виде CLj , aj 2 ... а;лЛ. Чётность перестановки у2, jn будет той же, что и чётность перестановки klf k<>, ..., kn, так как при проделанной выше операции приведения вторых индексов к нормальному расположению мы должны выполнить столько же транспозиций первых индексов, сколько их было выполнено над вторыми. Таким образом, мы обнаружили, что член ± alkl ащ... ankn суммы (**) попросту совпадает с членом суммы (*), полученным перестановкой множителей. Но так как это совпадение имеет место для каждого члена, то сумма (**) равна сумме (*), что и нужно.

Доказанное свойство определителя показывает равноправность его столбцов и строк. Отсюда следует, что те свойства, кото-

рые мы выше формулировали и доказали для столбцов определителя, имеют место также и для его строк. Это относится вообще ко всем свойствам, которые присущи выражению (*), если только в формулировке их участвуют столбцы нашей квадратной таблицы целиком.

§ 6. Разложение определителя по элементам ряда. Вычисление определителей

Рассмотрим произвольный определитель

и выберем в нём какой-либо столбец, например k-Pi. Этот столбец можно представить в виде суммы п столбцов и переписать заданный определитель так:

Пользуясь теперь свойством А) определителя, можно представить данный нам определитель в виде суммы п определителей, у которых в k-м столбце имеется самое большее один отличный от нуля элемент. Вынося этот элемент за знак определителя в качестве множителя, получаем представление данного определителя в виде такой суммы:

Определители, стоящие в правой части равенства, получаются из данного определителя заменой всех элементов k-ro столбца нулями, кроме одного элемента, который заменяется единицей.

Условимся называть каждый из таких определителей алгебраическим дополнением того элемента, который был заменён еди-

ницей. При этом условии равенство (1) позволяет высказать такое утверждение:

Определитель равен сумме произведений элементов одного из его столбцов на их алгебраические дополнения.

Этот результат позволяет свести вычисление определителей к вычислению определителей низших порядков, так как мы сейчас установим, что алгебраические дополнения с точностью до знака совпадают с некоторыми определителями более низкого порядка, просто получаемыми из данного определителя.

Назовём минором данного определителя, соответствующим элементу ajkf определитель, получаемый из данного вычёркиванием строки и столбца, на пересечении которых лежит рассматриваемый элемент.

Вычислим сначала алгебраическое дополнение элемента определителя, стоящего в верхнем левом углу, т. е. элемента ап. Это алгебраическое дополнение по определению равно определителю

Мы не изменим значения этого определителя, если прибавим ко второму его столбцу первый столбец, умноженный на —а12, к третьему столбцу — первый столбец, умноженный на —а13, и т. д. После этого получим определитель

(2)

Отсюда видно, прежде всего, что алгебраическое дополнение элемента зависит только от столбцов

(3)

и поэтому может рассматриваться как функция этих столбцов. Сами написанные выше столбцы, конечно, являются (п—1)-мерными числовыми векторами.

В силу известных нам свойств определителей наш определитель (2), очевидно, будет обладать следующими свойствами:

1. Если умножить один из столбцов (3) на число ky то значение определителя (2) умножится на то же число.

2. Если один из столбцов (3) является суммой других столбцов, то определитель (3) будет равен сумме таких же определителей, полученных из данного заменой рассматриваемого столбца отдельными слагаемыми.

3. Если два из столбцов (3) совпадают, то определитель (2) обращается в нуль.

4. Если столбцы (3) равны, соответственно, столбцам

то определитель (2) равен единице, так как он обращается в определитель, диагональными элементами которого являются единицы, а остальные элементы равны нулю.

Короче говоря, наш определитель является функцией от п — 1 (п—1)-мерных числовых векторов, удовлетворяющей условиям А), Б), В), т. е. будет определителем порядка п — 1, составленным из столбцов (3), а этот определитель и есть минор данного определителя, соответствующий элементу ап.

Теперь нетрудно вычислить и алгебраическое дополнение любого элемента ajk данного определителя. Для этого в рассматриваемом алгебраическом дополнении

будем последовательно переставлять k-Pi столбец с предыдущими столбцами, пока он не окажется на первом месте, а затем будем аналогичным образом переставлять у-ю строку. При этом общее

число транспозиций столбцов будет k—1, а число транспозиций строк равно /—1. Таким образом, для того чтобы компенсировать изменение знака определителя при каждой транспозиции строк и столбцов, мы должны умножить полученный в конце концов определитель на (—I)74"*"2, т. е. на (—1)УчА Этим способом мы находим, что рассматриваемое алгебраическое дополнение равно определителю

Для того чтобы свести его вычисление к вычислению определителя более низкого порядка, осталось только применить к нему формулированную выше теорему. Согласно ей этот определитель равен сумме произведений элементов первого столбца на их алгебраические дополнения. При этом в сумме фактически остаётся один член, соответствующий первому элементу столбца, так как остальные его элементы равны нулю. Но алгебраическое дополнение первого элемента первого столбца, как мы видели выше, равно минору, соответствующему этому элементу. Поэтому окончательно получаем, что рассматриваемое алгебраическое дополнение равно

Этот результат можно выразить совсем короткой формулой, если условиться обозначать алгебраическое дополнение элемента ajk через A/k, а соответствующий этому элементу минор — через Mjk. В таком случае наш результат запишется в виде

Сама теорема, которая была формулирована в начале параграфа, может быть теперь записана в виде формулы

(4)

или

(4')

где k означает номер того столбца, по элементам которого разлагается определитель.

Равенство (4') может быть использовано для вычисления определителей в любом случае. Однако наиболее легко его применять в случаях, когда в рассматриваемом столбце многие элементы равны нулю. При вычислении определителей это условие само по себе редко бывает выполненным, и поэтому бывает полезно искусственно создавать нулевые элементы в определителе, пользуясь тем, что к его столбцам можно, не изменяя значения определителя, прибавлять другие столбцы, умноженные на произвольные числа. Этим мы уже пользовались выше при вычислении алгебраического дополнения элемента ап.

Следует заметить, что данное выше определение алгебраического дополнения по форме несимметрично: в нём строки и столбцы играют внешне . различную роль. Однако, полученное выражение Ajk = = (—l)J+kMjk показывает, что алгебраическое дополнение элемента определителя на самом деле не изменяется при замене строк столбцами, так как при этом не изменяются ни сумма номеров строки и столбца, содержащих данный элемент, ни дополнительный минор. Отсюда следует, что найденные для столбцов результаты можно и в этом случае применять к строкам определителя. Например, формула (4) переписывается для строк так:

Многочисленные примеры вычисления определителей собраны в задачнике Фаддеева и Соминского, указанном в помещённом ниже списке литературы. В этом задачнике приведены подробные указания, упрощающие вычисления, в частных случаях.

В заключение приведём ещё одно свойство определителя, вытекающее из доказанной теоремы:

Сумма произведений элементов одного из столбцов определителя на алгебраические дополнения соответствующих элементов другого столбца равна нулю.

В самом деле, пусть речь идёт о k-м и 1-й столбцах. Тогда в силу формулы (1) будем иметь:

Подставляя сюда вместо элементов 1-го столбца элементы k-ro столбца, получим выражение

(5)

Так как изменение здесь заключается только в том, что элементы

1-го столбца заменены элементами k-vo столбца (а элементы последнего оставлены на месте!), то выражение (5) будет равно определителю, получаемому из D путём указанной замены. Но при этом, так как вместо /-го столбца нужно подставить k-\\ столбец, оставляя k-Pi на месте, в новом определителе будут два одинаковых столбца. Это означает, что выражение (5) будет равно нулю, что и требовалось доказать. Аналогичный результат для строк даёт формулу

§ 7. Решение систем уравнений

Теперь у нас подготовлен вспомогательный аппарат для того, чтобы получить общие формулы, дающие решение системы п уравнений с п неизвестными.

Рассмотрим такую систему:

(1)

Определитель

(2)

составленный из коэффициентов при неизвестных в системе (1), называется определителем этой системы уравнений.

Возьмём алгебраические дополнения элементов первого столбца определителя (2): Лп, Л21, Ап1, помножим на них, соответственно, обе части каждого из уравнений системы и сложим левые и правые части всех полученных уравнений. Пользуясь тем, что сумма произведений элементов любого столбца определителя на алгебраические дополнения элементов другого столбца равна нулю, замечаем, что коэффициенты при неизвестных xt (1=2, 3, ... , ri) в уравнении, полученном в результате указанного сложения, обращаются в нуль. Поэтому полученное уравнение будет иметь вид

(3)

Коэффициент при хх будет равен определителю системы (1). Но, замечая теперь, что правая часть уравнения (3) отличается от коэффициента левой части только тем, что вместо элементов ап в неё входят элементы bi9 видим, что правая часть также может быть записана в виде определителя: этот определитель получается из определителя системы заменой первого столбца столбцом свободных членов. Если полученный в результате такой замены определитель обозначить Dif то уравнение (3) перепишется в виде

Dxx = Dx.

Аналогично, если умножить обе части каждого из уравнений соответственно на алгебраические дополнения элементов некоторого А-го столбца определителя D, то после сложения получим уравнение

Dxk = Dk,

где Dk означает определитель, полученный из D заменой k-ro столбца столбцом свободных членов.

В итоге, делая такие преобразования при всех k=l, 2, ... , п, получим систему уравнений

Dxk = Dk (*=1, 2, п). (4)

Эта система, как показывает сам процесс её получения, является следствием данной системы, т. е. любое решение системы (1) будет удовлетворять также и системе (4).

Но значения неизвестных, удовлетворяющие системе уравнений (4), однозначно определяются из этой системы, если только определитель D отличен от нуля. Именно,

(5)

Таким образом, исходная система в этом случае может удовлетворяться только указанными значениями неизвестных, и мы получаем следующий промежуточный результат:

Если определитель системы п уравнений с п неизвестными отличен от нуля, то эта система не может иметь более одного решения.

Предшествующие рассуждения не могли гарантировать, что и уравнения (1) являются следствиями уравнений системы (4). В общем случае это неверно. Однако если определитель D системы (1) отличен от нуля, то можно непосредственной проверкой показать, что значения неизвестных, определяемые формулами (5), удовлетворяют исходной системе.

В самом деле, разлагая определитель Dk по элементам k-vo столбца, можно записать формулы (5) в виде

Подставляя теперь эти выражения вместо неизвестных в какое-нибудь /-е уравнение системы (1), получим в левой части этого уравнения выражение

Раскрывая теперь скобки и группируя отдельно члены, содержащие различные коэффициенты Ьи Ь2, .. , Ьп, получим выражение

Теперь легко видеть, что только одна, именно /-я, сумма в скобках будет отлична от нуля: она будет равна определителю системы как сумма произведений элементов у-й строки определителя на их алгебраические дополнения, остальные суммы обратятся в нуль как суммы произведений элементов у-й строки определителя на алгебраические дополнения другой строки. Эти замечания дают возможность переписать предыдущее выражение в виде

что после сокращения на D даёт bjy т. е. наше выражение равно правой части у-го уравнения системы.

Так как номер ] уравнения может быть любым, мы обнаружили, что значения (5) неизвестных хи ... t хп удовлетворяют всем уравнениям системы. Тем самым показано существование решения.

Полученный результат, будучи объединён со сформулированной выше теоремой единственности решения, даёт следующую теорему.

Основная теорема о системах уравнений. Система п уравнений с п неизвестными, определитель которой отличен от нуля, всегда имеет решение. Это решение единственно и определяется следующим правилом: значение каждого из неизвестных равно дроби, знаменателем которой является определитель си-

стемы, а числитель получается из определителя системы заменой столбца коэффициентов при искомом неизвестном столбцом свободных членов.

Приведённое правило решения системы носит название правила Крамера.

Полученная основная теорема ничего не говорит ни о существовании, ни о единственности решения в случае, если определитель системы равен нулю. Использованные нами соображения могут дать только условие, при котором решения заведомо не существуют (это будет, например, в случае, когда определитель D равен нулю, а хотя бы один из определителей Dk не равен нулю). Подобного рода чисто отрицательные результаты недостаточны, и поэтому, минуя их, мы сразу перейдём к подробному исследованию систем уравнений, составляющему содержание следующей главы.

ГЛАВА II

ВЕКТОРНЫЕ ПРОСТРАНСТВА И ИССЛЕДОВАНИЕ СИСТЕМ ЛИНЕЙНЫХ УРАВНЕНИЙ

§ 8. Векторные пространства. Абстрактная точка зрения

Введённое в предыдущей главе понятие /z-мерного числового пространства по существу является не обобщением, а только аналогом понятия векторного пространства элементарной геометрии.

Для того чтобы получаемые нами результаты можно было применять как к тому, так и к другому пространству, целесообразно отказаться от каких-либо ограничений природы тех объектов, которые мы называем векторами. Это можно сделать, исходя из такого определения:

Любая совокупность L каких-либо элементов называется векторным пространством над данным числовым полем К, если:

1. Установлено некоторое правило, ставящее в соответствие каждым двум элементам а и b нашей совокупности некоторый третий элемент а-\-Ь той же совокупности, называемый суммой данных элементов а и Ь.

2. Установлено некоторое другое правило, ставящее в соответствие каждому элементу а нашей совокупности и каждому числу k из поля К некоторый элемент ka совокупности L.

3. Оба эти правила удовлетворяют следующим требованиям (аксиомам):

I. Для любых элементов a, b и с совокупности L имеют место соотношения:

а) a-\-b = b-\-a (коммутативность),

б) (a-\-b)-\-c = a-\-(b-\-c) (ассоциативность).

II. В совокупности L существует элемент О (нулевой элемент) такой, что а-\-0 = а для любого элемента а из нашей совокупности.

III. Для каждого элемента а из L существует такой элемент — а, называемый ^противоположным» для а, что а-\-(—а) = 0.

IV. Для любых элементов а и b совокупности L и любых кисел kx и k2 поля К имеют место соотношения:

V. Для любого элемента а из L имеет место соотношение 1а = а, т. е. умножение на число 1 не изменяет элемента нашей совокупности L.

При таком определении естественно называть любой элемент рассматриваемой совокупности L вектором.

По поводу введенного определения следует заметить следующее: Мы не случайно не указали, какие именно правила определяют сумму векторов и произведение вектора на число. Эти правила могут быть любыми, лишь бы были выполнены наложенные выше требования.

Также не случайно, что у нас на первый план выдвинулось понятие векторного пространства, а не понятие вектора.

Причина этого в том, что интересующие нас свойства векторов проявляются не на отдельных экземплярах этих объектов, а в поведении их, так сказать, в коллективе, во всей рассматриваемой совокупности.

Что касается употребления в формулировке аксиом знака равенства, то мы раз навсегда условимся, что равенство обозначает лишь то, что предметы, стоящие по обе его стороны, просто совпадают: это — один и тот же предмет. При таком употреблении знака равенства свойства транзитивности, симметрии и рефлексивности становятся чисто логическими его свойствами и не нуждаются в установлении особых соглашений.

Прежде чем переходить к более подробному изучению свойств векторных пространств, мы покажем на нескольких примерах, насколько большую свободу даёт нам введённое только что определение.

Легко видеть, прежде всего, что как совокупность «геометрических» векторов плоскости, так и совокупность я-мерных числовых векторов (при любом заданном п) являются векторными пространствами во введённом нашим определением смысле.

Однако теперь уже можно указать весьма большое число других примеров векторных пространств.

Пример 1. Обозначим через Fn совокупность многочленов а0-\-ахх-\-.. .-^-а^у степень каждого из которых не превосходит данного числа пу а коэффициенты берутся из рассматриваемого числового поля К. Для таких многочленов в элементарной алгебре определена операция сложения и указано правило умножения многочлена на любое число. При этом сложение и умножение на числа из поля К

не выводят нас за пределы рассматриваемой совокупности F. Кроме того, те требования, которые были сформулированы в виде аксиом I—V, в рассматриваемом случае выполнены.

Это означает, что совокупность F при указанных операциях сложения и умножения на число является векторным пространством над полем КУ а сами многочлены степени не выше п можно рассматривать как векторы этого «пространства».

Отметим, что если мы ограничимся только рассмотрением многочленов, степень которых в точности равна л, то мы не получим векторного пространства: сумма таких многочленов может иметь меньшую степень, так что не будет элементом нашей совокупности.

Пример 2. Матрицей с m строчками и п столбцами называется любая таблица чисел, имеющая вид

Если все входящие в эту таблицу числа берутся из поля К, то мы будем говорить о матрице над этим полем.

Для матриц приняты такие определения операций: произведением матрицы на число называется матрица, получаемая из данной умножением всех входящих в неё чисел на это число; суммой матриц называется матрица, получаемая из данных двух матриц сложением соответствующих (т. е. стоящих в них на одинаковых местах) чисел. Сумма матриц определена только тогда, когда обе рассматриваемые матрицы имеют одинаковое число строк и одинаковое число столбцов.

При этих соглашениях совокупность всех матриц с m строками и п столбцами над данным полем К будет векторным пространством над этим полем, ибо, как легко проверить, все требования сформулированного выше определения здесь опять выполнены.

Пространство /«-мерных числовых векторов над полем К является частным случаем определённого только что «пространства матриц»: наши матрицы обращаются в числовые векторы, если л=1, т. е. если в них имеется только один столбец.

Пример 3. Обозначим через С совокупность всех непрерывных функций f(x), определённых на некотором отрезке [ау Ь] значений X и принимающих действительные значения. В математическом анализе определяется, что значит «сложить» две данные функции или «умножить» данную функцию на действительное число. При этом оказывается, что сумма двух непрерывных на данном отрезке функций будет также непрерывна на этом отрезке, и это же относится к произведению непрерывной функции на действительное число. Кроме того, хотя это редко доказывается в явной форме, опреде-

лённые так сложение и умножение на число удовлетворяют требованиям, выраженным в аксиомах I—V.

Но сказанное означает, что совокупность С при введённых так операциях над функциями является также векторным пространством над полем действительных чисел.

Пример 4. Совокупность Fœ всех многочленов с коэффициентами из данного поля К также является векторным пространством, если считать сумму многочленов и произведение многочлена на число определёнными обычным образом.

Этими примерами далеко не исчерпываются не только все вообще существующие векторные пространства, но даже те из них, которые оказываются наиболее важными в современной математике.

Полезность введённого в этом параграфе аксиоматического или «абстрактного» определения векторного пространства состоит именно в том, что оно позволяет изучать одновременно очень большое количество различных «конкретных» пространств. В самом деле, все результаты, которые удаётся получить, исходя только из введённого определения, необходимо будут верны в любом случае, когда условия определения выполнены.

Нужно добавить, что на самом деле связь между «абстрактными» и «конкретными» результатами здесь не только в том, что из общих теорем абстрактной теории получаются конкретные следствия, но и в том, что известные результаты в случае отдельных частных «конкретных» пространств, например совокупности векторов на плоскости или в обычном трёхмерном пространстве, позволяют предвидеть факты, имеющие место в общем случае. Тем самым мы получаем средство устанавливать связи иногда даже между очень отдалёнными на первый взгляд разделами математики.

Развитие математики в течение конца XIX в. и те работы, которые ведутся в настоящее время, указывают много таких связей. Их простое перечисление не может принести пользы, а более подробное выяснение существа дела завело бы нас слишком далеко от основной темы. Поэтому мы ограничимся сделанными замечаниями и перейдём к систематическому исследованию свойств векторных пространств, начиная с простейших.

§ 9. Простейшие свойства операций над векторами

Мы начнём с того, что выведем простейшие следствия из определения векторного пространства, относящиеся к операциям над векторами.

Из нашего соглашения об употреблении знака равенства и из того, что сумма двух векторов однозначно определена, вытекает следующее хорошо известное правило оперирования с равенствами:

К обеим частям векторного равенства можно прибавить один и тот же вектор, не нарушая справедливости равенства.

В самом деле, равенство а = Ь выражает, что буквами а и b обозначен один и тот же вектор. Поскольку сумма а-\-с однозначно определена, она будет одним и тем же вектором независимо от того, как обозначено первое слагаемое: а-\-с = Ь-\-с.

По той же причине обе части векторного равенства можно умножать на один и тот же числовой множитель без нарушения равенства.

Правило сложения векторов ставит в соответствие любым двум векторам а и b их сумму а-\- Ь. Если нам нужно сложить не два, а несколько векторов, то мы вынуждены эту операцию проводить в несколько приёмов, каждый из которых состоит в сложении двух векторов. Например, если мы имеем три вектора а9 b и с, то можно представить себе такие различные комбинации при их сложении

(а-\-Ь) + с, а + (Ь + с), (а + с) + &,

где скобки, как обычно, показывают порядок выполнения операций. Законы коммутативности и ассоциативности, содержащиеся в аксиоме I, позволяют утверждать, что во всех этих случаях мы получим один и тот же результат. Действительно, для первых двух из написанных выражений это очевидно в силу самой формулировки аксиомы I, а для третьего наше утверждение следует из такой цепочки равенств:

(ö + c) + o = o + (ß + r) = (o + a) + r = (ß + o) + c,

каждое из которых получается однократным применением равенств а) или б) аксиомы I.

Естественно посмотреть, будет ли это сохраняться и в случае сложения большего числа векторов.

Методом математической индукции может быть доказано, что имеет место следующий общий закон:

Сумма любого числа векторов не зависит от того порядка, в котором производится операция сложения данных векторов.

Этот результат даёт право при записи суммы вообще не писать скобок или расставлять скобки произвольно, если это почему-либо выгодно для дальнейшего оперирования с рассматриваемой суммой.

Доказательство сформулированного выше утверждения может быть проведено следующим образом:

Рассмотрим сначала суммы такого специального вида:

(... (((а, + ch) + az) + а4) +... + ал_0 + ап,

т. е. такие, в которых сначала складываются два первых слагаемых, затем к их сумме прибавляется третье слагаемое, затем к сумме этих слагаемых прибавляется четвёртое и т. д. Будем называть эти суммы каноническими и при выписывании таких сумм вовсе ne будем писать скобок. Заметим,

прежде всего, что каноническую сумму п слагаемых ах -{-а* + • • • + ап можно по самому её определению представить в следующем виде: (ах + ... + 4- öfe) + öfe+i + • • • + ап> т- е- как каноническую сумму п — k + 1 слагаемых, из которых первое само является канонической суммой первых k слагаемых данной суммы.

Покажем, что в канонической сумме можно произвольно менять порядок слагаемых. В самом деле, для сумм из двух элементов справедливость утверждения гарантируется аксиомой I. Пусть утверждение доказано для канонических сумм, состоящих из п—1 элементов, и пусть дана сумма #i + dz + • • • + ап> Ддя которой требуется показать, что она равна сумме + а-н +... + ai п* гДе h> h, - • •, in — какая-либо перестановка индексов 1, 2,..., п. Представим первую и вторую суммы, соответственно, в виде (а1 + ... + аЛ_1) + аЛ и (ait +... + aini) + а,п. Если in = n, то видно, что дело сводится к перестановке членов в сумме at +...-f-Яя-ь т. е. для этого случая всё доказано. В противном случае вектор Of содержится среди векторов au • • • »ßn-u причём его в сумме п—1 слагаемых можно переставить на последнее место, не изменяя суммы at +... + a/7_i. Поэтому можно считать, что этот вектор уже стоит на последнем месте, т. е. что in = n—1. Векторы a/t,..., di^t a>in t в этом случае образуют перестановку векторов #1,. ..,ал_2, ап. Поэтому в скобках второй суммы можно (опять по предположению индукции!) переставить слагаемые так, чтобы они стояли в порядке аи..., ал_2, ап. Таким образом, остаётся только установить, что равны суммы (ai +... + аЛ_ц) + ап и (ai +... + ал_2 + ап) + ял_1. Этот последний шаг может быть проведён так: первая сумма по определению равна (at +... + + ап-2) + a>n-i + о>п> так что её можно рассматривать как сумму трёх слагаемых (ai + • •. + Ял_2, Я/1-1 и ап). Поэтому скобки могут быть переставлены, и мы можем написать:

(ai +... + ал_2) + a„_i + ап = (at +... + ал_2) + (a„_i + а„).

После этого в силу коммутативности двух слагаемых можно написать равенство

{а, +... + ал_2) + (ал_! + ал) = (at +... + ал_2) + (ал + ал_0.

Теперь можно снова воспользоваться законом ассоциативности для трёх слагаемых и написать:

(at +... + ал_2) + (ал + a„_i) = ((at +... + ал_2) + ал) + ап^.

Но правая часть последнего равенства есть не что иное, как сумма ах +... + + Я/7_2 + ап + ал_1, или (at +... + + #л) + ял-1. Равенство доказано.

Теперь покажем, что сумма двух канонических сумм равна канонической сумме всех их слагаемых.

Действительно, если вторая сумма содержит лишь одно слагаемое, то утверждение следует просто из определения канонической суммы. Пусть утверждение верно в случае, если второе слагаемое содержит п—1 слагаемых, и пусть дана сумма (ai +... + «m) + (ôi +... + 6Л), в которой вторая из написанных канонических сумм содержит п слагаемых. Тогда написанную сумму можно переписать в виде (at +... + ат) + ((bt -f-... + + bn)y т. е. рассмотреть как сумму трёх слагаемых (ах + ... + am), {bL +... + bn_î) и bn. В таком случае мы имеем право переставить скобки так: ((at +... -f- ат) + "Ь Ф\ + • • • + &/7-i)) + Ьп. При этом в наружных скобках оказывается сумма Двух канонических сумм, вторая из которых содержит уже п—1 слагаемых. В силу сделанного предположения выражение в наружных скобках может быть переписано в виде (at -f-... + ат + Ьх +... + bn_i)y а всё написанное выражение в виде (ai + • • • + Q>m + &i + • • • + bn-i) + bn. Но полученное выражение есть просто каноническая сумма всех слагаемых обеих сумм.

Остаётся рассмотреть произвольные суммы и показать, что любым образом записанная сумма равна канонической сумме её слагаемых.. Это утверждение тривиально для сумм двух векторов, так как сумма двух векторов сама является канонической. Предположим, что утверждение уже доказано для сумм, состоящих из п—1 или меньшего числа слагаемых. Если дана сумма п слагаемых alf...,an с какой-либо расстановкой скобок, то её можно представить как сумму двух слагаемых (для этого нужно только усмотреть, какое из указанных сложений производится последним). Каждое из слагаемых является само суммой части слагаемых данной суммы. Поскольку число слагаемых обеих частичных сумм меньше п, каждая из них равна канонической сумме входящих в неё слагаемых. Поэтому вся рассматриваемая сумма как сумма двух канонических сумм будет канонической суммой всех её слагаемых. Этим доказательство закончено.

Подобным же образом можно рассмотреть и произведения векторов на числа. Например, произведение (kx . . —|— kn) (ах -f-... -\- ат) равно сумме всевозможных попарных произведений вида kflj при различных I и у.

Доказывается это индукцией по числу m слагаемых векторов, а для т=1 — индукцией по числу п. Детали рассуждения не представляют труда, и мы оставляем его читателю.

Для большего удобства мы условимся ещё писать множители в таких произведениях в произвольном порядке, приняв по определению, что ka = ak для любого вектора а и любого числа k из поля К. Тогда правила действий над векторами примут обычный вид, хорошо известный из элементарной алгебры. Нужно только следить, чтобы в каждом рассматриваемом произведении все множители, кроме одного, были числовыми.

Следует особо остановиться на содержании аксиом III и V.

Первая из них утверждает существование хотя бы одного элемента 0 (нулевого вектора), удовлетворяющего условию #-|-0 = ö при любом векторе я. Легко, однако, видеть, что такой вектор может быть только один: если бы были два таких вектора О и 0', то сумма 0 —|— 0' = 0' —[— 0 равнялась бы одновременно 0 и О'. Поэтому векторы 0 и 0' были бы равны, вопреки первоначальному предположению, что они различны.

Аналогично этому можно установить, что для каждого вектора X существует только один противоположный вектор: если бы таких векторов было два (—х) и (—х)'> то мы имели бы такую цепочку равенств, каждое из которых вытекает из принятых аксиом:

Теперь можно легко установить, что если какой-либо вектор х удовлетворяет условию а-\-х = ау хотя бы при одном векторе а, то х = 0. В самом деле, прибавляя к обеим частям первоначального равенства вектор (—а), получим Х—0.

Обнаруженное свойство нулевого вектора даёт возможность показать, что произведение любого вектора а на число 0 равно нулевому вектору.

Действительно, в силу аксиом IV и V имеем: ß-f-0 • а=1 -а-\--|-0 . а = (1 -\-0). а = а. Это означает, что вектор 0-а обладает указанным свойством, а значит, он равен нулевому вектору.

Сделанное замечание позволяет не опасаться путаницы от того, что число нуль и нулевой вектор мы обозначаем одинаковым образом. Их свойства аналогичны, а в каждом отдельном случае сразу видно, с числом или с вектором мы имеем дело.

Если имеется векторное равенство, одна из частей которого содержит слагаемым вектор а, то, прибавляя к обеим частям противоположный вектор — а, получим равенство, отличающееся от первоначального только тем, что вектор а «перенесён» из одной его части в другую с противоположным знаком. Подобного рода формальными преобразованиями равенств мы будем далее пользоваться без особых оговорок.

§ 10. Линейная зависимость векторов

Доказанные в предыдущем параграфе свойства операций над векторами позволяют действовать с ними так же свободно, как с обычными числами или с многочленами. Мы больше не будем возвращаться к этим элементарным свойствам и обратимся к понятию, играющему в дальнейшем основную роль, — понятию линейной зависимости.

Уже в § 1 мы пользовались термином «линейная комбинация» векторов. При рассмотрении любого векторного пространства L мы будем также называть выражения вида kxax -f- k2a2 -)-...-[- knan линейными комбинациями векторов av ß2,..., ап, если только коэффициенты kv k2,..., kn принадлежат числовому полю К, над которым рассматривается 'наше пространство. Обратим внимание читателя на то, что при этом не исключается случай, когда все коэффициенты равны нулю. Поэтому нулевой вектор всегда можно представить линейной комбинацией любых заданных векторов.

Пусть теперь M — произвольная система векторов нашего пространства. Эта система называется линейно независимой, если линейная комбинация векторов, принадлежащих системе, может быть равна нулю только в том случае, когда все коэффициенты равны нулю. В случае, если можно указать хотя бы одну линейную комбинацию векторов системы, коэффициенты которой не все равны нулю и которая тем не менее равна нулю, говорят, что данная система линейно зависима.

Легко видеть, что если на плоскости взять любые два непараллельных вектора, то они будут линейно независимы: никакая их линейная комбинация с отличными от нуля коэффициентами не может

быть равна нулю. Такое же положение будет, если в «обычном» трёхмерном пространстве взять три вектора, не параллельные одной плоскости.

Наоборот, если на плоскости взять любую систему из трёх векторов, то она уже будет линейно зависимой: в этом случае хотя бы один из трёх векторов будет линейной комбинацией двух других, например a = k1b-\-k2c. Но, перенося все члены этого равенства в одну часть, мы получим la — kxb — k%c = 0. А это означает, что нашлась линейная комбинация данных векторов, которая равна нулю, несмотря на отличие от нуля её коэффициентов (коэффициент 1 при векторе а, очевидно, отличен от нуля).

Только что проведённое рассуждение позволяет доказать следующую простую, но важную теорему.

Теорема. Система векторов, содержащая более одного элемента, линейно зависима тогда и только тогда, когда хотя бы один из её векторов представляется линейной комбинацией остальных.

Таким образом, содержащееся в формулировке этой теоремы условие почти эквивалентно первоначальному определению линейной зависимости. Некоторым дефектом этого условия является лишь то, что оно не может быть применено к одному вектору: если система состоит из одного вектора, то говорить о его выражении через «остальные» нельзя без некоторой натяжки; в то же время говорить о линейной зависимости или линейной независимости такой системы в смысле нашего определения можно, так как можно рассматривать линейные комбинации векторов, состоящие из одного слагаемого.

Именно, возможность применять первоначальное определение без каких-либо оговорок делает его более удобным, чем принятие в качестве определения линейной зависимости условия, указываемого нашей теоремой.

Доказательство. Пусть система M линейно зависима. Тогда по определению линейной зависимости можно указать линейную комбинацию ktat -f- k2a2 -f-... knan некоторых векторов av аъ..., an системы, которая равна нулю и в которой хотя бы один коэффициент отличен от нуля. Не ограничивая общности, можно считать, что kx ф О (в противном случае можно было бы изменить нумерацию рассматриваемых векторов). Тогда из равенства k^-^-k^a^-^+ ... -\-knan = О умножением обеих его частей на k~1 = ^- получим: ах =— yа% —... — ]^ап> т. е. один из векторов системы выражается линейной комбинацией остальных.

Наоборот, если какой-либо вектор ах данной системы представляется комбинацией остальных векторов, например aî=k2a^-\--J-... -f-knanf то перенос всех членов в одну часть приводит к

линейной комбинации, равной нулю и имеющей отличный от нуля (хотя бы) один из коэффициентов.

Из определения сразу следует, что если система векторов содержит нулевой вектор, то она обязательно линейно зависима: в этом случае выражение £0 представляет собою линейную комбинацию векторов системы, содержащую лишь одно слагаемое. Эта линейная комбинация будет равна нулю при любом значении коэффициента k, в частности при k ф 0.

Точно так же получается сразу, что любая часть линейно независимой системы векторов будет линейно независимой системой.

В самом деле, если бы эта часть была линейно зависимой, то было бы возможным составление линейной комбинации её векторов, равной нулю и содержащей хотя бы один отличный от нуля коэффициент. Но эта линейная комбинация была бы также линейной комбинацией векторов всей системы, что, очевидно, противоречит линейной независимости последней.

Условимся называть две системы векторов эквивалентными, если каждый вектор любой из них можно выразить линейной комбинацией векторов другой системы.

Так, если на плоскости взять три вектора х, yf zy связанные соотношением z = x-\-y, то системы векторов {х, у}, {ху уу z}9 а также и {у, z) будут эквивалентными.

Например, эквивалентность первых двух из этих систем следует из справедливости равенств

содержание которых сводится именно к тому, что каждый вектор одной из этих двух систем является линейной комбинацией векторов другой системы.

Определённая так эквивалентность обладает следующими свойствами:

Любая система векторов эквивалентна самой себе.

Если одна система векторов эквивалентна другой системе, то и другая система эквивалентна первой.

Если каждая из двух данных систем векторов эквивалентна одной и той же третьей системе, то две первые системы также эквивалентны друг другу.

Убедиться в справедливости этих утверждений предоставляется самому читателю.

Важное свойство линейно независимых систем векторов указывает следующая

Теорема о замене. Пусть конечная линейно независимая система аи а2, ... , ап векторов такова, что каждый её вектор

является линейной комбинацией векторов некоторой другой системы М. Тогда число векторов в системе M не может быть меньше п, причём можно произвести замену п векторов системы M векторами аг, а2, ... , ап так, чтобы полученная после этой замены система M была эквивалентна первоначальной системе М.

Доказательство. Поскольку в формулировку теоремы входит натуральное число п — число элементов рассматриваемой конечной системы, естественно для доказательства воспользоваться индукцией.

Начнём со случая /1=1, когда первая система состоит лишь из одного вектора. Из того, что имеет место линейная независимость, следует, что вектор ах ф 0. С другой стороны, также по условию теоремы, можно выразить вектор аг линейной комбинацией некоторых векторов т„ т2, ... , ms системы M: al = kim1-\-kim.2-\--}-...-[- ksms. Отсюда уже следует, что в системе M должен быть хотя бы один вектор, т. е. что первое утверждение теоремы в данном случае справедливо. Кроме того, так как ах ф 0, хотя бы один из коэффициентов kv k2y ... , ksf например kv должен быть отличным от нуля (в противном случае линейная комбинация равнялась бы нулю, а не вектору ах). Если kt ф 0, то записанное выше равенство можно переписать так: т1 = ^-а1—^т2—... — \s ms. Но теперь видно непосредственно, что система М\ полученная заменой в системе M вектора т1 вектором аи будет эквивалентна системе М.

В самом деле, если мы возьмём любой вектор системы М, то могут представиться два и только два случая:

а) Выбранный вектор х отличен от тх\ но тогда он принадлежит также и системе М'у так как мы его не выбрасывали при замене. Равенство х=1х показывает, таким образом, что вектор х является линейной комбинацией векторов системы М.

б) Выбранный вектор x = mv Но в этом случае имеющееся в нашем распоряжении равенство т1 = ^-а1— тгЩ —... — tns также показывает, что он является линейной комбинацией векторов системы М\

Наоборот, если взять любой вектор х системы М'у то опять возможны два случая: а) хфах и б) х = ах. В этих случаях выражение вектора х в виде линейной комбинации векторов системы M даётся, соответственно, равенствами х = х и x — al=klmi-\--\-ksms. Доказательство эквивалентности систем M и M закончено.

Переходя к случаю произвольного п^>1} предположим, что наша теорема уже доказана в случае, когда данная линейно независимая

система содержит п—1 векторов. В этом предположении докажем справедливость обоих утверждений для системы п векторов.

В самом деле, если исключить из данной системы аи..., йп_и ап последний вектор ал, то останется система из п—1 векторов, которая попрежнему будет линейно независимой и такой, что каждый её вектор будет линейной комбинацией векторов системы М. Отсюда в силу предположения индукции следует, что число векторов системы М^п— 1 и что п—1 векторов этой системы можно заменить векторами а19 ... , ап_г так, что полученная после такой замены система М" будет эквивалентна системе М. Рассмотрим теперь вектор ап. Он является линейной комбинацией векторов системы M по условию теоремы, так как системы M и М" эквивалентны, он будет также линейной комбинацией векторов последней системы. В число этих векторов могут войти и векторы av ... , un_i9 так что an=kxax +... + + ^m, +... + lsms, где mlf...,ms — могущие присутствовать в этом выражении векторы первоначальной системы М. Покажем, что хотя бы один такой вектор должен входить в выражение ап с коэффициентом, отличным от нуля.

В самом деле, если все коэффициенты 119 ... , ls равны нулю (или векторов ти ... , ms вообще нет), то вектор ап оказывается линейной комбинацией векторов ai9 dn_v вопреки линейной независимости системы а19 ... , an_v ап.

Доказанный факт обнаруживает, что в системе М" найдётся хотя бы один вектор т, отличный от векторов а,, ... , an_t. Но это означает, что число векторов в системе M было ^ п. Кроме того, повторение доказательства для случаяп=1 даёт, что один из векторов т£ системы М" может быть заменён вектором ап так, чтобы полученная после такой замены система M была эквивалентна системе М". Учитывая теперь, что системы M и М" эквивалентны и что система M в конечном счёте получена из системы M заменой п её векторов векторами аг> ... , апУ убеждаемся в справедливости и второго утверждения теоремы.

Подчеркнём, что в теореме не утверждается возможность замены любых векторов системы M векторами al9 ... , ап. Из доказательства видно, что при каждом этапе замены можно заменять только тот вектор, который входит в рассматриваемое соотношение с отличным от нуля коэффициентом. Что касается того, какие именно векторы будут обладать этим свойством, то это в общем случае заранее предсказать нельзя. Проводимые в доказательстве рассуждения обнаруживали только, что хотя бы один такой вектор обязательно существует.

Содержание доказанной теоремы раскрывается теми следствиями, которые могут быть из неё получены. Прежде всего укажем такое:

Если каждый вектор системы M является линейной комбинацией конечного множества векторов bi9 b2, , ... , bm, то

никакая линейно независимая часть системы M не может содержать больше m векторов.

В самом деле, если av ... , ап — линейно независимая часть системы М, то к ней и к системе векторов ôf, ..., bm может быть применена теорема о замене, из которой следует, что п^=т.

Этот результат может быть применён, в частности, к пространству числовых векторов: в § 2 мы видели, что каждый л-мерный числовой вектор может быть представлен линейной комбинацией фиксированных векторов е19 ... , еп. Следовательно, в силу только что отмеченного следствия теоремы о замене никакая линейно независимая система n-мерных числовых векторов не может содержать более п векторов.

Другим важным следствием теоремы о замене является следующее предложение:

Если две конечные системы векторов Ьи ... , Ьт и clf ... , ср линейно независимы и эквивалентны, то число элементов в обеих системах одно и то же: т=р.

В самом деле, эквивалентность систем и линейная независимость каждой из них позволяют использовать теорему о замене дважды: один раз первая из систем принимается за множество а19 ... , ап, а другая за M, а другой раз — наоборот. Это даёт два неравенства т^р и р^т для чисел элементов в системах. Доказываемое равенство из них следует непосредственно.

Рассмотрим теперь какое-либо множество векторов данного нам пространства и будем выбирать из него всевозможными способами конечные линейно независимые части. При этом логически возможны два случая: либо можно выбрать линейно независимые части, содержащие сколь угодно большое число векторов, либо же число векторов в каждой из таких частей никогда не будет превосходить некоторого числа п. Сделанное только что замечание об я-мерном числовом пространстве показывает, что в случае числовых векторов будет иметь место как раз второй случай.

То, что и первый случай не является только логической возможностью, можно увидеть, например, в случае пространства всех многочленов Foo (см. пример 4 § 8). Степени х: х, х2, ... ...уХ*1, являются «векторами» этого пространства. Их линейными комбинациями являются многочлены ktxk$x2-\- ... -\-knx^y причём коэффициенты линейной комбинации являются просто коэффициентами этих многочленов. Отсюда видно, что нулевой многочлен (нулевой вектор нашего пространства!) мы можем получить, только взяв все коэффициенты равными нулю. Следовательно, «векторы» л:, ... , лг71, .. — линейно независимы, и мы можем из них выбрать конечную линейно независимую систему, содержащую сколь угодно большое число элементов.

Мы примем такое определение:

Рангом множества M векторов называется максимальное число векторов в линейно независимых частях этого множества.

Если ранга в смысле этого определения не существует (как в только что рассмотренном пространстве F^), то мы будем говорить, что ранг бесконечен.

Пусть M — какое-либо множество векторов пространства L (может быть, M совпадает со всем пространством) и пусть av ... f ап — какая-либо конечная линейно независимая система векторов множества М. Будем называть её максимальной линейно независимой системой во множестве М, если добавление к ней любого вектора нашего множества лишает её свойства быть линейно независимой.

Для таких систем имеет место следующая

Теорема. Линейно независимая система av а2, ... , ап векторов тогда и только тогда является максимальной линейно независимой системой во множестве М, когда она эквивалентна всему множеству. Если аи ... , ап и bv ... , bm — две максимальные линейно независимые системы векторов множества М, то они содержат одно и то же число элементов: m = п.

Легко видеть, что второе утверждение непосредственно вытекает из первого в силу доказанного выше следствия теоремы о замене, относящегося к эквивалентным линейно независимым системам. Доказательство же первого утверждения можно провести так:

1) Пусть система av ..., ап является максимальной линейно независимой системой векторов множества М; все её векторы линейно выражаются через векторы множества М. С другой стороны, если X — любой вектор из М, то система векторов av ... , ап, х будет уже линейно зависимой. Поэтому должна существовать равная нулю линейная комбинация этих векторов

kxax +... + knan -\-kx = 0,

имеющая хотя бы один отличный от нуля коэффициент. Но легко видеть, что k не может равняться нулю, так как в этом случае был бы отличным от нуля один из других коэффициентов и векторы av ... , ап были бы линейно зависимыми, вопреки предположению. Это же в свою очередь означает, что вектор

Так как х — произвольный вектор из Ж, то векторы из Ж линейно выражаются через векторы системы al9 ... , ап.

2) Наоборот, пусть линейно независимая система векторов й19..., ап, множества M эквивалентна всему множеству. Тогда любой вектор X множества M будет некоторой линейной комбинацией векторов данной системы:

Так как эта линейная комбинация равна нулю, а не все её коэффициенты равны нулю, то система alf ... , anf х не может быть линейно независимой, что и требовалось доказать.

Понятие ранга множества векторов приобретает особенно наглядный смысл в случае множеств векторов на плоскости или в обычном трёхмерном пространстве. Как легко видеть, в этих случаях ранг равен, соответственно, 2 и 3, т. е. совпадает с тем числом, которое обычно называют числом измерений. Рассматривая совокупность векторов, лежащих на одной прямой линии, мы без труда увидим, что её ранг равен 1, т. е. опять-таки совпадает с числом измерений, которое обычно приписывается прямой.

Разобранный пример делает естественным следующее определение размерности произвольного векторного пространства:

Размерностью векторного пространства называется число элементов в максимальной линейно независимой системе векторов этого пространства.

Доказанная выше теорема позволяет утверждать, что это число не зависит от выбора максимальной линейно независимой системы векторов.

Замечая, что векторы elf ... , еп числового «-мерного пространства образуют, очевидно, максимальную линейно независимую систему, можем утверждать теперь, что размерность этого пространства в только что определённом смысле равна п. Этим оправдывается применявшееся нами раньше название «я-мерное» пространство.

§ 11. Подпространства

Если мы рассмотрим векторы обычного трёхмерного пространства, лежащие на какой-либо плоскости, то немедленно обнаружим, что суммы этих векторов и произведения их на действительные числа являются снова векторами той же плоскости. Это обстоятельство наводит на мысль придать нашей терминологии, относящейся к общему случаю любых векторных пространств, ещё большую геометричность, введя такое определение:

Подпространством данного векторного пространства называется любое множество L векторов этого пространства, обладающее двумя следующими свойствами:

1. Если векторы а и b принадлежат этому множеству, то и их сумма также принадлежит L.

2. Если вектор а принадлежит множеству L, то и его произведение ka на любое число из поля К также принадлежит L.

Нетрудно видеть, что каждое подпространство само является векторным пространством в смысле общего определения, введённого в § 8: для двух его элементов определена их сумма, определено произведение любого из его элементов на число из поля К и свойства этих операций, выраженные аксиомами I—V,

также выполнены, так как они выполняются во всём пространстве. Таким образом, всё, что мы выше говорили о векторных пространствах, автоматически относится и к их подпространствам.

Однако при рассмотрении подпространств обнаруживается целый ряд новых явлений, связанных с их, так сказать, «взаимным расположением».

Пусть Lj и L2 — два подпространства одного и того же векторного пространства L. Пересечением этих подпространств естественно назвать совокупность векторов пространства, принадлежащих одновременно обоим подпространствам. Это наименование находится в согласии как с наглядными геометрическими представлениями, так и с общим определением теории множеств, в которой, как известно, пересечением любых множеств называют совокупность их общих элементов. Если мы рассмотрим совокупности векторов обычного трёхмерного пространства, лежащих на двух плоскостях, как подпространства, то пересечением их в нашем смысле будет совокупность векторов, лежащих на прямой, по которой пересекаются эти плоскости. Эта совокупность оказывается сама подпространством. Если аналогичным образом рассмотреть совокупности векторов, лежащих на пересекающихся прямой и плоскости, то пересечение этих подпространств будет состоять только из одного нулевого вектора: только нулевой вектор можно рассматривать как лежащий одновременно на нашей плоскости и на прямой. Однако нулевой вектор сам по себе образует подпространство: ведь сложение нулевого вектора с самим собой и умножение его на любое число дают снова нулевой вектор. Эти совершенно наглядные соображения приводят к предположению о справедливости следующей общей теоремы.

Теорема. Пересечение двух подпространств любого пространства само является подпространством.

Действительно, пусть Lx и L2 — данные подпространства пространства L. Если векторы а и ö содержатся в пересечении этих подпространств, то они будут содержаться также и в каждом из них в отдельности, например в Lx. Но так как Lx есть подпространство, то сумма этих векторов а-\-Ь и произведение ka одного из них на любое число также принадлежит подпространству. Из тех же соображений следует, что эти сумма и произведение принадлежат также и другому подпространству L2, а значит, и пересечению этих подпространств. Наше утверждение доказано.

Конечно, можно говорить также и о пересечении любого числа подпространств. Оно будет также подпространством рассматриваемого пространства.

Подпространства могут содержаться одно в другом: это выражение будет означать просто, что каждый вектор, принадлежащий первому из них, является также и вектором второго. Например, пересечение двух или большего числа подпространств

содержится в каждом из первоначально заданных подпространств. Ясно, что если подпространство Lx пространства L содержится в другом подпространстве L2 того же пространства, то Lt может рассматриваться так же, как подпространство L2. Отметим также, что любое пространство может рассматриваться как подпространство в себе самом: это вполне согласуется с принятым нами определением. Если нам нужно подчеркнуть, что рассматриваемое подпространство не совпадает со всем пространством, то мы будем называть его собственным подпространством.

Легко видеть, что если задано произвольное множество M векторов пространства L, то совокупность всех их линейных комбинаций образует уже подпространство в L: ведь сумма двух линейных комбинаций векторов множества M и произведение любой из этих линейных комбинаций на любое число рассматриваемого поля К будут снова линейными комбинациями векторов множества М. Это подпространство называется подпространством, порождаемым данным множеством векторов.

Наибольший интерес для нас будут представлять случаи, когда рассматриваемое множество векторов конечно.

В случае векторного пространства элементарной геометрии подпространство, порождаемое одним вектором, является совокупностью векторов, лежащих на определяемой этим вектором прямой линии. То же самое подпространство порождают и два вектора этой прямой, если хотя бы один из них отличен от нуля. Однако если мы возьмём два вектора, не лежащих на одной прямой, то порождаемое ими подпространство будет уже плоскостью. Наконец, если мы возьмём три вектора, не лежащих на одной плоскости, то порождаемое ими подпространство будет попросту совпадать со всем пространством.

Можно указать ряд подпространств в тех пространствах, которые были определены в примерах 1—4 § 8. Например, в пространстве Foo, уже рассматривавшемся в предыдущем параграфе, в качестве подпространства содержится совокупность многочленов, не содержавших нечётных степеней х. Легко видеть, что размерность этого подпространства так же бесконечна, как и размерность самого пространства: ведь 1, лг2, ... , х2п, ... линейно независимы (см. § 10). Однако в том же пространстве имеются и подпространства конечной размерности. Так, пространство Fn многочленов, степень которых не превышает п, содержится в Fœ в качестве подпространства. То, что размерность этого подпространства конечна, ясно из того, что все многочлены степени п или меньше представляются линейными комбинациями «одночленов» 1, лг, лг2, ... , хп, также являющихся «векторами» нашего пространства.

Доказанные в предыдущем параграфе теоремы дают возможность во многих случаях просто определить, какова размерность того или

иного пространства, как это сделано выше в случае пространства /г-мерных числовых векторов.

Например, размерность пространства Fn многочленов степени равна лх —I— 1, так как «векторы» этого пространства 1, лг, ... , jc71 линейно независимы и любой вектор (т. е. любой многочлен указанной степени) представляется их линейной комбинацией.

Между размерностями пространства и его подпространства имеет место такое соотношение:

Размерность любого подпространства не превосходит размерности пространства. Если размерность пространства конечна, то размерность любого собственного подпространства строго меньше размерности пространства.

В самом деле, первое утверждение очевидно, так как всякая линейно независимая система векторов подпространства будет также линейно независимой системой векторов всего пространства. Для доказательства второго утверждения предположим противное. Возьмём некоторую максимальную линейно независимую систему векторов подпространства. Число входящих в неё векторов равно в точности размерности подпространства, а следовательно, и размерности пространства, так как эти размерности предположены равными. По этой причине она будет также максимальной линейно независимой системой векторов всего пространства. Но в таком случае эта система, по доказанной в предыдущем параграфе теореме должна быть эквивалентна всему пространству. Это, в частности, означает, что любой вектор пространства является линейной комбинацией векторов нашей системы, которые все принадлежат подпространству. Принимая теперь во внимание, что любая линейная комбинация векторов подпространства принадлежит к этому же подпространству, получаем, что любой вектор пространства принадлежит рассматриваемому подпространству, так что подпространство не будет собственным.

§ 12. Применение к системам уравнений

Мы сделаем сейчас небольшое отступление от изложения общей теории, чтобы дать понять, каким образом развиваемые здесь соображения могут оказаться полезными для исследования систем уравнений.

Пусть дана некоторая система линейных уравнений

(1)

Здесь мы не предполагаем, что число уравнений системы равно числу неизвестных: оно может быть как больше, так и меньше этого числа.

Требуется найти способ узнать, имеет ли данная система решения и (если она их имеет) каково число решений. Наконец, желательно также указать способ нахождения всех решений системы.

Все эти вопросы, как мы увидим, легко сводятся к некоторым вопросам о векторах, тесно примыкающим к только что рассмотренным.

Действительно, будем рассматривать каждый столбец коэффициентов при одном и том же неизвестном, а также и столбец свободных членов как /г-мерные числовые векторы. Обозначим эти векторы, соответственно, через аи ... , ат и Ь. Тогда система (1) может быть записана в виде одного уравнения

(2)

Любое решение системы (1), т. е. любая совокупность значений неизвестных, удовлетворяющая системе (1), будет также удовлетворять уравнению (2), и наоборот. Это следует просто из того, что уравнение (2) является лишь иной записью системы (1). Это может быть сформулировано другими словами так: Система уравнений (1) имеет решение тогда и только тогда, когда вектор b является линейной комбинацией векторов аи

Как мы увидим дальше, особенно важной для нас будет следующая формулировка того же по существу результата:

Система уравнений (1) тогда и только тогда имеет решение, когда ранги систем векторов aîf а2, ... , ат и а19 аъ ... , ат> b равны.

Действительно, ранг системы векторов есть число векторов максимальной линейно независимой части этой системы. Если ранги систем а,, аг, ... , ат и а19 аъ ... , ат, b равны, то максимальная линейно независимая часть системы ai9 а2, ... , ат будет также максимальной линейно независимой частью системы al9 ß2,... ... , ат, Ь. Но по доказанной в предыдущем параграфе теореме максимальная линейно независимая часть любого множества эквивалентна этому множеству векторов. Так как в нашем случае она будет эквивалентна обеим рассматриваемым системам, то эти последние будут эквивалентны между собой, а следовательно, вектор b будет линейной комбинацией векторов ai9 аъ ... , ат9 и система имеет решение.

Наоборот, если решение системы (1) существует, то вектор b оказывается линейной комбинацией векторов системы al9 а%, ... , ат. Отсюда сразу видно, что каждый из векторов любой из рассматри-

ваемых систем будет линейной комбинацией векторов другой системы (сомнения могли бы возникнуть лишь в отношении вектора Ь), т. е. эти системы эквивалентны.

Полученное условие существования решения системы (1) может быть формулировано и в терминах подпространств. При этом резче бросится в глаза совпадение полученного результата с тем, который был формулирован в § 1 для случая системы двух уравнений с двумя неизвестными. Разница состоит лишь в том, что здесь мы одной формулировкой охватываем все возможные случаи. Эта формулировка такова:

Система (1) тогда и только тогда имеет решение, когда вектор b содержится в подпространстве, порождаемом векторами аи а2, ... , ат.

Читателю предлагается самому установить справедливость этой формулировки и привести её в связь с формулировкой, данной в § 1.

Исходя из изложенных соображений, можно получить также условие единственности решения системы (1).

Решение системы (1) будет единственным в том и только в том случае, когда векторы av ... , ат линейно независимы (мы предполагаем здесь, что решение существует).

В самом деле, пусть векторы аи ... , йт линейно независимы. Если бы система (1), значит и уравнение (2), имела бы два различных решения хи ... , хт и х[, ... , хт, то из равенств

получалось бы равенство

Но линейная комбинация линейно независимых векторов может быть равна нулю только в том случае, когда её коэффициенты (хх — х{), (х%— x'i), ... , (хт — xfm) равны нулю. Это противоречит тому, что взятые нами решения различны.

Наоборот, если векторы av ... , ат линейно зависимы, то найдётся их линейная комбинация, не все коэффициенты которой равны нулю, равная нулю: axkx -\- a2k2 -f- • • • + amkm = 0. Тогда из любого решения хи... , хт уравнения (2) можно образовать новое решение xl-\-kl, x2-\-k2, ... , xm-\-km, отличное от первоначального. В самом деле,

т. е. вновь образованная система значений неизвестных действительно удовлетворяет уравнению (2).

Мы ограничимся пока этими результатами. Их мы будем в состоянии ещё уточнить, после того как найдём способ вычисления ранга систем векторов.

§ 13. Базис пространства. Координаты

В конце § 11 мы видели, что любая максимальная линейно независимая система векторов какого-либо множества эквивалентна всему этому множеству. В частности, максимальная линейно независимая система el9 ... 9 еп векторов пространства L эквивалентна всему пространству. Это означает, что любой вектор х пространства может быть представлен в виде линейной комбинации векторов нашей системы:

x = e1xl-\r...-{-enxn, (1)

где xt — некоторые числа рассматриваемого числового поля.

Но равенство (1) можно рассматривать как уравнение относительно неизвестных коэффициентов xlf ... , хп. Полученное в предыдущем параграфе условие единственности решения такого уравнения в рассматриваемом случае выполнено, так как векторы еХ9 ... , еп линейно независимы.

Подобное положение, замеченное нами в § 1 в случае векторов плоскости, дало возможность ввести для векторов плоскости координаты. Это же может быть теперь сделано в случае произвольного векторного пространства L над числовым полем К.

Будем называть любую максимальную линейно независимую систему векторов ei9 ... 9 еп пространства L его базисом (или базой).

Если задан такой базис, то равенство (1) сопоставляет с каждым вектором систему чисел х1У ... , хп. Эти числа мы будем называть координатами вектора х относительно базиса е19 ... , еп. Ясно, что любые значения координат будут соответствовать некоторому вектору пространства L (конечно, если они берутся из того числового поля, на котором определено наше пространство).

Введение координат, как и в обычном случае, даёт возможность сводить исследование систем векторов к исследованию систем чисел. Однако, в случае обычной аналитической геометрии, мы получаем таким образом только аппарат, помогающий часто более просто решать задачи, которые могут быть решены и другим геометрическим способом. В общем же случае такое сведение к числам будет единственным способом, которым мы вообще в состоянии решать задачи, так как никаких «геометрических» методов в нашем распоряжении нет.

Следует отметить, что термином координаты мы уже пользовались выше для числовых векторов: координатами вектора были названы сами числа аи ... , ап, составляющие вектор. Вспоминая, что в этом случае вектор может быть представлен в виде a = alel -f-... -J-апеп и что «единичные» векторы ег, ... , еп линейно независимы, можно сказать, что теперь было бы правильнее назвать числа аи ... , ап координатами вектора а по отношению к базису eîf ... , еп /г-мерного числового пространства. Такая оговорка действительно необходима, так как мы можем рассматривать вместо базиса е19 , еп любой другой базис е[> ... , е'п (в нём, конечно, содержится то же самое число векторов), причём координаты того же вектора по отношению к новому базису будут иметь уже другие значения.

То обстоятельство, что координаты вектора не являются чем-то абсолютным, а зависят от выбора базиса, тотчас же ставит перед нами такие вопросы:

1) Как узнать, можно ли данную систему векторов принять за базис пространства?

2) Как связаны между собою координаты одного и того же вектора относительно двух разных базисов пространства?

Рассмотрим, прежде всего, первый вопрос. Пусть в пространстве L задан какой-либо базис еи ... , еп и пусть дана некоторая система векторов е{> е'% ... , ет. Каждый из векторов этой системы может быть однозначно представлен линейной комбинацией векторов заданного базиса. Коэффициенты полученных линейных комбинаций мы будем обозначать одной и той же буквой Сц с двумя индексами, второй из которых соответствует номеру вектора е}9 а первый — тому из векторов eif при котором коэффициент стоит. Таким образом,

(2)

Коэффициенты cijf естественно, располагаются в прямоугольную таблицу, или матрицу

(3)

которую будем называть матрицей перехода от базиса В\% .. • , вл к системе е[, ... , е'т.

Иными словами, матрицей перехода от базиса el9 еъ ... , еп к системе е\, ё% ... 9 ёт мы назвали матрицу, столбцы которой составлены из координат векторов системы е[, ... , еп относительно данного базиса. Эта матрица однозначно определена при заданной системе е[, ... , ет и сама определяет эту систему (конечно, при заданном базисе elf ... , еп). Стоящий перед нами вопрос может быть теперь формулирован точнее следующим образом: как по матрице перехода (3) узнать, является ли система векторов е[> ... , е'т базисом пространства L?

Ответ на этот вопрос даётся такой теоремой:

Теорема. Для того чтобы система е[у е% ... , ет была базисом пространства L, необходимо и достаточно, чтобы матрица перехода (3) была квадратной и чтобы составленный из неё определитель был отличен от нуля.

В самом деле, система е[, ... , ет только тогда может быть базисом пространства L, когда число векторов этой системы равно п (ведь число элементов векторов в любых базисах пространства L одно и то же). Для доказательства того, что определитель матрицы (3) отличен от нуля, если т = п и система е\, ... , ет является базисом, воспользуемся соображениями § 2—4.

Для любых векторов

(4)

пространства L положим:

(5)

Этим определена некоторая функция от п векторов пространства, не равная тождественно нулю, так как её значение F (ev ... , еп)= 1 по самому определению этой функции. С другой стороны, если положить х1 = е'\, ... f хп = е'п, то значение функции F обратится в интересующий нас определитель матрицы (3). Обратим теперь внимание на то, что наша функция обладает свойствами А) и Б) определения, сформулированного в § 2. Поэтому для неё будут верны также и следствия этих свойств, доказанные в § 2, в частности распределительный закон и свойство менять знак при перестановке аргументов. Если система е[, ... , еп является базисом пространства, то эти свойства позволяют получить другое выраже-

ние той же функции: векторы хи ... , хя запишутся в выражении через базис е'и ... , е'п таким образом:

(3)

Подставляя эти выражения в F(xlf х1У ... , хп) и пользуясь распределительным законом и правилом перестановки аргументов, получим, как и в § 4, выражение

(7)

Нужный нам результат следует из самой возможности такого выражения: если бы значение нашего определителя, т. е. значение F {е'и ... , е'п), было равно нулю, то выражение (7) давало бы тождественный нуль для любых векторов хх, ... , хп, вопреки определению функции F(xlf ... , хп).

Таким образом, оба условия теоремы являются необходимыми для того, чтобы система векторов е[, ... , еп была базисом пространства L.

Предположим теперь, что эти условия выполнены: число векторов e'j равно п и указанный определитель не равен нулю. Система е[у ... , е'п могла бы не быть базисом пространства L только в том случае, когда один из её векторов был бы линейной комбинацией остальных, например

Но в этом случае получаем равенство

противоречащее сделанному предположению. Теорема доказана.

Второй из поставленных выше вопросов также легко решается: пусть некоторый вектор х имеет относительно базиса е\, ... , е'п координаты х\у х'% ... , х'п. Тогда х = е\х\-\-e'iX<i-\-..е'пх'п.

Подставляя сюда выражения (2) для векторов нового базиса через старый, получим равенство

Сравнивая это выражение с первоначальным выражением (1) вектора X через векторы базиса еи ... , ел и учитывая, что координаты вектора определены (при заданном базисе) однозначно, получим систему равенств

(8)

выражающих «старые» координаты хи ... , хп вектора х через его «новые» координаты х[9 ... , х'п.

Равенства (8) при заданных «старых» координатах xi9 ... , хп можно рассматривать как систему п уравнений с п неизвестными. Определитель этой системы есть определитель матрицы (3) и поэтому отличен от нуля, так что система (8) допускает единственное решение (в силу доказанной в главе I основной теоремы о системах линейных уравнений). Таким образом, знание координат вектора относительно любого из рассматриваемых базисов достаточно для определения их относительно другого базиса, если известна матрица перехода, связывающая базисы.

§ 14. Ранг произвольной системы векторов

Полученный в предыдущем параграфе результат даёт возможность узнавать, равен ли ранг системы векторов размерности рассматриваемого пространства. Этот результат может быть теперь обобщён так, что в нашем распоряжении окажется способ, позволяющий вычислить ранг произвольной системы векторов.

Рассмотрение любых систем векторов сводится к рассмотрению базиса пространства с помощью простой теоремы, непосредственно получающейся из доказанной выше теоремы о замене.

Теорема. Если е19 ... 9 еп есть базис n-мерного пространства Ly а е[, е'ъ , е'т — произвольная линейно независимая система векторов того же пространства, то эта система может быть дополнена некоторыми из векторов ev ... , еп до базиса пространства L.

Действительно, векторы е\9 •.. , ет являются линейными комбинациями векторов базиса et9 ... , еп. Поэтому в силу того, что векторы е'и ...» в'м линейно независимы, и в силу теоремы о замене часть векторов базиса е%9 ... , еп (если т = п9 то все

векторы базиса) может быть заменена векторами е\9 ... , ет так, что вновь полученная система векторов будет эквивалентна первоначальному базису. Это значит, что любой вектор пространства может быть записан в виде линейной комбинации векторов вновь полученной системы. Если бы эта система не была линейно независимой, то из неё можно было бы удалить хотя бы один вектор без потери только что указанного свойства. Однако векторы «-мерного пространства не могут быть все выражены линейными комбинациями меньшего числа векторов, чем п. Таким образом, векторы системы, полученной после замены, должны быть все линейно независимы, и эта система будет базисом пространства.

Как видно из проведённого построения, полученную систему можно рассматривать так же, как систему е{, ... , е'т, к которой, быть может, добавлены некоторые из векторов заданного базиса е19 ... , еп.

Следует отметить, что если бы система е\у ... , ет была линейно зависимой, то добавление к ней других векторов не может дать базиса пространства: любая часть базиса, как и любой линейно независимой системы векторов, должна быть сама линейно независимым множеством.

Доказанную теорему и сделанное замечание применим к произвольной системе векторов

(1)

Матрица перехода от базиса е1У ... , еп к системе е[у ... , ет запишется так:

(2)

Присоединим теперь к системе векторов е\у ... , ет ещё п — m произвольных различных векторов базиса ei9 ... , еп. Полученная система п векторов будет соответствовать матрице перехода, образующейся из матрицы (1) приписыванием к ней ещё п — m столбцов, в каждом из которых все элементы, кроме одного, равны нулю, а этот единственный элемент равен единице (разложение любого из векторов базиса имеет вид ei = el • 0 +... -f- et • 1 -f-. •. -{--|-еп»0). Следует подчеркнуть, что единицы будут стоять в различных строчках матрицы.

Согласно результату предыдущего параграфа векторы расширенной системы будут образовывать базис пространства в том и только в том случае, если определитель новой матрицы перехода отличен от нуля.

Но если учесть то, что было сказано о строении матрицы перехода, мы сразу замечаем возможность разложить определитель этой матрицы по элементам последнего столбца (так как в последнем столбце имеется только одна единица, а остальные элементы равны нулю). Эту операцию можно продолжить и дальше, пока не дойдём до столбцов первоначальной матрицы (2). В результате мы получаем, что интересующий нас определитель совпадает, с точностью до знака, с определителем, полученным из матрицы (2) вычёркиванием тех строк, в которых стояли единицы приписываемых к этой матрице дополнительных столбцов.

Но это в связи с доказанной только что теоремой сразу даёт такой результат:

Теорема. Векторы (1) линейно независимы тогда и только тогда, когда из матрицы (2) можно так вычеркнуть п—m строк, чтобы определитель оставшейся квадратной матрицы был отличен от нуля.

Действительно, если можно таким образом вычеркнуть строки, то, добавляя к векторам еи ... , ет векторы eif номера которых совпадают с номерами вычеркнутых строк, мы согласно доказанному получим систему векторов, для которой определитель соответствующей матрицы перехода отличен от нуля. Эта система будет в силу результата предыдущего параграфа базисом пространства, а следовательно, исходная система линейно независима.

Наоборот, если при вычёркивании любых п — m строк матрицы (2) получаются квадратные матрицы, определители которых равны нулю, то, как бы мы ни добавляли к заданной системе векторы базиса еи ... , ет, ни одна из получаемых систем п векторов не будет базисом пространства. Это возможно только в случае, когда векторы системы eit ... , еп линейно зависимы.

Нам остаётся только освободиться от сделанных ограничений, связанных с числом векторов системы еи ... , ет. Результат, относящийся к любому числу этих векторов, получается из предыдущего без всякого труда. Однако для его формулировки полезно ввести один вспомогательный термин.

Пусть дана произвольная матрица

(3)

Она может не быть квадратной, причём число её столбцов может

быть как больше, так и меньше числа строк. Из матрицы (3) можно, вычёркивая некоторое число строк и некоторое число столбцов, различными способами образовать квадратные матрицы. Определители получаемых таким образом матриц называются минорами матрицы (3). Некоторые из этих миноров могут быть отличны от нуля, другие, наоборот, равны нулю.

Рангом матрицы (3) мы будем называть наибольший порядок отличного от нуля минора этой матрицы.

Ранг любой матрицы можно вычислить: для этого достаточно, например, вычислить все миноры матрицы и посмотреть, миноры какого порядка отличны от нуля. Вычисление может быть ещё упрощено, так как обращение всех миноров какого-либо порядка в нуль влечёт за собою обращение в нуль и всех миноров более высокого порядка (эти миноры, как и любые определители, могут быть выражены через миноры более низкого порядка!). Это делает ненужным вычисление всех миноров: достаточно обнаружить, что все миноры какого-либо порядка равны нулю, а миноры порядка на единицу меньшего не все равны нулю. Дальнейшие упрощения вычисления ранга будут указаны ниже.

Вычисление ранга произвольной системы векторов может быть теперь проведено, основываясь на следующей теореме:

Теорема. Если е\у ... , еП1 есть система любого числа векторов пространства L, то её ранг равен рангу матрицы перехода, связывающей эту систему с любым базисом нашего пространства.

В самом деле, если ранг матрицы перехода равен г, то существует минор этой матрицы, отличный от нуля и имеющий порядок г. Пусть в этот минор входят элементы некоторых столбцов матрицы перехода. Взятые столбцы сами образуют матрицу перехода от базиса ev ... , еп к системе векторов e)v ... , е}г, номера которых соответствуют номерам рассматриваемых столбцов. А так как из этих столбцов можно образовать отличный от нуля минор г-го порядка, то по доказанному выше векторы e)v ... , е)г линейно независимы.

Наоборот, если мы возьмём любую часть системы векторов е\, ... , ет, содержащую большее число элементов, чем г, то применение к этой части только что доказанного критерия линейной независимости даёт отрицательный результат, так что эта часть системы будет линейно зависимой.

Таким образом, максимальное число линейно независимых векторов, которое может быть выбрано из системы е\, ... , е'т, точно равно рангу матрицы перехода.

Доказанная теорема позволяет получить одно любопытное следствие: до сих пор, говоря о числовых векторах, мы понимали под этими словами столбцы,, составленные из чисел рассматриваемого

поля; но легко видеть, что в совокупности всех строк, содержащих по m чисел данного поля К, можно ввести такие же операции сложения и умножения на число, как и в случае столбцов. Тем самым множество строчек делается векторным пространством, и мы получаем право говорить о линейной независимости строк. В частности, можно говорить о линейной независимости строк некоторой матрицы. То обстоятельство, что миноры матрицы не изменяются от замены их строчек столбцами, позволяет на основании только что доказанной теоремы утверждать следующее:

Максимальное число линейно независимых столбцов, которое можно выбрать из данной матрицы, равно максимальному числу её линейно независимых строк.

§ 15. Решение произвольных систем линейных уравнений

Теоремы, доказанные в двух последних параграфах, позволяют не только придать окончательную форму результатам, полученным в § 12, но и получить приём, позволяющий фактически получать все решения любой системы линейных уравнений.

В самом деле, пусть дана система п уравнений с m неизвестными

(1)

Столбцы коэффициентов при неизвестных и столбец свободных членов этих уравнений являются, как мы знаем, столбцами координат числовых векторов, обозначенных в § 12 через alt..., ат и Ъ (координаты относятся к базису из «единичных» векторов elf..., еп числового пространства). Пользуясь тем, что необходимым и достаточным условием существования решения системы (1) является равенство рангов систем векторов ai9 а^..., ат и ai9..., ат, b (см. § 12), и связью между рангом системы векторов и рангом матрицы, можно иначе формулировать полученный в § 12 результат. Будем называть матрицу, составленную из коэффициентов при неизвестных, просто матрицей системы, а матрицу, получаемую из неё приписыванием к ней столбца свободных членов,— расширенной матрицей системы. Тогда необходимое и достаточное условие существования решения системы (1) примет такую форму:

Теорема1). Для того чтобы система (1) имела хотя бы одно решение, необходимо и достаточно, чтобы ранг матрицы системы был равен рангу расширенной матрицы.

1) Эта теорема называется иногда теоремой Кронекера-Капелли.

Если указанное условие выполнено, то следующий приём даёт возможность найти все решения системы (1). Пусть ранг матрицы системы и ранг расширенной матрицы равны г. Так как, в силу замечания в конце предыдущего параграфа, число г есть также максимальное число линейно независимых строк расширенной матрицы, то все её строки будут линейными комбинациями некоторых г строк. Но это означает, другими словами, что все уравнения системы (1) являются следствиями некоторых г уравнений системы (1) (все уравнения могут быть получены из уравнений, соответствующих линейно независимым строкам, умножением обеих частей каждого из последних уравнений на подходящие числовые множители и сложением соответствующих частей).

Таким образом, в рассматриваемом случае достаточно получить решение этих г уравнений, ибо любое их решение будет также решением остальных. Так как нумерация уравнений произвольна, можно предположить, что упомянутыми уравнениями являются первые уравнения системы

(2)

Из существования решения всей данной системы вытекает, что решения такой «укороченной» системы подавно существуют. Поэтому ранг матрицы коэффициентов при неизвестных в новой системе будет также равен г. Последнее в свою очередь означает, что из столбцов этих коэффициентов можно выбрать г столбцов так, чтобы составленный из них определитель был отличен от нуля. Но нумерация столбцов зависит от нумерации неизвестных, которой мы можем распоряжаться по своему усмотрению. Следовательно, мы можем опять предположить, что такими столбцами являются первые г столбцов. Если число неизвестных равно г, то взятые столбцы исчерпывают все столбцы матрицы системы. В таком случае система (2) будет системой г уравнений с г неизвестными, определитель которой отличен от нуля. Но из § 7 мы знаем, что такого рода система всегда имеет единственное решение, определяемое формулами Крамера. Из проведённых рассуждений вытекает, что это решение и будет решением (также единственным) системы уравнений (1).

Если же г меньше числа неизвестных, то мы перенесём члены с неизвестными хг+и ..., хт в правую часть уравнений системы (2). Получим систему

(3)

Перенесённые направо неизвестные называются свободными неизвестными, так как мы можем придать каждому из них произвольное значение, подставить в систему (3) и решить её относительно неизвестных хг,..., хг (так как определитель этой системы отличен от нуля). Таким образом, возникает бесконечное множество решений системы (1), получаемых изменением значений свободных неизвестных.

Легко видеть, что таким образом получаются все решения системы (3), а следовательно, и системы (1). В самом деле, если х{,х'г, х'г+1,..., хт есть какое-либо решение системы (3), положим в системе (3): xr+l=x'r+l,..., хт = хт. При этих условиях система (3) должна однозначно определить значения неизвестных хх,..., хг, удовлетворяющие системе (2). Но такие значения нам уже известны: они равны х\,..., х'г, следовательно (в силу однозначности!), именно их мы и получим, решая систему (3) по указанному выше правилу.

Резюмируя сказанное, получаем такой результат:

Теорема. Если общее значение ранга матрицы системы (1) и расширенной матрицы той же системы меньше числа неизвестных, то система имеет бесконечное множество решений. Если же общее значение рангов указанных матриц равно числу неизвестных, то система (1) имеет единственное решение.

Отметим один важный частный случай этого результата.

Система (1) называется однородной, если все свободные члены уравнений равны нулю. В случае однородной системы ранг расширенной матрицы никогда не может отличаться от ранга матрицы коэффициентов при неизвестных: добавление к системе векторов нулевого вектора не меняет ранга системы. Поэтому решение однородной системы должно всегда существовать (хотя бы одно). Такой результат ясен сразу: если мы в однородной системе уравнений положим значения всех неизвестных равными нулю, то мы удовлетворим системе. Это нулевое решение обычно не представляет интереса (хотя бы уже потому, что оно никак не связано с коэффициентами уравнений, а следовательно, и с постановкой задачи, приведшей к этой системе). Интересными являются только решения, отличные от нулевого. Сформулированная только что теорема позволяет высказать следующее условие существования таких решений.

Теорема. Для того чтобы система однородных уравнений обладала решением, отличным от нулевого, необходимо и достаточно, чтобы ранг матрицы системы был меньше числа неизвестных.

В самом деле, в таком случае должно существовать бесконечное множество решений данной системы. Так как нулевое решение — только одно, то должны существовать и ненулевые решения.

Эта полезная теорема принимает особенно простую форму в случае системы п уравнений с п неизвестными:

Теорема. Для того чтобы однородная система п уравнений с п неизвестными имела ненулевое решение, необходимо и достаточно, чтобы определитель этой системы равнялся нулю.

Действительно, из матрицы коэффициентов при неизвестных можно составить в этом случае только один минор «-го порядка — определитель системы (в матрице всего п строк и п столбцов). Поэтому обращение единственного минора порядка п в нуль необходимо и достаточно для того, чтобы ранг матрицы был меньше «.

§ 16. Геометрическая интерпретация. Системы с тремя неизвестными

Используем теперь наш геометрический аппарат для того, чтобы получить обзор всей совокупности решений рассматриваемой системы линейных уравнений. Для этого будем рассматривать любую комбинацию значений неизвестных хих%,..., хткак вектор /«-мерного числового пространства. Если рассматриваемая комбинация будет решением системы уравнений, то мы будем говорить, что этот вектор есть решение данной системы.

Так как в общем случае отнюдь не каждый вектор будет решением интересующей нас системы уравнений, то решения будут заполнять собою только некоторую часть всего пространства. Наша задача будет состоять в том, чтобы охарактеризовать эту часть.

Начнём со случая однородной системы:

Простой подстановкой легко убедиться в том, что если векторы дг'=г(лгь х'2у... у'Хт) и х" = (х'{, х%,..., х'т) (мы их пишем для удобства в виде строк) являются решениями этой системы, то векторы X -\-у = (Х[ + *Ь • • -у Х'т + Хт) и kx = (kx'u kx'% ..., kx'm) (при любом числовом множителе k) также будут решениями этой системы. Таким образом, совокупность решений содержит вместе с любым вектором и все его числовые кратные, а вместе с любыми двумя векторами — их сумму. Другими словами (ср. § 11):

Совокупность решений однородной системы уравнений всегда является подпространством т-мерного числового пространства, где m — число неизвестных в системе.

Легко определить также и размерность этого подпространства. Именно, имеет место

Теорема. Размерность подпространства решений однородной системы уравнений с m неизвестными равна m — г, где г — ранг матрицы системы.

В самом деле, пусть мы уже выбрали г независимых уравнений данной системы» как это было сделано в предыдущем параграфе,,

и выбрали подходящим образом m — г «свободных неизвестных» хг+1,..., хт. Тогда все решения исходной системы мы получим, придавая свободным неизвестным произвольные значения и определяя остальные неизвестные из системы уравнений

При этом в силу доказанного в § 15 каждой комбинации значений свободных неизвестных будет соответствовать в точности одна комбинация значений остальных неизвестных, а следовательно, и одно единственное решение первоначальной системы.

Придадим теперь свободным неизвестным последовательно следующие комбинации значений (число их равно m — г):

Этим комбинациям значений будут соответствовать векторы

(1)

являющиеся решениями первоначальной системы. Покажем, что они образуют базис подпространства решений. Тем самым будет установлено, что размерность этого подпространства равна m — г (числу базисных векторов).

Для доказательства нужного утверждения достаточно обнаружить, что векторы (1) линейно независимы и что любой вектор, являющийся решением данной системы, представляется их линейной комбинацией.

Первое обстоятельство очевидно: линейная комбинация рассматриваемых векторов имеет вид

(2)

где в столбце точки означают г первых чисел. Очевидно, что эта линейная комбинация может оказаться нулевым столбцом только в том случае, когда все числа kv k2f..., km_r равны нулю.

Пусть теперь имеется произвольное решение данной однородной системы V

(3)

Пользуясь выражением (2), легко видеть, что можно образовать линейную комбинацию решений (1), в которой свободные неизвестные будут иметь те же значения, что и в решении (3): для этого достаточно взять k1 = xr+v k2 = xr+2,..., km_r = xm. Полученная так линейная комбинация решений (1) должна оказаться также решением заданной системы (ибо множество решений является подпространством). Замечая теперь, что у рассматриваемой системы может быть только одно решение с данными значениями свободных неизвестных, заключаем отсюда, что полученная линейная комбинация должна совпасть с решением (3), а это и нужно.

Полученный результат охватывает и случай, когда г = т, т. е. когда свободные неизвестные отсутствуют: в этом случае существует только одно нулевое решение, само по себе образующее подпространство, которое не содержит ни одного линейно независимого вектора и которое поэтому естественно называть нульмерным.

Теперь мы в состоянии рассмотреть случай произвольной неоднородной системы [система (1) предыдущего параграфа]. Условимся называть систему однородных уравнений, получаемую из данной системы приравниванием нулю её левых частей, соответствующей (данной системе) однородной системой. Для этой системы [система (1) этого параграфа] совокупность всех решений является некоторым подпространством /тг-мерного числового пространства.

Рассмотрим случай, когда данная система имеет хотя бы одно решение х10, лг20,..., хт0. Имеет место следующий основной результат:

Теорема. Совокупность решений неоднородной системы получается, если к каждому вектору подпространства решений соответствующей однородной системы прибавить (одно и то же для всех векторов) решение данной неоднородной системы уравнений.

Для доказательства введём обозначение

где xi, х'ъ ..., х'т — новые неизвестные. Подставляя эти выражения xi9 х2,хт через х\, х'ъ..., х'т в уравнения системы (1) § 15, получим систему равенств

(4)

Так как лг10, х20,хт есть решение исходной системы, то стоящие в скобках суммы в левых частях будут попросту равны правым частям уравнений. Поэтому система (4) совершенно равносильна такой:

т. е. оказывается однородной системой, соответствующей данной системе.

Проведённое преобразование показывает, что вектор (хи х2,..., хт) будет решением первоначальной системы в том и только в том случае, когда вектор (х\, х'2, ...9 х'т) будет решением соответствующей однородной системы. Но это и есть требуемый результат.

Сказанное становится совершенно наглядным в случае систем уравнений с тремя неизвестными^ так как в этом случае трёхмерные

числовые векторы можно себе представлять в виде обычных «геометрических» векторов, имеющих те же координаты (в какой-либо координатной системе), что и данные числовые векторы. При этом рассмотрении мы можем сразу оставить в системе только независимые уравнения, число которых, как всегда, равно рангу данной системы. Так как ранг не может превышать число неизвестных, то возможны только следующие четыре случая:

А) Ранг системы равен нулю. Независимых уравнений нет, т. е. все уравнения являются тождествами: коэффициенты при неизвестных и свободные члены равны нулю. В этом случае, очевидно, решения заполняют всё пространство. Связь между решениями неоднородной системы и решениями соответствующей однородной системы не имеет смысла рассматривать, так как возможны только однородные системы, удовлетворяющие поставленным условиям.

Б) Ранг системы равен единице. Независимое уравнение одно

anxt + a^Xz + апхг = bx. (5)

Соответствующая однородная система также состоит из одного уравнения

апхг -f а12х2 + а1з^з = 0. (6)

В качестве свободных неизвестных можно выбрать любые два, но так, чтобы коэффициент при третьем неизвестном был отличен от нуля. Если таким коэффициентом является аПУ то можно переписать уравнение (5) в виде

Пространство решений для уравнения (6) — двумерное. Его базис мы получим, придавая х2 и хъ следующие комбинации значений: 1, 0 и 0, 1. Соответствующие решения однородного уравнения будут:

Если изобразить эти решения в виде векторов обычного трёхмерного пространства, то совокупность всех решений однородного уравнения представится множеством векторов плоскости L2, «натянутой» на построенные так векторы.

Чтобы построить совокупность всех решений неоднородного уравнения, достаточно изобразить вектором х0 одно из его решений. Тогда, согласно изложенному выше, прибавляя этот вектор ко всем векторам построенной только что плоскости, мы получим требуемое. Легко усмотреть, что концы всех построенных таким образом векторов (если считать, что их начала все расположены в начале координат) располагаются на плоскости, проведённой через конец вектора xQ параллельно плоскости £2«

В) Ранг системы равен двум. Независимых уравнений два. Пространство решений соответствующей однородной системы будет одномерное, т. е. будет являться совокупностью векторов, лежащих на некоторой прямой Lv проходящей через начало координат. Если х0— любое решение неоднородной системы, то совокупность всех её решений геометрически представится множеством векторов, концы которых располагаются на прямой, проведённой через конец вектора х0 параллельно прямой Lv

Г) Ранг системы равен трём. В этом случае однородная система имеет только нулевое решение. Данная система будет иметь также только одно решение, так что «совокупность всех решений» представится одним единственным вектором.

Геометрический смысл этого становится ещё проще, если вместо векторов говорить о точках с теми же координатами, что и векторы, о которых шла речь. При этом становится привычным говорить о геометрическом месте решений. Содержание результатов, полученных в только что рассмотренных случаях, может быть высказано в этих терминах так:

Геометрическое место решений совместной системы линейных уравнений с тремя неизвестными будет всем пространством, если система тождественная, плоскостью, если система содержит лишь одно независимое уравнение, прямой, если в системе два независимых уравнения, наконец, точкой, если в данной системе имеется три независимых уравнения.

Читатель без труда узнает в этом факты, устанавливаемые в аналитической геометрии.

В заключение следует заметить, что всё предыдущее изложение можно было бы провести, всюду пользуясь понятием «точка» вместо понятия «вектор». Однако необходимость пользоваться такими алгебраическими операциями, как сложение, делает это не очень удобным: непривычность оборотов речи вроде «сложение точек» только затруднила бы читателя и не позволила бы ему глубже разглядеть геометрическое содержание излагаемых фактов.

§ 17. Применение к системам уравнений высших степеней

Последняя теорема § 15 играет во многих случаях исключительно важную роль и находит применение иногда в самых неожиданных вопросах. В качестве примера такого применения рассмотрим решение системы двух уравнений с двумя неизвестными в случае, когда степени этих уравнений совершенно произвольны.

Пусть дана такая система

(1)

где F(x, у) и С(х, у) — произвольно заданные многочлены от

неизвестных х и у. Требуется определить значения х и у так, чтобы они удовлетворяли обоим уравнениям.

Если бы значение одного из неизвестных было известно, то определение значения другого сводилось бы к решению уравнений уже с одним неизвестным. Для этого достаточно подставить известное значение в оба уравнения, решить их каждое отдельно и после этого посмотреть, какие значения второго неизвестного будут общими в обоих случаях. Таким образом, если заниматься только вопросом, специфическим для системы уравнений с двумя неизвестными, остаётся лишь найти те значения одного из неизвестных, при которых уравнения (1) могут иметь общие корни (относительно другого неизвестного).

Для этого перепишем уравнения (1), объединяя в них члены с одинаковыми степенями у и вынося эти степени за скобки в каждой группе членов. В скобках останутся многочлены от одного неизвестного X, и система (1) примет вид

(2)

Пусть х0, у0 — одно из решений этой системы. Тогда будут иметь место равенства

и

а вместе с ними и ряд равенств, получаемых из написанных умножением левых частей соответственно на у^~~х, X'-2» •••» Уо=1 и на

(3)

Заметим теперь, что число написанных равенств т-\-п в точности совпадает с числом встречающихся в них степеней у0 от нулевой до (т-\-п—1)-й включительно. Равенства (3) означают, что эти

степени составляют решение следующей однородной системы линейных уравнений:

(4)

Решение щ=19 щ=у0,..., ит+п=у™+п-1 отлично от нулевого, так как значение неизвестного щ равно 1. Но для существования такого решения необходимо, чтобы определитель системы (4) был равен нулю, т. е.

(5)

Результат справедлив, какое бы решение дг0, yQ данной системы ни было взято, а это даёт следующий путь отыскания всех значений х=х0у которые могут входить в решения системы (1): по данным уравнениям системы составляем уравнение

(6)

В силу доказанного любое значение х0, входящее в какое-либо решение системы (1), будет его корнем. Поэтому дальнейшее сводится к тому, что мы находим все возможные корни уравнения (б), подставляем их последовательно в систему (1) и находим, какие общие корни (для неизвестного у) они при этом имеют. Таким образом, задача сведена к решению систем уравнений с одним

неизвестным и конечному числу подстановок различных значений неизвестного х.

Следует, впрочем, отметить, что равенство (5) является лишь необходимым условием для того, чтобы значение x = xQ входило в решение системы (1): хотя при любом значении лг, удовлетворяющем уравнению (6), система однородных уравнений (4) и будет иметь решение, нельзя ручаться, что при этом значения неизвестных будут соответствующими степенями одного и того же числа. Более детальное исследование показывает, однако, что «лишними» могут оказаться только те значения ху при которых оба коэффициента а0(х) и Ь0(х) в уравнениях (2) обращаются в нуль одновременно.

Определитель, стоящий в левой части уравнения (6), называется результантом данной системы уравнений.

§ 18. Дополнительные замечания

1. Эквивалентность систем линейных уравнений. Две системы уравнений (в частности, линейных) называются эквивалентными, если каждое решение одной из них является также решением другой, и наоборот.

В случае систем линейных уравнений имеет место весьма простое соотношение между уравнениями эквивалентных систем:

Если две системы линейных уравнений эквивалентны, то каждое из уравнений любой из этих систем получается из уравнений другой системы умножением обеих частей каждого из них на некоторое число и последующим сложением.

Для краткости в таких случаях говорят, что уравнение является линейной комбинацией уравнений системы.

Доказательство этого можно легко получить из основной теоремы о совместности систем. В самом деле, если две системы эквивалентны, то соединением их получим снова систему, эквивалентную обеим данным. У новой системы будет то же самое общее решение, а следовательно, и то же самое число свободных неизвестных. Но это означает, что при таком соединении систем ранг расширенной матрицы не изменяется. Другими словами, все уравнения наших систем будут линейными комбинациями уравнений некоторой максимальной линейно независимой системы. Так как эту последнюю всегда можно выбрать из уравнений одной из данных систем (опять-таки в силу равенства рангов), то наше утверждение доказано.

2. О вычислении ранга матрицы. Способ вычисления ранга матрицы, основанный на самом определении ранга, весьма утомителен: приходится вычислять очень большое число миноров. Трудность уменьшается, если в рассматриваемой матрице значительное число элементов обращается в нуль, так как при этом равенство многих

миноров нулю становится очевидным, и остаётся провести вычисление лишь относительно небольшого числа определителей.

Следующее замечание позволяет искусственно упрощать рассматриваемую матрицу, если это оказывается необходимым:

Если к одному из векторов системы е{, ..., е'т прибавить любую линейную комбинацию других векторов той же системы, то ранг системы не изменится.

В самом деле, рассмотрим системы

По построению вторая из этих систем оказывается линейно зависящей от первой. Столь же очевидно, что векторы первоначальной системы могут быть выражены линейными комбинациями векторов второй системы; мы видим, таким образом, что обе системы эквивалентны, а следовательно, они имеют один и тот же ранг.

Переводя содержание сделанного замечания на язык матриц и учитывая, что в этом случае «векторами» можно называть по желанию строки или столбцы данной матрицы, получаем теорему:

Теорема. Ранг матрицы не изменится, если к одному из её столбцов (или к одной из строк) прибавить линейную комбинацию других столбцов (строк) той же матрицы.

Следующий пример показывает, насколько эффективным оказывается иногда пользование этим простым предложением:

Пусть нужно вычислить ранг матрицы

(1)

Если из каждой строки матрицы вычесть предыдущую строку (это, как легко видеть, не изменит ранга), то получим матрицу

(2)

Здесь уже видно, что любой минор третьего порядка будет содержать хотя бы две одинаковые строки и поэтому обращается в нуль. А так как отличный от нуля минор второго порядка в матрице (2) существует (например, минор 55), то ранг данной матрицы равен 2.

3. О существовании решений систем уравнений в различных числовых полях. Одной из причин, вызвавших появление в математической теории различных числовых (и не только числовых) полей, являлось то обстоятельство, что существуют уравнения, которые в одних полях имеют решения, а в других — нет. Так, например, известно, что уравнение лг2-[-1=0, коэффициенты которого принадлежат полю действительных чисел, не имеет решений в этом поле, а в поле комплексных чисел у того же уравнения имеются решения I и —L Причиной, заставившей рассматривать поле комплексных чисел, было именно желание добиться того, чтобы всякое алгебраическое уравнение (первоначально с действительными коэффициентами) имело решения.

Подобное появление решений при расширении поля не может иметь места в случае линейных уравнений:

Если система линейных уравнений с коэффициентами из поля К не имеет решений в этом поле, то она не может иметь решений ни в каком другом, более широком, поле.

В самом деле, существование или несуществование решений связано с соотношением между рангом матрицы системы и расширенной матрицы. Но эти ранги не могут измениться при расширении рассматриваемого числового поля, так как не меняются даже значения миноров матриц (ибо вычисление определителей сводится к действиям сложения, вычитания и деления).

Это обстоятельство объясняет, почему вопрос о расширении поля чисел не мог возникнуть исторически раньше, чем начали заниматься задачами, приводящими к уравнениям второй и более высоких степеней.

ГЛАВА III

ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ ПЛОСКОСТИ И ТРЁХМЕРНОГО ПРОСТРАНСТВА

§ 19. Метрика. Скалярное произведение векторов

На общие векторные пространства, являющиеся естественным обобщением векторного пространства элементарной геометрии, можно распространить ряд важнейших свойств последнего. Сюда относятся, прежде всего, метрические свойства, связанные с возможностью измерения длин отрезков и величин углов.

Понятия длины вектора и угла можно ввести в случае векторных пространств любой размерности над любым числовым полем. Однако мы предпочитаем ограничиться в дальнейшем изложении рассмотрением обычного трёхмерного пространства и обычной плоскости. При этом в качестве основного поля, над которым определены наши пространства, принимается поле действительных чисел.

Для того чтобы связать длину вектора и угол между двумя векторами с выражением векторов через их координаты, удобнее всего ввести понятие о так называемом скалярном произведении векторов.

Скалярным произведением двух данных векторов называется произведение их длин, умноженное на косинус угла между ними.

Скалярное произведение векторов а и b мы будем обозначать (а, Ь). Удобство применения скалярного произведения при рассмотрении метрических свойств пространства обусловлено тем, что через него можно выразить как длину вектора, так и угол между двумя векторами. Если обозначить длину вектора обычным знаком абсолютной величины, то из выражения скалярного произведения

(1)

легко видеть, что имеют место формулы:

(2)

сводящие вычисление длин и углов к вычислению скалярных произведений.

После этих замечание легко получить аналитическое выражение скалярного произведения векторов через их координаты. Рассмотрим сначала выражение длины вектора. При этом в качестве базиса пространства удобно принять систему трёх (а в случае плоскости — двух) взаимно перпендикулярных векторов £|, е2> ег, длина каждого из которых равна единице. В таком случае координатами произвольного вектора х будут взятые с надлежащими знаками длины отрезков OXlf ОХ2 и OXz, служащих проекциями вектора х на направления векторов еи е2, еъ (рис. 6). Поэтому в случае, если х = е1х1-\-е<>х<1\'еъхъ, длина вектора х определяется (как длина диагонали прямоугольного параллелепипеда) формулой

(3)

Рис. 6.

(В случае плоскости получается формула \х\^ =х\-\-х1, отличающаяся от предыдущей только отсутствием третьего члена.)

Чтобы получить координатное выражение скалярного произведения двух векторов х = еххх -\- е2х2 -f- егхг и у = ехух — *«Л + е*У*> рассмотрим их сумму х -f- у = ех {хх + Ух) + 0*2 4"— Л) + еъ О^з +Л)* Длина вектора х-\-у может быть выражена двумя способами: с одной стороны, по формуле (3) имеем:

с другой стороны (рис. 7), квадрат длины диагонали параллелограмма равен

Сравнивая оба полученных выражения, видим, что

(*, У) = ХхУх + х,уг + хъуъ. (4)

Таково выражение скалярного произведения в избранной нами системе координат.

Рис. 7.

Выражение (4) позволяет непосредственно усмотреть ряд свойств скалярного произведения, часть из которых, впрочем, легко усматривается также и из самого его определения.

1. Скалярное произведение не зависит от порядка сомножителей.

2. Числовой множитель можно выносить из-под знака скалярного произведения: (ka, b) = k(a, ö), каковы бы ни были векторы а и b и число k.

3. Для скалярного произведения имеет место распределительный закон:

(a, b + c) = (a, Ь) + (а, с). (5)

Доказательство всех этих свойств можно провести прямой проверкой, пользуясь полученным выражением скалярного произведения. Например, в случае третьего свойства эта проверка происходит так: пусть а = ехах -\- е2а2 -f- е3а3, Ь = ехЬх-\-е^Ь2-\-егЬг, с = ехсх -f- е2с2 -\- егс3. Тогда

а значит, в силу формулы (4)

С другой стороны, по той же формуле (4)

откуда

Совпадение полученных выражений доказывает равенство (5). Проверка остальных свойств проходит ещё проще, и мы оставляем её читателю.

Распределительный закон применим также и в случае сумм, состоящих из многих слагаемых, причём доказательство этого не требует нового обращения к формуле (4), а может быть проведено

на основе уже доказанных свойств. Способ, которым всё сводится к свойствам 1 и 3, — такой же, как в случае элементарной алгебры. Он яснее всего виден на таком примере:

в котором произведение (a-\-b, c-\-d) сначала рассматривается как произведения одного вектора а-\-Ь на сумму векторов с и d, затем используется возможность перестановки множителей, снова применяется формула (5) и, наконец, делается обратная перестановка множителей. Доказательство в случае любых сумм проводится индукцией.

Свойства 1—3 позволяют получить выражение скалярного произведения в любой системе координат, т. е. в случае базиса, состоящего из трёх произвольных векторов е\у е'ъ #з> не лежащих в одной плоскости: если

то

(6)

Выражение, стоящее в правой части равенства (6), замечательно тем, что в каждый его член входит одна из координат каждого из рассматриваемых векторов х и уу причём точно в первой степени. Подобного рода выражения называются билинейными формами от координат х\у хъ х'3 и УъУъУъ- В случае, если векторы е[у е'% е'г взаимно перпендикулярны, то все скалярные произведения любого из них на остальные обращаются в нуль (косинус угла между множителями в этом случае равен нулю), и формула (6) принимает вид

(7)

В случае, когда, кроме того, длина каждого из векторов е[у е% #з равна единице, формула ещё более упрощается и обращается в такую:

(8)

как, впрочем, и следовало ожидать, ибо в сущности именно от этой формулы мы и отправлялись.

Сравнение формул (6), (7) и (8) делает очевидным, что при решении любых метрических задач, т. е. задач, связанных с измерением или вычислением любых длин и углов, наиболее удобно

пользоваться базисом, состоящим из взаимно перпендикулярных единичных векторов. Такие базисы (или системы координат) называются ортонормальными.

Не повторяя для плоскости всех приведённых рассуждений, ограничимся тем, что приведём формулы, соответствующие формулам (4), (б) и (8):

(4')

Последняя формула даёт выражение скалярного произведения в любом ортонормальном базисе плоскости.

§ 20. Преобразование координат

Хотя, как было только что отмечено, при решении метрических задач всегда оказывается наиболее удобным пользование ортонормальным базисом, довольно часто возникает необходимость в процессе решения задачи изменить координатную систему. При этом изменяются также и координаты векторов. Задача преобразования координат состоит в установлении связи между координатами произвольного, но одного и того же вектора относительно различных базисов пространства..

Эта задача решается совершенно одинаково в обоих интересующих нас случаях — плоскости и трёхмерного пространства: отличие состоит лишь в числе векторов базиса и числе координат. Сначала получим явные формулы в случае пространства.

Пусть задан произвольный базис еи е2У еъ, относительно которого координаты некоторого произвольно заданного вектора х будут: хх, х2, хг, т. е. х = е1х1 -\-е2х2-\- е^хъ. Если е{, ё% е$ — некоторый другой базис пространства и х{, х% х$ — координаты вектора х по отношению к этому базису, то для установления зависимостей между «старыми» и «новыми» координатами можно поступить следующим образом: векторы е\, е'% вз, как и векторы пространства, однозначно представляются линейными комбинациями векторов еи е%, еъ «старого» базиса. Удобно коэффициенты этих линейных комбинаций, как это мы часто делали, обозначить одной и той же буквой и различать только индексами, характеризующими роль каждого из коэффициентов. Таким образом, соотношения между векторами е{, е'ъ е'ъ и еи е2, еъ запишутся в виде

(1)

(первый индекс соответствует вектору «старого» базиса, а второй — вектору «нового»). Матрица

(2)

составленная из коэффициентов формул (1), уже была названа раньше (см. § 13) матрицей перехода от базиса eh е2у ег к базису е[, ё% е'г. В силу линейной независимости векторов е[, е% es её определитель должен быть отличным от нуля. Подставим теперь выражения (1) в выражение вектора х через новый базис. Тогда получим:

Последнее из выражений представляет собою не что иное, как представление вектора х линейной комбинацией векторов е19 еъ ег старого базиса. Но так как любой вектор представляется линейной комбинацией векторов базиса только одним способом, то выражение (2) должно совпадать с исходным выражением х = е1х1-\--f-e2Xo -h еахг вектора х. Таким образом, должны выполняться равенства

(4)

которые и связывают «старые» координаты xv х2, хг вектора х с «новыми» координатами х\, х'ъ х'ъ. Из равенств (4) можно получить однозначно выражения новых координат через старые, так как определитель матрицы (2) отличен от нуля. Обратим внимание на то, что коэффициентами в выражениях (4) служат те же элементы матрицы перехода, что и в выражениях (1) векторов нового базиса. Ниже мы увидим, что это даёт возможность ввести очень простую и наглядную символическую запись формул (1) и (4).

Обращаясь к случаю плоскости, на которой заданы два различных базиса еи е2 и еъ ё% связанных соотношениями

(1')

с матрицей перехода

(2')

легко найдём, что координаты вектора связаны соотношениями

(4')

В § 19 уже было отмечено, что при решении метрических задач особенно удобны ортонормальные базисы. Поэтому важно заметить особенности строения формул преобразования координат при переходе от одного ортонормального базиса к другому. Начнём со случая плоскости. Если векторы еи е2 составляют ортонормальный базис (т. е. взаимно перпендикулярны и имеют длины, равные единице), то скалярные произведения векторов нового базиса е[у e<i будут выражаться по формуле (4') § 19:

Поэтому для того, чтобы векторы е\у е\ нового базиса были единичными и взаимно перпендикулярными, необходимо и достаточно выполнение соотношений

(5')

между элементами матрицы перехода (2').

Таким же образом в случае пространства получаем соотношения

(5)

между элементами матрицы перехода от одного ортонормального базиса к другому.

Преобразования координат, при которых совершается переход от одного ортонормального базиса к другому, называются ортогональными преобразованиями. Матрица перехода, соответствующая такому преобразованию, называется ортогональной матрицей.

Ортогональные преобразования особенно просты в случае плоскости: если вектор е\ нового ортогонального базиса образует с вектором £| старого базиса угол 9, то вектор е'ъ должен образовать с вектором ег один из двух углов -^-"Ь^ или —уЧ~9 (рис. 8). Рассматривая проекции векторов е\ и е\ на направления векторов £| и е2у легко усмотреть, что векторы нового базиса будут выражаться в этих двух случаях так:

(6)

и

(6')

а матрицы перехода будут:

и

(7)

Геометрическое различие между двумя отмеченными случаями состоит в том, что в первом из них базис е\у е'ч может быть получен из базиса е1У е% вращением последнего (в плоскости), а во втором базис ev e<i никаким вращением не может быть переведён в базис е\у е?. если повернуть плоскость так, чтобы вектор ег совпал с вектором е\у то после этого поворота вектор £2 окажется не совпадающим, а противоположным вектору е'ъ нового базиса. Это геометрическое различие аналитически выражается в том, что определитель матрицы перехода (7) в первом случае оказывается равным -\-1, а во втором случае — равным —11).

Аналогичные два класса ортогональных преобразований можно заметить и в случае пространства: геометрически ясно, что вращением пространства можно привести вектор ех к совпадению с вектором е[; после этого можно продолжать вращение, сохраняя

Рис. 8.

1) Достаточно убедиться в этом простым подсчётом: например,

постоянной ось e'i, и заставить вектор е2 совпасть с вектором е'2. Что касается вектора ег, то он после указанных вращений либо совпадает с вектором #з, либо окажется противоположным ему. В последнем случае уже никаким поворотом векторы еи е3, еъ нельзя заставить совпасть с соответствующими векторами е\> е-2 и е'з. Аналитическое различие между этими двумя случаями оказывается таким же, как и для плоскости, но подметить это значительно труднее. Мы займёмся ещё этим вопросом после того, как подготовим в следующем параграфе нужный вспомогательный аппарат.

§ 21. Операции над матрицами

Многие соотношения, в частности те, которыми мы занимались в предыдущем параграфе, приобретают особенно отчетливый вид, если воспользоваться некоторыми формальными правилами действий с матрицами.

В предыдущей главе уже было определено сложение матриц, а также умножение матрицы на число. Эти определения оказались такими, что совокупность всех матриц, имеющих данное число строк и данное число столбцов, образует векторное пространство. Мы введём ещё две операции над матрицами. Первая из них, называемая транспонированием, по существу нам уже встречалась. Если дана матрица

то транспонированной матрицей для данной матрицы называется матрица

столбцами которой являются соответствующие строки данной матрицы. Мы часто будем обозначать матрицу не таблицей, как это сделано только что, а одной буквой (для этого будут всегда использоваться большие латинские буквы). В таком случае матрица, транспонированная для матрицы Л, будет обозначаться значком Т сверху: Ат. В частности, если данная матрица состоит всего из одного столбца

то транспонированная матрица Xr=(xv xv ..., хп) состоит из одной строки.

Кроме транспонирования, мы определим ещё умножение матриц. Определение умножения подсказывается видом формул (1), (4), (4') предыдущего параграфа. Оно гласит:

Если заданы две матрицы А и В, причём число столбцов первой из них равно числу строк второй, то произведением их называется матрица AB, число строк которой совпадает с числом строк матрицы А, а число столбцов — с числом столбцов матрицы В, и такая, что на пересечении любой i-й строки и j-zo столбца матрицы AB стоит сумма произведений соответствующих элементов 1-й строки матрицы А и j-го столбца матрицы В.

В случае, если число столбцов матрицы А не равно числу строк матрицы В, произведение не определено. Из приведённого определения следует, в частности, что произведением одной строки на любую матрицу будет являться строчка, а произведением любой матрицы А на матрицу, состоящую из одного столбца, будет являться также матрица, состоящая из одного столбца. Ещё более частный случай — умножение одной строчки на столбец — даёт в результате матрицу, состоящую лишь из одного элемента.

Целесообразность такого определения умножения матриц будет видна дальше. Сейчас же мы ограничимся тем, что на нескольких примерах поясним высказанное определение. Прежде всего формулы (4) и (4') предыдущего параграфа записываются в виде

а если для матриц перехода (2), (2') ввести сокращённое обозначение одной буквой С, то эти формулы запишутся ещё короче и единообразней:

Читателю предоставляется самому проверить, что ниженаписанные произведения образованы согласно сформулированному определению:

Последний пример показывает, что квадратные матрицы вида

«ведут себя» подобно числу единица: если умножение на них возможно (т. е. если выполнено требование о числе строк и столбцов множителей), то от умножения на такую матрицу умножаемая матрица не изменяется. Однако первый пример показывает, что один из основных законов действий — коммутативность или переместительность умножения — не имеет места для умножения матриц.

Тем не менее оперировать с матрицами оказывается почти так же удобно, как с обычными числами, ибо дьа других закона операций — сочетательный закон умножения и распределительный закон, связывающий сложение с умножением, — остаются справедливыми при введённых нами определениях операций. Иными словами, каковы бы ни были матрицы А, В и С, имеют место соотношения

(Л + В)С = АС + ВС; А(В-\-С) = АВ-{-АС; (АВ)С = А(ВС). (1)

Убедиться в этом можно прямой проверкой, вычисляя отдельно правые и левые части написанных равенств. Например, если матрицы Л, В и С равны, соответственно,

то

Совпадение результатов показывает справедливость в данном случае равенства (А-\-В)С=АС-\- ВС. В общем случае проверка имеет тот же характер, но усложняется и запись делается более громоздкой. Для сочетательного закона (АВ)С = А(ВС) мы проведём

общее доказательство в силу его меньшей очевидности и той роли, которую он играет во всём дальнейшем. Пусть матрицы А, В и С равны, соответственно,

(Напомним ещё раз, что для возможности умножения необходимо, чтобы число столбцов первой матрицы равнялось числу строк второй, а число столбцов второй — числу строк третьей.) Тогда на пересечении любой 1-й строки и /*-го столбца произведения AB будет стоять число

на пересечении же 1-й строки и k-ro столбца произведения (AB) С — число

С другой стороны, на пересечении j-й строки и k-ro столбца произведения ВС будет стоять:

а следовательно на пересечении 1-й строки и k-ro столбца произведения А (ВС) будет расположено число

Так как это выражение совпадает с числом, стоящим на пересечении 1-й строки и k-ro столбца произведения (AB) С, то будет: (АВ)С = А(ВС), что и нужно.

весьма полезно заметить влияние операции транспонирования на сумму и произведение матриц. Правила транспонирования сумм и произведений имеют вид

или словами: а) транспонированная матрица для суммы матриц равна сумме транспонированных слагаемых; б) транспонированная матрица для произведения равна произведению транспонированных сомножителей в обратном порядке.

Первое из этих правил очевидно. Что касается второго, то оно легко получается из определения умножения. Мы ограничимся проверкой его справедливости в двух частных случаях:

Доказательство в общем случае может быть проведено подобно тому, как это было сделано выше для сочетательного закона.

Умножение квадратных матриц одного и того же порядка (т. е. с одним и тем же числом строк и столбцов) замечательным образом связано с определителями этих матриц. Имеет место такая

Теорема. Определитель произведения двух квадратных матриц равен произведению определителей сомножителей.

Мы проведём доказательство для случая матриц третьего порядка, но читатель может заметить, что дословно то же рассуждение можно провести и в случае любого порядка матриц-сомножителей.

Пусть даны матрицы

Их произведение будет:

(2)

Определитель этой последней матрицы мы будем рассматривать как функцию столбцов матрицы В. Обозначив указанные столбцы (которые мы будем рассматривать как трёхмерные числовые векторы) через bu bv ô3, можем записать определитель матрицы (2) как

(3)

Обратим теперь внимание на свойства функции (3). Прежде всего очевидно, что если умножить один из столбцов матрицы В на

некоторое число, то на это же число умножится и соответствующий столбец матрицы (2), а следовательно, на то же число умножится значение определителя последней матрицы. Таким образом, например,

Далее, если один из столбцов матрицы В, например первый, будет суммой двух столбцов Ь\ и Ь\\ то соответствующий столбец матрицы (2) будет суммой столбца

и такого же столбца, содержащего Ь" вместо Ь'. Пользуясь свойствами определителей, мы можем написать поэтому, что

Наконец, если два из столбцов матрицы В окажутся совпадающими, то будут совпадающими и соответствующие столбцы матрицы (2), а следовательно, определитель этой матрицы, т. е. значение F (pit b%y ô3), обратится в нуль. Но эти свойства суть не что иное, как свойства А) и Б), использованные при введении понятия определителя. Поэтому к функции F(bu b2, Ьъ) применима теорема, доказанная в конце § 4. Эта теорема даёт равенство

(3')

где F(ev в2, еъ) есть значение нашей функции, когда столбцы матрицы В обращаются, соответственно, в

Но в этом случае матрица (2) совпадает с матрицей А, а следовательно, её определитель F(elf e2i еъ) обращается в определитель матрицы А, т. е.

Подставляя это в выражение (3'), получим равенство

выражающее доказываемую теорему.

В заключение этого параграфа введём понятие об обратных матрицах. Мы уже заметили выше, что квадратные матрицы вида

при умножении на них не изменяют умножаемую матрицу. Матрица Е называется единичной матрицей (конечно, для каждого порядка имеется своя единичная матрица). По аналогии со случаем чисел матрица В называется обратной по отношению к матрице А, если оба произведения AB и ВА равны единичной матрице.

Отнюдь не все матрицы имеют обратные: из доказанной только что теоремы следует сразу, что матрица А, определитель которой равен нулю (вырожденная матрица), не может иметь обратной; в самом деле, если матрица имеет обратную матрицу В, то произведение определителей обеих матриц должно равняться определителю единичной матрицы, т. е. числу 1, а такое равенство невозможно, если хотя бы один из определителей матриц А и В равен нулю. Однако любая матрица

определитель которой отличен от нуля, имеет обратную матрицу. Для того чтобы убедиться в этом, достаточно написать явное выражение для обратной матрицы. Именно, каждый элемент aik данной матрицы имеет в её определителе своё алгебраическое дополнение Aik. Так как определитель матрицы А отличен от нуля, все эти алгебраические дополнения можно разделить на значение d определителя всей матрицы. Расставим эти частные таким образом:

(4)

(обращаем внимание читателя на то, что —~ стоит на пересечении k-Pi строки и 1-го столбца новой матрицы). При образовании произведения матриц А и В можно заметить следующее: на пересечении j-й строки и у-го столбца произведения AB будет стоять сумма

т. е. делённая на d сумма произведений элементов 1-й строки матрицы А на алгебраические дополнения соответствующих элементов у-й строки той же матрицы. В силу известного свойства определителей такая сумма произведений равна нулю, если номера строк различны, и равна определителю, если номера строк совпадают. В последнем случае деление на d даёт единицу, так что в произведении рассматриваемых матриц на диагонали оказываются повсюду единицы, а все элементы, стоящие вне диагонали, — будут нулями. Иными словами, при умножении мы получаем единичную матрицу. Предоставляем читателю проверить, что единичная матрица получается и при умножении в другом порядке.

Во всём дальнейшем обратная матрица для матрицы А будет обозначаться (там, где она существует) через А"1.

В наших новых обозначениях приобретают особую простоту свойства ортогональных матриц, рассмотренные в предыдущем параграфе. В рассмотренных там случаях плоскости и трёхмерного пространства ортогональные матрицы оказались такими, у которых суммы произведений соответствующих элементов различных столбцов равны нулю, а сумма квадратов элементов любого столбца равна единице. Если С есть такая матрица и если рассмотреть её транспонированную матрицу Ст, то мы легко убедимся, что произведение СТС равно единичной матрице: умножать элементы 1-й строки транспонированной матрицы на соответствующие элементы у-го столбца матрицы С означает то же самое, что и перемножать соответствующие элементы /-го и у-го столбцов матрицы С. Так как единицы получаются при этом в случае одинаковых номеров, а нули — в случае различных, то мы получаем указанный результат: СТС = Е.

Понятие ортогональной матрицы переносится на случай квадратных матриц любого порядка: такая матрица называется ортогональной, если её обратная матрица совпадает с транспонированной: СГ=С~1.

Выше было обнаружено в случае плоскости, что определитель ортогональной матрицы может иметь только значения -|-1 или —1.

Это — свойство всех ортогональных матриц: если матрица С ортогональна, то из равенства СТС = Е следует, в силу только что доказанной теоремы об определителе произведения матриц, равенство I Ст I . IС J = 1, где I Ст I y \С\ суть определители матриц Ст и С.

Но по одному из основных свойств определителя I Сг 1 = 1 С [, а следовательно, |С|2=1, т. е. \С\ = ±1.

Добавим к сказанному, что определение умножения матриц можно использовать более широко, чем это было сделано выше: можно, например, составлять матрицу из векторов и умножать её на числовую матрицу. Правила действия, имеющие место для матриц, при этом полностью сохраняются. Этим обстоятельством мы дальше будем пользоваться. Например, формулы (1) предыдущего параграфа, связывающие базисы е[, е'ъ #з и еъ пространства, запишутся в этом обозначении так:

(5)

Нужно только помнить, что умножение двух матриц, составленных из векторов, не имеет смысла, а также то, что сложение может быть осуществлено только в случае однородных по своему характеру слагаемых.

§ 22. Линейные преобразования

Идея преобразования или отображения является одной из руководящих идей не только геометрии, но и всей математики. Её зарождение можно проследить уже на первых рисунках первобытного человека, в которых, несмотря на их примитивность, можно отчётливо увидеть стремление сопоставить каждой детали изображаемого предмета некоторый её «образ» на рисунке. Эта же идея многократно используется в школьном курсе геометрии, когда для доказательства ряда теорем и при решении задач используется движение фигур или переход от одной фигуры к другой, ей подобной.

Определение отображения в его наиболее общей и в то же время наиболее отчётливой форме может быть сформулировано так: пусть M и N—множества, состоящие из предметов (элементов) совершенно произвольной природы. Будем говорить, что нам задано некоторое отображение множества M в множество Nf если указано правило, относящее каждому элементу множества M некоторый вполне определённый элемент множества N, называемый образом рассматриваемого элемента первого множества.

Для обозначения отображений часто применяется то же обозначение, что и для функций в математическом анализе: говорят, например, что задано отображение F, а образ элемента х множества M при этом отображении обозначают F (х). Такое совпадение обозначений не случайно, так как обычные функции являются просто частными примерами отображений: каждая такая функция есть отображение некоторого множества чисел, на котором

она определена, на некоторое другое множество чисел. Например, функция j> = aresin лг ставит в соответствие каждому числу, содержащемуся между —1 и -(-1, некоторое вполне определённое число, содержащееся между —у и ~- Когда мы в элементарной геометрии говорим о движении той или иной фигуры, то при этом имеем в виду, что заданная нам первоначальная фигура переведена в некоторую другую фигуру, причём эта новая фигура обладает тем свойством, что каждая точка на ней определённым образом соответствует некоторой точке исходной фигуры. Хотя в школьном курсе и не говорится явно о таком соответствии, его наличие на самом деле используется буквально во всех доказательствах, в которых применяется движение (достаточно вспомнить хотя бы доказательства признаков равенства треугольников, проводимые с помощью совмещения фигур).

Для наших целей необходимо в двух отношениях отклониться от элементарного представления о соответствии, используемого в школьном курсе: 1) когда мы будем говорить об отображении, то будем предполагать, что оно определено во всём рассматриваемом пространстве, т. е. что каждый элемент пространства (а не только элементы какой-либо фигуры) имеет определённый образ, и 2) в качестве элементов, между которыми устанавливается соответствие, берутся не точки, а векторы.

Таким образом, мы будем говорить, что задано отображение А векторного пространства Ьг в векторное пространство La, если каждому вектору х первого пространства поставлен в соответствие определённый вектор второго пространства, обозначаемый А(х) или просто Ах.

В соответствии с применённой выше терминологией вектор Ах будет называться образом вектора х. Мы будем говорить также, что отображение А переводит вектор х в вектор Ах. Так как при заданном отображении А каждая система векторов преобразуется в некоторую другую систему, то отображения называются также преобразованиями рассматриваемого пространства.

Среди отображений векторных пространств особенно простыми и наиболее часто встречающимися в различных приложениях являются так называемые линейные отображения (или преобразования).

Отображение А векторного пространства Lx в векторное пространство L3 называется линейным, если оно обладает следующими двумя свойствами: 1) образом суммы двух любых векторов является сумма их образов и 2) образом произведения вектора на любое число является произведение образа этого вектора на то же самое число. На языке формул эти свойства записываются таким образом:

А(х+у) = Ах+Ау, (1)

A(kx) = kAx. (2)

Приведём несколько примеров линейных преобразований:

Пример 1. Поставим в соответствие каждому вектору трёхмерного пространства (в смысле обычной элементарной геометрии) его проекцию на одну из плоскостей (рис. 9). Этим, очевидно, определяется отображение всего пространства на двумерное пространство L2 векторов рассматриваемой плоскости. То, что определённое так отображение является линейным, следует из хорошо известных теорем о пропорциональных отрезках и из того, что проекции параллельных отрезков параллельны между собой.

Рис. 9.

Рис. 10.

Пример 2. Отнесём каждому вектору плоскости другой вектор, получаемый из первого поворотом на постоянный угол ср (в одну и ту же сторону для всех векторов). Линейность получаемого таким образом отображения очевидна сразу.

Пример 3. Будем представлять себе плоскость реализованной в виде бокового среза книги (рис. 10), неподвижно лежащей на столе. Если мы слегка нажмём справа налево на корешок книги, то происходит сдвиг отдельных листов книги друг относительно друга. Такой сдвиг осуществляет линейное преобразование на нашей плоскости, как видно из сравнения рис. 10, а и б. Наш пример, строго

говоря, является лишь грубой иллюстрацией того, что следует называть сдвигом, так как из-за наличия отдельных листов книги наша «плоскость» приобретает дискретный характер. Однако получающееся наглядное представление весьма точно соответствует тому, что понимается под сдвигом в строгом геометрическом смысле слова.

Пример 4. Будем считать, что каждому вектору плоскости отнесено его «зеркальное отражение» в некоторой фиксированной прямой, т. е. вектор, расположенный симметрично с данным относительно этой прямой. Этим опять-таки определяется линейное отображение плоскости на ту же самую плоскость (рис. 11).

В трёх последних примерах имело место следующее частное обстоятельство: рассматриваемое векторное пространство отображалось в себя самого, т. е. исходные векторы и их образы оказались принадлежащими одному и тому же пространству. Этот частный случай с алгебраической точки зрения является наиболее интересным (и общий случай к нему легко сводится). Поэтому во всём дальнейшем, говоря о линейных преобразованиях, мы будем иметь в виду только линейные отображения пространства в себя.

Связь введённых геометрических понятий с алгеброй устанавливается тем, что из заданных линейных преобразований можно создавать новые линейные преобразования с помощью формальных операций (имеющих, впрочем, вполне конкретное геометрическое содержание). После введения операций над преобразованиями последние становятся естественным объектом изучения алгебры.

Рассмотрим сначала сложение линейных преобразований. Пусть А и В—два линейных отображения некоторого векторного пространства L в себя. Эти преобразования ставят в соответствие каждому вектору х нашего пространства его образы Ах и Вх. Так как любые векторы пространства мы можем сложить, то можно образовать вектор Ах-\~Вх и считать его соответствующим вектору X. Этим устанавливается некоторое новое отображение нашего пространства в себя, так как вектор Ах-\-Вх определён для каждого вектора х. Обозначим полученное отображение через С. Оно будет линейным отображением. Для доказательства достаточно проверить наличие у него двух основных свойств (1) и (2) таких отображений. Но эти свойства

Рис. 11.

очевидны почти сразу: по определению отображения С мы имеем для любых векторов х и у такие соотношения:

откуда видно, что имеют место равенства

С (X +у) = Сх + Су, С (kx) = kCx,

содержание которых совпадает с содержанием равенств (1) и (2).

Определённое указанным образом отображение С называется суммой отображении А и В. Для обозначения суммы отображений применяется обычный знак: С = А-\- В. Знак равенства применяется здесь опять в смысле совпадения стоящих по обе стороны объектов (два преобразования естественно считать совпадающими, если они переводят каждый вектор пространства в один и тот же вектор).

Умножение отображений вводится следующим образом: если А и В — два данных отображения, то, взяв некоторый вектор X пространства, можно перевести его сначала в вектор Вх, а затем к полученному вектору Вх применить преобразование А. Получим вектор А (Вх). Описанный процесс ставит в соответствие каждому вектору X вектор А(Вх) того же пространства, т. е. определяет некоторое отображение рассматриваемого пространства в себя. Это отображение и называется произведением заданных отображении А и В. Оно обозначается AB, причём важно обращать внимание на порядок множителей. Существенность этого замечания показывается хотя бы таким примером: пусть отображение А является вращением плоскости на угол ср (против часовой стрелки), а отображение В — зеркальным отражением в оси Ох (рис. 12). Читатель без труда убедится, что вектор х, если к нему сначала применить вращение А, а затем отражение В, обратится в вектор В (Ах). Наоборот, если сначала к вектору х применить отражение В, а затем вращение А, то мы получим вектор А(Вх), отличный от В (Ах).

Произведение преобразований часто определяют короче и более выразительно, но менее точно, как преобразование, эквивалентное последовательному выполнению заданных преобразований. Нужно

Рис. 12.

подчеркнуть только (выше это было сказано явно), что сначала выполняется преобразование, стоящее в произведении вторым множителем. Произведение линейных отображений также является линейным отображением.

Как и в случае матриц, отмеченная выше некоммутативность умножения является единственным отступлением правил действий с преобразованиями от обычных алгебраических правил. Все остальные из основных законов алгебры полностью сохраняются: для любых преобразований А, Ву С имеют место формулы

Эти соотношения могут быть выведены из соответствующих соотношений для матриц с помощью приёма, которым мы займёмся в следующем параграфе. Однако для закона ассоциативности умножения полезно здесь привести прямое доказательство. Именно, каков бы ни был вектор х, имеет место равенство

(Здесь мы воспользовались только определением умножения преобразований: чтобы получить результат действия преобразования (AB) С на вектор х, мы применяем к нему сначала преобразование С, а затем преобразование AB; далее, для получения результата действия на вектор Сх преобразования AB сначала применяем к вектору Сх преобразование В, а затем — преобразование А.) Пользуясь этими же соображениями, для вектора А (ВС) х получаем такое выражение:

которое, как сразу видно, совпадает с приведёнными выше. Таким образом, результат действия преобразований (AB) С и А (ВС) на любой вектор X будет одним и тем же, т. е. эти преобразования совпадают.

§ 23. Представление линейных преобразований матрицами

Хотя в предыдущем параграфе и были определены операции над линейными преобразованиями, их выполнение в конкретных случаях не столь легко, как выполнение обычных арифметических действий над числами. Чтобы получить способ просто выполнять эти операции, необходимо свести их к действиям над числами, а для этого, прежде всего, необходимо иметь способ аналитической записи самих линейных преобразований.

Ключ к получению такой записи даёт следующее замечание: линейное преобразование вполне определено, если известно, в какие векторы оно переводит векторы базиса пространства. В самом деле, если известны образы Ае19 Аеп векторов базиса е19 еп пространства I, то для любого вектора х = е1х1-\- ... -\-епхп этого пространства его образ будет вполне определён: в силу основных свойств линейных преобразований должны иметь место соотношения

Рассмотрим для определённости случай пространства трёх измерений. В этом случае векторов базиса всего три: el9 е2, еъ. Их образы Ае19 Аеъ Аеъ будут также векторами пространства, а следовательно, они представляются линейными комбинациями самих векторов базиса:

(1)

При этом для любого вектора х мы будем иметь:

(2)

Таким образом, преобразование А будет вполне определено, если известна матрица

(3)

составленная из коэффициентов aik формул (1). Она называется матрицей линейного преобразования А относительно базиса ev еъ в3.

Введённые в § 21 операции над матрицами позволяют ещё упростить нашу запись и сделать работу с ней совершенно автоматической. Для этого условимся под результатом действия линейного преобразования на любую строку, составленную из векторов, понимать строку, составленную из образов заданных векторов, т. е., выражая это формулой, условимся в том, что

Тогда формулы (1) запишутся так:

(1')

о если ещё ввести сокращение, обозначая матрицу (3) через МА

(здесь А указывает то преобразование, матрица которого обозначена Ma), то получим ещё более простую запись

А(еи е2, еь) — (е19 еъ ег) МА. (1'')

Преимущества введённой записи обнаружатся ещё ясней, когда применим её к формуле (2). Она может быть теперь переписана в виде

А если обозначить столбец, составленный из координат вектора х через X, то в виде

(4)

Последнее соотношение остаётся справедливым также и в том случае, когда X означает любую матрицу: в этом случае, если через Xl9 Х2, Хъ обозначить отдельные столбцы этой матрицы, произведение строки (el9 е29 ег) на X означает строку, составленную из отдельных произведений

Действие линейного преобразования А на такую строку сводится к его действию на каждый из векторов строки, что приводит к системе векторов

которая в свою очередь может быть записана в виде

Заметим теперь, что матрица Ma, входящая в формулу (Г'), однозначно определена линейным преобразованием, так как её столбцы являются коэффициентами линейных комбинаций векторов базиса, выражающих образы этих векторов; коэффициенты же в выражении любого вектора через базис определены однозначно.

Это замечание позволяет совершенно автоматически получить выражения для матриц суммы и произведения двух данных линейных преобразований. Действительно, по определению суммы и произведения преобразований, пользуясь введёнными в § 21 действиями с матрицами, получим формулы

(5)

(6)

Но матрицы преобразований А-\-В и AB суть такие матрицы,

которые удовлетворяют соотношениям

Сравнивая эти соотношения с формулами (5) и (6), получим:

Таким образом, получается основное правило: матрицы суммы и произведения линейных преобразований равны, соответственно, сумме и произведению матриц данных преобразований.

Этим все действия с линейными преобразованиями сведены к соответствующим действиям с матрицами, т. е. в конечном счёте с числами.

Мы рассмотрели случай трёхмерного пространства. Но на самом деле, как это легко видеть из изложенного, все полученные результаты могут быть приложены к пространству любого числа измерений: изменится только число строк и столбцов рассматриваемых матриц.

В качестве иллюстрации рассмотрим выражение некоторых линейных преобразований плоскости, на которой в качестве базиса выбраны два взаимно перпендикулярных вектора elf е% длины 1.

Рассмотрим сначала вращение плоскости на угол ср (против часовой стрелки). Если обозначить это вращение через А, то легко видеть, что образами Аех и Ае2 векторов ег и е2 будут векторы е[ и е2 (см. рис. 8, а). Принимая во внимание выражение этих векторов через базис ely e2f получим соотношение

показывающее, что матрицей преобразования А будет матрица

Другим линейным преобразованиям будут соответствовать другие матрицы. Например, отражению В плоскости в прямой, на которой лежит вектор ev будет соответствовать матрица

ибо

Наши соображения дают возможность ещё раз убедиться в том, что произведения AB и ВА преобразований А к В различны: этим

произведениям соответствуют матрицы

так что преобразования AB и ВА не могут совпадать.

Рассмотрим ещё один пример: возьмём то же отражение В плоскости в прямой, содержащей вектор et (см. рис. 8, а), но в качестве базиса плоскости возьмём векторы е[, е%9 изображённые на этом рисунке. Эти векторы преобразованием В переводятся в векторы Ве[, Bef2i изображённые на рис. 8, а пунктиром. Их выражения через векторы е[ и е'2 будут:

Отсюда видно, что матрица преобразования В в нашем новом базисе будет:

Она отличается от матрицы того же преобразования, полученной относительно базиса еи е2. Таким образом, одно и то же линейное преобразование может выражаться различными матрицами в зависимости от выбора базиса пространства.

Однако между матрицами, выражающими линейное преобразование В в различных базисах, существует простая связь. Её вывод не представляет трудности, и мы проведём его в общем случае, независимо от размерности пространства. Пусть el9 е2, ..., еп и е[> е'п — два различных базиса пространства L и А — некоторое линейное преобразование этого пространства. Тогда матрицы, выражающие это линейное преобразование относительно данных базисов, определяются из соотношений

(7)

Вспомним теперь, что переход от базиса еи..., еп к базису е'г$ . •., е'п характеризуется матрицей перехода С :

(8)

Применяя преобразование А к первой из этих формул, мы получим соотношение

(последнее равенство написано на основании формулы (4), в которой роль матрицы X играет матрица С). Подставляя теперь выражение (ег, ..., еп), даваемое второй из формул (8), получим соотношение

Сравнение его со второй формулой (7) даёт равенство

М'А = С1МАС9 (9)

устанавливающее связь между матрицами Ma и Ma-

Отметим в заключение этого параграфа ещё следующее: как мы видели, при заданном базисе пространства каждому линейному преобразованию соответствует определённая матрица; остаётся вопрос, каждая ли матрица соответствует некоторому линейному преобразованию? Оказывается, что это действительно так. Чтобы убедиться в сказанном, достаточно определить отображение пространства в себя таким образом: если МА— любая матрица, то примем формулы (1) в качестве определений образов векторов elt еп при нашем преобразовании. После этого образ любого вектора х определим с помощью формулы (2).

Определённое таким образом преобразование пространства будет линейным, так как координаты суммы двух векторов равны суммам координат слагаемых, а координаты произведения вектора на число равны произведениям координат данного вектора на это число. Матрица нашего преобразования, по его определению, совпадает с матрицей Ма-

§ 24. Геометрические свойства линейных преобразований и свойства представляющих их матриц

После того как каждому линейному преобразованию поставлена в соответствие некоторая матрица, естественно посмотреть, какая связь существует между свойствами преобразования и свойствами представляющей его матрицы.

Линейное преобразование пространства L в себя называется вырожденным, если оно обращает пространство в некоторую его часть. Например, преобразование, состоящее в проектировании всех векторов трёхмерного пространства на некоторую плоскость, является вырожденным, так как при этом совокупность всех векторов пространства превращается в совокупность векторов только одной плоскости. Наоборот, преобразование, которое переводит пространство во всё пространство, называется невырожденным. Примерами невырожденных преобразований являются такие преобразования, как вращение трёхмерного пространства или плоскости, сдвиг (см. пример 3 § 22) и многие другие.

Вырожденность или невырожденность линейного преобразования может быть очень легко обнаружена по его матрице:

Преобразование А тогда и только тогда является невырожденным, когда соответствующая ему матрица имеет определитель, не равный нулю.

В самом деле, если преобразование А вырожденное, то векторы Aelf ..., Аеп не могут быть линейно независимыми, так как в этом случае любой вектор у пространства можно было бы представить их линейной комбинацией Ае1х1 -}-... -f- Аепхп9 а это означает, что вектор у является образом вектора х = е1х1-\- ... -\~епхп, так что совокупность образов векторов пространства заполняет всё пространство, вопреки предположению. В силу доказанного в главе II условия линейной независимости векторов в таком случае определитель матрицы, составленный из коэффициентов выражений векторов Аеи ..., Аеп через базис еи ..., еп, должен быть равен нулю. Но этот определитель и является определителем матрицы преобразования А.

Наоборот, если определитель матрицы Ma равен нулю, то в силу того же условия линейной зависимости, векторы Аеи ... f Аеп будут линейно зависимыми, а следовательно, их линейные комбинации не могут заполнять всё рассматриваемое пространство. Если теперь заметить, что образ любого вектора х = е1х1-\- ... + -\~епхп является такой линейной комбинацией, то станет ясным, что это и означает вырожденность преобразования А.

Невырожденные преобразования обладают ещё одним свойством, которое, подобно только что указанному, является для них характеристическим:

Преобразование А тогда и только тогда является невырожденным, когда единственным вектором, обращающимся после преобразования в нулевой вектор, является сам нулевой вектор.

В самом деле, если векторы Ае19 ..., Аеп линейно зависимы, то найдутся некоторые числа xt9 ... 9 хп, не все равные нулю, для которых Аех • хх -f- ... -|- Аеп • хп = 0. Но это означает, что образ отличного от нуля вектора х=е1х1-\- ... -f- епхп равен нулевому вектору. Наоборот, если векторы АеХ9 Аеп линейно независимы, то образ А(х) — Аегхх-f- ... -\-Аепхп любого вектора х = егхх -\-... -\- епхп, отличного от нуля, сам не равен нулю.

Простейшим из всех преобразований является тождественное преобразование Е, т. е. такое, которое оставляет все векторы пространства неподвижными: Ех = х. Из соотношений

следует, что тождественное преобразование во всяком базисе выражается единичной матрицей.

В случае невырожденного преобразования А (и только в этом случае) можно говорить об обратном преобразовании: это — такое преобразование, которое переводит образ Ах любого вектора х, полученный при преобразовании А, снова в вектор х. Другими словами, обратным преобразованием для преобразования А называется такое преобразование А'1, для которого произведение А~1А является тождественным преобразованием. Установленное раньше правило образования матрицы произведения преобразований показывает, что матрицей обратного преобразования является обратная матрица матрицы данного преобразования, так как должно быть:

MA-iMA =МА-1А —МЕ — В.

Ограничимся снова рассмотрением преобразований плоскости и обычного трёхмерного пространства. В этих случаях, как мы отмечали выше, естественно пользоваться ортонормальными базисами (т. е. базисами, состоящими из взаимно перпендикулярных единичных векторов).

При пользовании такими базисами в совокупности всех линейных преобразований естественно выделить некоторые частные их типы. Формальным основанием такого выделения могут послужить свойства матриц, представляющих эти преобразования.

Важнейшими из определяемых таким путём классов преобразований являются следующие:

1. Ортогональные преобразования, т. е. линейные преобразования рассматриваемого пространства, которые в некотором ортонормальном базисе выражаются ортогональными матрицами.

2. Симметрические преобразования, представляемые в таком базисе симметричной матрицей (т. е. такой, которая не меняется при транспонировании: жХ=ЛГд).

Первый вопрос, который возникает в связи с таким определением: может ли преобразование представляться симметричной или ортонормальной матрицей в одном ортонормальном базисе и в то же время в другом базисе выражаться матрицей какого-либо другого характера. Ответ на этот вопрос — отрицательный:

Если некоторое линейное преобразование А представляется в ортонормальном базисе симметричной {или ортогональной) матрицей, то такой же матрицей оно представляется и в любом другом ортонормальном базисе.

В самом деле, переход от одного ортонормального базиса к другому даётся ортонормальной матрицей перехода С (см. § 21). Поэтому С"1 = СТ. Пользуясь теперь правилом, связывающим матрицы M а и Al а преобразования А в двух рассматриваемых базисах, будем иметь:

Если матрица Ma была симметричной, т. е. если Л'1д = ЛТд, то матрица M'a будет симметричной, ибо

(здесь мы пользовались образованием транспонированной матрицы для произведения матриц, указанным в § 21, а также тем обстоятельством, что транспонированная матрица для транспонированной матрицы совпадает с самой данной матрицей).

Если же матрица Ma была ортогональной, то из равенства MаМа=Е, являющегося определением ортогональной матрицы, и из ортогональности матрицы С вытекают равенства

т. е. ортогональность матрицы M'a.

Ортогональные преобразования могут быть охарактеризованы геометрически:

Теорема. Преобразование А тогда и только тогда является ортогональным, когда оно не меняет длин векторов, т. е. когда для любого вектора х

(Ах, Ах) = (х, х).

В самом деле, если преобразование А является ортогональным, то для любых векторов et и в;- ортонормального базиса имеют место равенства

(Aeit Aet) = 1 и (Aet, Aej) = 0 при I ф ]

(ведь именно эти равенства и выражаются условиями ортогональности матрицы). Отсюда следует, что для любого вектора

будет:

Доказательство обратного утверждения несколько сложнее.

Заметим, прежде всего, что преобразование, не изменяющее скалярных произведений любых векторов, будет ортогональным: если (Ах, Ау) = (х, у) для любых векторов х и у, то, в частности, (Aet, AeJ) = (ei, ej), т. е. будет равно нулю или единице, смотря по тому, будет ли 1ф} или /=/. Но это и означает ортогональность матрицы преобразования.

Для полного доказательства формулированной теоремы остаётся доказать лишь такое утверждение:

Если линейное преобразование А не меняет длин векторов, то оно не меняет и их скалярных произведений.

В самом деле, если преобразование А не меняет длин векторов, то для любых векторов х и у должны выполняться равенства

Пользуясь теперь тем, что

из этих равенств получим (Ах, Ау) = (х, у), т. е. скалярное произведение любых векторов равно скалярному произведению их образов. А это и нужно было доказать.

Легко убедиться теперь в том, что любое ортогональное преобразование пространства сводится к вращению и, может быть, ещё зеркальному отражению.

Ограничимся рассмотрением трёхмерного пространства.

Если ех, ег, еъ — исходный ортонормальный базис и е[, е2,е[— образы его векторов, то очевидно следующее:

1) Можно произвести вращение пространства около начала координат так, чтобы вектор ех перешёл в е[ (длины этих векторов равны). При этом векторы ег и еъ также повернутся и станут перпендикулярными к е[.

2) После этого можно вращать пространство вокруг вектора е[ так, чтобы вектор е2 перешёл в е'2.

Так как при этом вектор еъ перейдёт в вектор, перпендикулярный к векторам е\ и е'2, то возможны только два случая: либо повёрнутый таким образом вектор совпадёт с е\, либо окажется противоположным ему. В последнем случае для достижения совпадения нужно произвести зеркальное отражение в плоскости, натянутой на два первых вектора. Таким образом, всегда можно достигнуть того, чтобы в результате вращения и некоторого зеркального отражения (если последнее нужно) векторы ех, е2, еъ перешли в е[, е'2 и е[. Так как вращение и зеркальное отражение являются линейными преобразованиями, то результирующее преобразование будет линейным. А так как его действие на векторы базиса еи ег, еъ таково же, что и в случае заданного преобразования А, то это результирующее преобразование будет совпадать с А.

§ 25. Симметрические преобразования. Случай плоскости

Геометрическая характеристика симметрических преобразований получается несколько сложнее, хотя результаты здесь столь же наглядны. Начнём со случая линейных преобразований плоскости, так как нужные нам вычисления здесь легко проводятся.

Пусть дано симметрическое преобразование А плоскости. Выбирая в качестве базиса два взаимно перпендикулярных единичных вектора, elt е2, выразим наше линейное преобразование матрицей

При этом в силу симметричности преобразования ап — аи. Поставим вопрос: не существует ли на плоскости такого вектора х = е.1х1-\-е2х2у который при преобразовании не меняет своего направления? Предполагается, что этот вектор отличен от нуля, так как в противном случае не имеет смысла говорить о его направлении. Поставленное условие означает, что вектор Ах должен получаться из вектора х умножением на некоторое число X. Записывая равенство Ах = 1х в матричной форме по нашим правилам, получим:

Отсюда следует, что должны соблюдаться такие числовые равенства:

Последние представляют собою систему линейных однородных уравнений с неизвестными xly х2. Для того чтобы такая система имела отличное от нуля решение, как мы знаем, должно выполняться равенство определителя системы нулю

Это даёт уравнение для определения возможных значений числа X:

(2)

Обращая теперь внимание на то, что коэффициенты этого уравнения действительны (мы рассматриваем обычную плоскость элементарной геометрии, так что все координаты векторов выражаются действительными числами) и что дискриминант уравнения

можем утверждать, что корни уравнения (2) всегда действительны. Рассмотрим теперь отдельно два случая:

а) Корни уравнения (2) равны между собой. Это происходит тогда, когда дискриминант уравнения равен нулю, т. е. когда (а*,—ûoo)2 4- 4а?п = 0. Но последнее равенство означает, что

ап — а22 = 0 и а12 = 0. Таким образом, наше преобразование в рассматриваемом случае задаётся матрицей

Оно сводится к тому, что оба вектора базиса умножаются на одно и то же число ап. Но в таком случае, как легко видеть, для любого вектора х будет: Ах — апх. Выражаясь геометрически, это означает, что А есть преобразование подобия с коэффициентами подобия ап.

б) Корни уравнения (2) различны. Пусть они равны, соответственно, и Х2. Выражая коэффициенты уравнения через его корни, будем иметь:

Подставим в уравнения (1) сначала одно из значений X, например Xi. Так как определитель системы уравнений (1) при этом обращается в нуль, система должна сводиться к одному уравнению, например к первому. Решение системы поэтому будет даваться значениями хх = а12 и х2 = Xj — ап (или любыми значениями, им пропорциональными). Таким образом, мы находим один вектор

Хг = eta12 -|- е2 (X, — ап),

который под действием преобразования А только умножается на число Xj. Этим свойством будет обладать также любой другой вектор, совпадающий по направлению с вектором xv Аналогичным образом находим и другой вектор хь обладающий тем свойством, что Ах2 = 12х2. Таким вектором будет, например, дг2 = вха12 -f--|-е2(Х2 — ап). Легко усмотреть, что найденные векторы взаимно перпендикулярны, так как их скалярное произведение

Чтобы резюмировать полученные результаты, введём одно новое понятие: вектор х, обладающий тем свойством, что Ах = 1х, называется собственным вектором преобразования А. Число X называется собственным значением преобразования А, которому принадлежит собственный вектор х.

Если использовать введённое понятие, то просмотр полученных выше результатов убеждает нас в справедливости следующей теоремы:

Теорема. Каково бы ни было симметрическое преобразование плоскости, для него существуют два взаимно перпендикулярных

1) Последнее получается применением формул (3).

собственных вектора, принадлежащих одному и тому же или различным собственным значениям.

Учитывая теперь возможность произвольно изменить длину собственного вектора, можем составить ортонормальный базис плоскости из собственных векторов заданного симметрического преобразования. Если обозначить векторы этого базиса через е[ и е'2, а собственные значения, к которым они принадлежат, — через X. и Х2, то для рассматриваемого линейного преобразования получим такое матричное выражение:

Написанное выражение показывает, что симметрическое преобразование сводится всегда к растяжению (или сжатию) плоскости в двух взаимно перпендикулярных направлениях. Правда, это должно пониматься в несколько расширенном смысле, так как значения \х и Х2 могут быть отрицательными, а следовательно, направление одного или обоих векторов е[ и е2 при нашем преобразовании может измениться на противоположное. Растяжение или сжатие в обычном смысле получается в том случае, когда оба собственных значения \х и Х2 положительны.

§ 26. Симметрические преобразования трёхмерного пространства

Обратимся к случаю трёхмерного пространства. Здесь возможен тот же путь исследования, что и выше, но из-за большего числа координат векторов возникают некоторые осложнения. Чтобы запись нужных нам формул не была слишком громоздкой, приходится вводить некоторые вспомогательные средства формального характера.

Прежде всего введём понятие сопряжённого преобразования: если в некотором ортонормальном базисе задано преобразование Л, матрица которого есть Ma, то преобразованием, сопряжённым к Л, называется преобразование, матрицей которого будет Ma, т. е. транспонированная матрица преобразования Л. Преобразование, сопряжённое преобразованию Л, обозначается через Л*.

Это определение не зависит от выбранного ортонормального базиса: если перейти от заданного базиса к другому с помощью ортогональной матрицы перехода С, то матрица исходного преобразования Л обратится в СгЖдС, а матрица преобразования Л* — в матрицу СтМТаС (С~1=Ст и матрица перехода — одна и та же для всех преобразований). Но последняя матрица есть не что иное, как транспонированная новая матрица преобразования Л: (СгМаС)т = т — СтМаС. Таким образом, каким бы ортонормальным базисом мы ни воспользовались, мы получаем одно и то же преобразование Л*.

Сопряжённое преобразование Л* может быть также охарактеризовано следующим способом:

Преобразование Л* является сопряжённым с А в том и только в том случае, когда (Aeif ej) = (e£, Ае)) для любых векторов ортонормального базиса el9 е2, ег.

В самом деле, пусть преобразования Л и Л* заданы матричными соотношениями

Из этих соотношений видно, что

что указанное в формулировке доказываемого предложения равенство эквивалентно равенству aji=aiji т. е. условию, чтобы матрица преобразования Л была транспонированной матрицей преобразования Л. Эта характеристика может быть ещё несколько изменена и освобождена от какой бы то ни было зависимости от базиса пространства:

Преобразование А* тогда и только тогда является сопряжённым к преобразованию А, когда для любых векторов имеет место равенство (Ах, у) = (х, Ау*).

В самом деле, если это равенство имеет место для любых векторов, то оно, в частности, справедливо для векторов базиса ех, е2, ez, и мы приходим к доказанному предложению. Наоборот, если имеют место все равенства (Aev ej) = (eit Л*ву), то для любых векторов х = е1х1-\-е2х2-\-егх3 и у = e^i + e^y2 -|- еъуг в силу основных свойств линейных преобразований и свойств скалярного произведения будут выполняться равенства

Отсюда следует, что если имеют место все равенства (Aeit £/) = = (eit A*ej), то должно быть:

Связь введённых определений с симметрическими преобразованиями очевидна: само определение симметрического преобразования показывает, что оно эквивалентно такому:

Линейное преобразование А называется симметрическим, если оно совпадает со своим сопряжённым преобразованием: А = А*.

Ортогональные преобразования могут быть также определены с помощью понятия сопряжённого преобразования:

Преобразование А будет ортогональным тогда и только тогда, когда его обратное преобразование совпадает с сопряжённым, т. е. когда А*А = Е.

В самом деле, в этом случае для матриц преобразований А и А* будет справедливо соотношение Ма*Ма — МаМа —Е> т. е. матрица Ma будет ортогональной.

Всё сказанное относится также и к случаю плоскости. Однако в этом случае нет особой необходимости во введённых понятиях, так как имеющие здесь место соотношения достаточно просты, и их можно исследовать непосредственно, как это было сделано выше.

Рассмотрим теперь произвольное симметрическое преобразование трёхмерного пространства, заданное в некотором ортонормальном базисе матричными соотношениями

Сохраняя прежнее определение собственного вектора и собственного значения, можем получить в координатной форме условия того, чтобы вектор х = е1ххАГе2х2-\-еъхъ был собственным вектором преобразования А, принадлежащим собственному значению X. Эти условия будут иметь вид

и приводятся к системе уравнений

(1)

Для того чтобы последняя система имела решение, отличное от нулевого, необходимо и достаточно обращение определителя её в нуль:

(2)

Это — уравнение третьей степени. Но известно, что уравнение третьей степени с действительными коэффициентами имеет хотя бы один действительный корень (многочлен третьей степени принимает значения разных знаков при больших положительных и больших по абсолютной величине отрицательных значениях неизвестного). Таким образом, найдётся хотя бы одно значение X, удовлетворяющее уравнению (2). При этом значении вторая из систем уравнений (2) допускает решение, отличное от нулевого, и значения xv х2, хъ, удовлетворяющие этой системе, будут координатами некоторого собственного вектора х нашего преобразования. Таким образом, получаем следующую лемму:

Лемма. Любое симметрическое линейное преобразование трёхмерного пространства имеет по крайней мере один собственный вектор.

Это позволяет немедленно обнаружить существование трёх взаимно перпендикулярных собственных векторов следующим образом. Обозначим найденный собственный вектор (будем предполагать, что он сделан по длине равным единице) через е[. Рассмотрим совокупность всех векторов, перпендикулярных к вектору е[. Они заполняют некоторую плоскость, которую мы будем теперь рассматривать как самостоятельное двумерное векторное пространство. Эта плоскость замечательна тем, что её векторы при применении к ним преобразования А остаются перпендикулярными к вектору е[, т. е. остаются лежащими на нашей плоскости. В самом деле, если х — вектор плоскости, т. е. если (X, <) = 0, то (Ах, е[) = (х, А^е[) = (х) Ае[) = (х, \хе[) = 0, так

как в силу симметрии преобразования А*=А. Ко равенство скалярного произведения (Ах, е[) нулю означает, что вектор Ах перпендикулярен к вектору е[ (может быть, впрочем, и Ах=0, но это не меняет нашего общего вывода, так как нулевой вектор лежит на плоскости).

Полученный результат означает, что наше преобразование можно рассматривать также как преобразование упомянутой плоскости в себя. Оно будет линейным, так как оно линейно во всём пространстве. Кроме того, это преобразование плоскости будет симметрическим: равенство (Ах, у) = (х, Ау), вытекающее из условия А—-А*, имеет место даже для всех векторов пространства, а не только для векторов плоскости. Но выше мы доказали, что для любого симметрического преобразования плоскости на ней найдутся два взаимно перпендикулярных собственных вектора е2, еъ (их также можно предполагать равными единице по длине).

Таким образом, в пространстве найдены три взаимно перпендикулярных собственных единичных вектора е[, е2, е\ преобразования А. Их можно принять за базис пространства. В этом базисе преобразование А задаётся соотношением

показывающим, что преобразование снова сводится по существу к простому растяжению пространства в трёх взаимно перпендикулярных направлениях (с возможным изменением этих направлений на противоположные).

Растяжения пространства в собственном смысле выделяются среди всех симметрических преобразований тем, что для них все собственные значения \и >2, Х3 положительны. Этого же можно достигнуть с помощью понятия о положительно определённом преобразовании: преобразование А называется положительно определённым, если ни один вектор не образует со своим образом тупого угла, т. е. если для любого вектора х имеет место соотношение (Ах, х)^0.

Собственные значения положительно определённого симметрического преобразования не отрицательны.

В самом деле, если ех— собственный вектор преобразования А, то из неравенства (Аех, е1) = (\1е1, е^^О и из того, что скалярное произведение (ех, ех) как квадрат длины вектора ех положительно, вытекает, что Xt^0.

Таким образом, растяжения пространства характеризуются тем, что они являются положительно определёнными симметрическими преобразованиями.

§ 27. Представление произвольного линейного преобразования произведением ортогонального и симметрического

Из результатов предыдущего параграфа вытекает следующая теорема, показывающая, что произвольное линейное преобразование пространства (или плоскости) сводится к последовательному выполнению растяжения в трёх взаимно перпендикулярных направлениях, вращению и, может быть, отражению в некоторой плоскости.

Теорема. Любое невырожденное линейное преобразование является произведением симметрического преобразования и некоторого ортогонального.

Доказательство этой замечательной теоремы удобно разбить на несколько этапов.

1. Произведение линейного преобразования на его сопряжённое является симметрическим преобразованием, причём положительно определённым.

Если преобразованию А соответствует в некотором ортонормальном базисе матрица Ma, то преобразованию А* в этом же базисе соответствует матрица Ма> Отсюда следует, что произведению А*А соответствует матрица ЖдЖд. Её транспонированная матрица (МтаМа)Т=МТа (Ма)т совпадает с ней, так что преобразование А*А симметрично.

Чтобы доказать положительную определённость преобразования А*А, достаточно воспользоваться свойством сопряжённого преобразования: если X — произвольный вектор, то

Но скалярное произведение вектора на себя не может быть отрицательным, так что (х, A*Ax)^zQ.

2. Для любого симметрического положительно определённого преобразования существует другое положительно определённое преобразование, квадрат которого равен данному.

Согласно доказанному в предыдущем параграфе в пространстве найдётся такой ортонормальный базис, в котором матрица данного симметрического преобразования имеет вид

Числа Xlf л2, >ч3 не могут быть отрицательными в силу положительной определенности данного преобразования. Поэтому можно

образовать матрицу

которая, как и всякая матрица, будет матрицей некоторого линейного преобразования В. В силу того, что эта матрица симметрична, преобразование В будет симметрическим. Квадрат преобразования В будет совпадать с данным преобразованием, так как произведение матрицы В на себя даёт матрицу Ж д.

3. Сопряжённое преобразование для произведения двух или нескольких преобразований равно произведению их сопряжённых в обратном порядке.

Это утверждение просто следует из рассмотрения матриц: если А и В — данные преобразования, a Ma и Mb— матрицы, соответствующие им в некотором ортонормальном базисе, то МаМв будет матрицей преобразования AB, а (МаМв)г—матрицей сопряжённого преобразования (AB)*. Но (МаМв)г=МтвМта, а это есть не что иное, как произведение матриц Мв* и Мд* преобразований В* и А*.

После всего сказанного доказательство формулированной теоремы не представляет труда. Пусть А — данное невырожденное преобразование. Образуем произведение А*А. Это преобразование будет симметрическим, положительно определённым и невырожденным (последнее следует из теоремы об определителе произведения двух матриц). В силу только что доказанного, существует симметрическое положительно определённое преобразование В, квадрат которого равен А*А:

преобразование В будет также невырожденным. Поэтому существует обратное преобразование В'1, а следовательно, мы можем написать равенство

Формулированная теорема будет доказана, если мы обнаружим, что преобразование AB'1 будет ортогональным. Но мы имеем:

откуда следует, что преобразование (AB'1)* является обратным для преобразования AB'1, а это и нужно (см. замечание об ортогональных преобразованиях в предыдущем параграфе).

1) Преобразование В~1 будет также симметрическим:

§ 28. Упрощение уравнений линий и поверхностей второго порядка.

Изложенная теория допускает важные приложения к исследованию линий и поверхностей второго порядка.

Мы начнём с рассмотрения кривых, причем ограничимся частным случаем, когда кривая имеет центр симметрии. Такие кривые называются центральными.

Если воспользоваться любой прямоугольной координатной системой, начало которой расположено в центре симметрии кривой второго порядка, то её уравнение запишется в виде

(1)

где множитель 2 при произведении координат введён для удобства.

Обозначим через ех и е2 единичные векторы, направленные вдоль координатных осей. Они образуют базис рассматриваемой плоскости. Если X и у— координаты некоторой точки, то г = егх-\-е2у — радиус-вектор.

Рассмотрим теперь линейное преобразование А плоскости, определяемое в рассматриваемом базисе матрицей.

составленной из коэффициентов уравнения кривой. Легко видеть, что для вектора А (г) будем иметь выражение

Отсюда следует, что левая часть уравнения (1) является скалярным произведением векторов г и Л (г), так что уравнение рассматриваемой кривой может быть переписано в виде

(г, Ar)=d. (2)

Такая запись позволяет легко судить о том, что происходит с уравнением кривой при переходе от одной координатной системы к другой. В силу того, что преобразование А является симметрическим, на плоскости существует ортонормальный базис, состоящий из собственных векторов е[ и е[ преобразования Л. Если перейти к системе координат, определяемой этим базисом, то мы будем иметь соотношения

и

(3)

Это и будет уравнением нашей кривой в новой системе координат.

Простота формы уравнения (3) даёт возможность по нему непосредственно судить о форме кривой, что было бы затруднительным сделать, пользуясь первоначальным уравнением (1). В частности, из уравнения (3) сразу видно, что новые оси координат являются осями симметрии рассматриваемой кривой. Этим доказано существование у любой центральной кривой второго порядка двух взаимно перпендикулярных осей симметрии. Можно было бы, несколько дополнив приведённые соображения, получить полную классификацию всех кривых второго порядка. Однако это увело бы нас от основной темы.

Сила применённого метода станет ещё более наглядной при рассмотрении случая центральных поверхностей второго порядка.

Если начало координат находится в центре симметрии такой поверхности, то её уравнение будет иметь вид

Читателю предоставляется самому проверить, что это уравнение может быть записано в виде (г, A(r)) = h, если через г обозначить радиус-вектор точки, а через А — симметрическое преобразование, определяемое матрицей

Если теперь найти ортонормальный базис пространства, состоящий из собственных векторов преобразования А, и перейти к системе координат, определяемой этим базисом, то повторение приведённых выше рассуждений показывает сразу, что в новой координатной системе уравнение нашей поверхности будет иметь вид

Как и в случае кривых, полученное уравнение даёт возможность легко решать все вопросы, относящиеся к форме и расположению рассматриваемой поверхности. В частности, отсюда следует существование трёх взаимно перпендикулярных плоскостей симметрии у любой центральной поверхности второго порядка.

Литература

1. Шапиро Г. М., Высшая алгебра, изд. 4-е, дополненное, Учпедгиз, 1938.

2. Окунев Л. Я., Высшая алгебра, изд. 4-е, Гостехиздат, 1949.

3. Курош А. Г., Курс высшей алгебры, изд. 2-е, Гостехиздат, 1950.

4. Сушкевич А. К. Основы высшей алгебры, изд. 4-е, Гостехиздат, 1941.

В этих четырёх книгах можно найти изложение теории определителей, отличное от приведённого в настоящей статье.

Наиболее доступной по своему изложению является книга Г. М. Шапиро.

5. Виноградов С. П., Основания теории детерминантов, ГТТИ, 1933.

Кроме лёгкости изложения, эта книжечка обладает ещё тем достоинством, что в ней собрано довольно много поучительных задач, снабжённых ответами и иногда указаниями.

6. Каган В. Ф., Основы теории определителей, Одесса, 1922.

Обширная монография по вопросам, связанным с теорией определителей. В ней содержится, в частности, изложение многих исторически имевших место подходов к введению определителей.

7. Фаддеев Д. К. и Соминский И. С, Сборник задач по высшей алгебре, Гостехиздат, 1949.

В книге даны многочисленные примеры вычисления определителей. В нужных случаях задачи снабжены указаниями, так что книга может быть рекомендована всем, кто хочет овладеть техникой вычисления определителей.

8. Гельфанд И. М., Лекции по линейной алгебре, Гостехиздат, 1943.

9. Мальцев А. И., Линейная алгебра, Гостехиздат, 1948.

В этих двух книгах читатель найдёт более подробное изложение самой теории линейных преобразований, причём во второй из них изложение сопровождается некоторым количеством задач, разбор которых способствует усвоению освещаемого в книге материала.

Л. Я. ОКУНЕВ

КОЛЬЦО МНОГОЧЛЕНОВ И ПОЛЕ РАЦИОНАЛЬНЫХ ФУНКЦИЙ

ГЛАВА I

КОЛЬЦО МНОГОЧЛЕНОВ ОТ ОДНОГО НЕИЗВЕСТНОГО

§ 1. Кольцо многочленов

В курсе элементарной алгебры понятия многочлена и рациональной функции (алгебраической дроби) играют существенную роль. В средней школе часто приходится иметь дело с такими выражениями, как, например,

и т. п. Возникает естественный вопрос: что понимать под этими выражениями, в каком смысле следует понимать равенство, сложение и умножение подобного рода выражений?

Обратимся, прежде всего, к конкретным примерам; они позволят нам лучше уяснить те трудности, с которыми связано обоснование понятий многочлена и алгебраической дроби.

Возьмем многочлен x'iJ^-x2. Этот многочлен можно рассматривать как функцию переменного х, определённую на множестве действительных или на множестве комплексных чисел. Однако такая функциональная точка зрения, характерная для математического анализа, в алгебре в ряде случаев оказывается неприемлемой. Обратимся хотя бы к целым числам; обозначим через 0 совокупность чётных и через 1 — совокупность нечётных чисел и рассмотрим конечное множество Я, состоящее только из двух элементов, а именно из 0 и 1. Установим во множестве Р операции сложения и умножения с помощью равенств

(1)

Определяя так операции сложения и умножения, мы руководствовались тем, что сумма двух четных чисел есть число чётное, сумма чётного и нечётного есть число нечётное, сумма двух

нечётных чисел есть число чётное, произведение двух чётных — чётное и т. п.

Предоставляем читателю самому проверить, что относительно введённых операций сложения и умножения множество Р образует поле1), причём 0 является нулём, а 1 — единицей поля.

Посмотрим теперь, что получится, если многочлен х?'-\-х2 рассматривать как функцию переменного х, определённую на множестве Р. Нетрудно заметить на основании равенств (1), что функция хг-\-х1 равна нулю на всём множестве Р. Следовательно,

Отсюда

и т. п.

Итак, рассматривая многочлены как функции, определённые на множестве Я, мы пришли к правилам обращения с многочленами, резко отличающимся от обычных.

В случае алгебраических дробей возникает ещё одно осложнение. Обратимся, например, к дробям

и будем их рассматривать как функции в области действительных чисел. Тогда f(x) и g(x) будут иметь различные области определения: функция f(x) определена для действительных значений х, отличных от 1, а функция g(x) определена для действительных значений лг, отличных от —1. Поэтому мы вынуждены рассматривать f(x) и g(x) как различные функции:

Точно так же

Таким образом, при изложении общей теории многочленов и алгебраических дробей целесообразнее отказаться от функциональной точки зрения, и мы соответствующие понятия будем вводить чисто алгебраически. Несколько ниже (в §§ 3, 11 и 12) мы установим, в каких случаях алгебраическая и функциональная точки зрения на многочлены и алгебраические дроби являются эквивалентными.

Своё изложение мы начнём с многочленов от одного х. Что касается многочленов от нескольких хи ... , хп и алгебраических

1) Определение кольца и поля, а также основные свойства кольца и поля см. Э. э. м., кн. 1, И. В. Проскуряков, Понятия множества, группы, кольца и поля. Теоретические основы арифметики.

дробей, то о них речь пойдёт лишь после изложения общей теории многочленов от одного х.

Понятие многочлена от х можно ввести следующим образом.

Пусть R — некоторое коммутативное кольцо с единицей е ф 0. Элементы кольца R мы будем обозначать начальными буквами а, cf ... латинского алфавита. Многочленом от х над кольцом R мы назовём выражение вида

(2)

где аХу а2> ... , as — элементы из R, kx<^k2<^ ... <^ks — целые неотрицательные числа, х° принимается равным единице е, а также принимается, что при любом целом неотрицательном к exk== = xke=xk.

Следует обратить внимание на то обстоятельство, что мы здесь X, X*, ... , ... , а также выражения агхр1, ... , a^s и знак соединяющий аххк^у ... , а^лЛ, рассматриваем как символы, которым не приписывается определённого значения. В соответствии с этим X будет называться неизвестным. В дальнейшем, после введения понятия равенства многочленов и действий сложения и умножения многочленов, мы придём ко вполне определённому истолкованию неизвестного х; символы хк совпадут со степенями х, а само выражение (2) будет восприниматься как сумма произведений этих степеней на элементы из кольца R.

Отметим, что элементы кольца R можно всегда рассматривать как многочлены над Rf а именно как многочлены вида ах°. Очевидно, что выражение ах?, где k — произвольное целое неотрицательное число, и, в частности, само неизвестное х являются также многочленами над R.

Элементы ах, а2, ... , asi входящие в выражение (2), обычно называются коэффициентами, a axxki, a2xk*, ... , a^s—членами многочлена (2). В частности, a^s называется старшим членом и as — старшим коэффициентом многочлена.

Для сокращения письма мы часто будем многочлены обозначать через f(x)y g(x)y h(x) и т. п.

Введём понятия равенства, суммы и произведения многочленов от X над кольцом R.

Пусть f(x) и g(x) — два произвольных многочлена над R. Эти многочлены мы считаем равными (тождественно равными) только тогда, когда многочлен f(x) состоит из тех же членов, что и многочлен g(x), кроме членов с коэффициентами, равными нулю (если такие члены имеются). Например, многочлены

равны. Напротив, многочлены

не равны, так как g(x) обладает членом xg, не входящим в состав членов f(x).

Из этого определения равенства многочленов вытекает, что мы можем всякий многочлен f(x) над R привести к виду

f(x) = a0-\-a1x-\- а2х* + +ал**

(п — целое неотрицательное число),

добавляя, в случае необходимости, члены с коэффициентами, равными нулю. В таком виде мы часто будем записывать многочлен.

Согласно определению равенства многочленов имеем, в частности, что многочлен f(x) равен нулю (т. е. нулевому элементу кольца R) лишь в том случае, когда все коэффициенты f(x) равны нулю. Таким образом, если многочлен f(x) не равен нулю, то по меньшей мере один из его коэффициентов должен быть отличен от нуля.

Обратимся теперь к действиям сложения и умножения многочленов. Пусть

— два произвольных многочлена над R. Под их суммой f(x)-\-g(x) мы будем подразумевать многочлен

где k есть наибольшее из чисел п и m, di = а£ -f- b£\ при этом если п^>т, то следует полагать: Ьт+1 = ... = Ьп = 0, а если п<^т> то следует полагать: ап+1 = ... = ат = 0.

Под произведением f{x)g{x) мы будем подразумевать многочлен

где at- = 0 при i^>n и bj — 0 при j^>m.

Посмотрим теперь, что вытекает из этих определений суммы и произведения многочленов над /?.

Обозначим через R [х] множество всех многочленов от х над кольцом R. Мы утверждаем, что введённые нами действия сложения и умножения подчиняются основным алгебраическим законам. Точнее, имеет место следующая

Теорема 1. Множество R[x] образует кольцо относительно сложения и умножения многочленов над R и притом кольцо коммутативное.

Доказательство. Очевидно, что, складывая или перемножая два каких-нибудь многочлена от неизвестного х с коэффициентами из R, мы всегда получаем однозначно многочлен от х с коэффи-

циентами из того же кольца R. Таким образом, сложение и умножение многочленов от х над R являются алгебраическими операциями, определёнными во множестве R [х].

Нетрудно, далее, проверить, что операции сложения и умножения многочленов из R [х] подчиняются переместительному, сочетательному и распределительному законам. Мы ограничимся выводом сочетательности умножения.

Умножим

/С*) g С*) = *о*о + (flo*i + я А) *+...+ апЬтх^

на многочлен

h (х) = с0 -f- CjA; -f- ... -j- ^л;*.

Согласно определению произведения многочленов получаем:

lf(x)g(x)]h(x) =

= aoVo + KVi + ao^ico + aiVo)^+ ••• +aAA**+w+/. (3)

С другой стороны,

g (X) h (X) = V0 + (Vi + V.) * + — +

откуда на основании того же определения произведения

f(x)[g(x)h(x)] =

= aoVo + (floVi+aoôico + ûiVo)^+ ••• +flnV/W/- (4)

Сравнивая коэффициенты многочленов (3) и (4) при одинаковых лг' и вспоминая определение равенства многочленов, видим, что

[f(x) g (X)] h (X) =/(*) [g (X) h (x)h

т. е. умножение многочленов над R подчиняется сочетательному закону1).

Наконец, нетрудно убедиться, что во множестве R [х] сложение всегда обратимо: для любых двух многочленов

/(х) = а0 + агх+ ... + ая*Л

из R [х] уравнение / (х) -f- г = g (х) всегда разрешимо в R[x].

В самом деле, легко проверить, пользуясь определением сложения многочленов, что при п — т

1) Существенную роль в доказательстве теоремы играет то обстоятельство, что R есть кольцо. Например, при проверке сочетательного закона для умножения многочленов мы опирались на сочетательный и распределительный законы сложения и умножения элементов кольца R.

Только что доказанная теорема позволяет сделать ряд заключений относительно многочленов над R. Отметим наиболее существенные.

1° Благодаря выполнимости сочетательного закона для операции сложения мы можем теперь многочлен

рассматривать как сумму его членов а{х?. При этом члены многочлена f(x) можно записывать в любом порядке следования, так как сложение подчиняется и переместительному закону. Например, мы могли бы многочлен /(лг) записывать также и в порядке убывания индексов коэффициентов:

2° Благодаря тому, что операция умножения подчиняется сочетательному закону, мы теперь можем символы х2, лг3, ... , х" рассматривать как степени неизвестного х, причём xsxt = xs+t. Каждый член а^лг* многочлена f(x) можно рассматривать как произведение элемента at кольца R на степень х1 неизвестного х. При этом в силу переместительности умножения aixi = xiai.

3° Произведение (axk)(bxl)y где а, Ъ — элементы кольца R, k и /—целые неотрицательные числа, равно abxk+l. Так как, сверх того, для операций сложения и умножения многочленов из R [х] имеет место распределительный закон, то f(x) и g(x) можно перемножать по обычному школьному правилу, состоящему в том, что каждый член многочлена f(x) умножается на каждый член многочлена g(x), в результате чего получаются выражения вида afijX^ составляется сумма всех таких выражений и, наконец, производится приведение подобных членов1).

4° Уравнение f(x) -\-z=g(x)J где f(x) и g(x) — произвольные многочлены из R [х], имеет на основании известного свойства кольца единственное решение. Это единственное решение z будет

1) Законность приведения подобных членов основана па том, что операция сложения многочленов из R [х] подчиняется переместительному и сочетательному законам и что сложение и умножение многочленов из R [х] связаны распределительным законом.

обозначаться через g(x)—f(x) и называться разностью многочленов g(x) и /(лг). В частности, имеем

/(*)_/(*)=0, 0 -/(*)=—/(*).

где—f(x)—многочлен, противоположный /(лг), т. е. такой многочлен, сумма которого с многочленом f(x) равна нулю.

Поскольку множество R [х] образует кольцо относительно сложения и умножения многочленов над R, мы будем R [х] называть кольцом многочленов от х над R.

До сих пор неизвестное х рассматривалось как чистый символ. Теперь мы можем дать неизвестному х некоторое истолкование. Для этой цели введём понятия подкольца, расширения кольца и трансцендентного элемента.

Пусть К—произвольное кольцо (коммутативное или некоммутативное— безразлично). Если некоторая часть К элементов кольца К образует в свою очередь кольцо относительно тех же самых операций -|- и •, то мы эту часть назовём подкольцом кольца К, а само К—расширением кольца К.

Например, кольцо чётных чисел является подкольцом кольца целых чисел, а кольцо целых чисел — расширением кольца чётных чисел. Другим примером может служить кольцо многочленов R [х]: оно является расширением кольца R.

Будем и в дальнейшем через R обозначать коммутативное кольцо с единицей ефО. Пусть Q — некоторое коммутативное расширение кольца R, обладающее той же самой единицей еу что и R. Элемент 6 из 2 мы назовём трансцендентным относительно R, если для любого целого неотрицательного п равенство

где а0, alt ... , ап — элементы из R, возможно лишь в том случае, когда а0 = аг= ... =ап — 0.

Из этого определения видно, что трансцендентный элемент 8 является по отношению к кольцу R внешним элементом: он не может лежать в R. В самом деле, если бы 0 лежало в R, то 6 = с, где а — некоторый элемент кольца R, т. е. мы имели бы равенство 6 — а = 0 с коэффициентом е ф 0, что противоречит трансцендентности 6.

Исторически первым примером трансцендентных элементов были так называемые трансцендентные числа, т. е. комплексные числа, трансцендентные относительно кольца целых чисел. Впервые существование трансцендентных чисел было установлено Лиувиллем в 1851 г. В 1873 г. Эрмитом была обнаружена трансцендентность числа е> основания натуральных логарифмов. В 1882 г. Линдеман показал, что и число тс, отношение длины окружности к диаметру,— также трансцендентно. Дальнейший существенный шаг вперёд в развитии теории трансцендентных чисел был сделан советским

учёным А. О. Гельфондом в 1929—1936 гг., установившим трансцендентность одного замечательного класса чисел1).

Возникает вопрос, существует ли для всякого кольца R трансцендентный элемент. Ответ на этот вопрос даёт следующая

Теорема 2 (о существовании трансцендентного элемента). Для всякого коммутативного кольца R с единицей ефО существует коммутативное расширение Q с той же самой единицей е, содержащее по меньшей мере один элемент, трансцендентный относительно R.

Мы опускаем доказательство этой теоремы2).

Обозначим через R [б] множество элементов расширения Q кольца /?, имеющих вид а^-\-ахЬ-\- . .. -\-апЪп (п — произвольное целое неотрицательное число), где 6 — попрежнему элемент из Q, трансцендентный относительно /?, а а0, аи ... , ап — произвольные элементы из R.

Можно показать, что операции сложения и умножения элементов кольца S являются алгебраическими операциями и для R [б]. В самом деле, пусть

и предположим для определённости, что

Обратимся к сумме ос —|— ß:

(5)

В О, как и во всяком кольце, сложение подчиняется сочетательному и переместительному законам. Следовательно, в правой части равенства (5) можно раскрыть скобки и сгруппировать слагаемые с одинаковыми степенями б. В результате мы получим:

или на основании распределительного закона:

1) Более полные сведения о трансцендентных числах см. Э. э. м., кн. 1, А. Я- Хинчин, Элементы теории чисел.

2) Соответствующее доказательство см. в кн. И. В Проскурякова [6] на стр. 239—240, а также в книге Л. Я. Окунева [4] на стр, 330. Отметим попутно, что в теореме 2 говорится лишь о существовании расширения Q, содержащего по меньшей мере один трансцендентный элемент, но ничего не говорится о природе такого расширения. Поэтому было бы ошибочным предполагать, что из теоремы 2 вытекает существование трансцендентных чисел.

3) Если п = т, то члены am+l^m+lf ... f апЪп отпадают.

Ho a0 + b0, at-\-bl9 ... , am + bm9 am+l9 ... , an суть элементы R. Следовательно, a —)- ß есть элемент множества R\ß].

Подобным же образом убеждаемся, что aß есть также элемент R [6] (здесь, кроме переместительности и сочетательности сложения и распределительного закона, придётся воспользоваться сочетательностью и переместительностью умножения элементов кольца Q).

Но ещё существеннее следующее обстоятельство.

Теорема 3. Множество R[b] и кольцо многочленов R[x] изоморфны.

Доказательство. Поставим в соответствие каждому многочлену f(x) = a0-{-a1x-\- ... -\-апх^ из R [х] элемент а = а0-\--j-ajG-j- ... -\-апЬп из R[b] с теми же самыми а0, а1у ... , ап, что и у многочлена f(x):

(6)

(-> — знак соответствия).

Мы сейчас покажем, что соответствие (6) является изоморфизмом между R [х] и R [8].

Прежде всего нетрудно убедиться, что соответствие (6) не только однозначно, но и взаимно однозначно. Для этой цели возьмём из R [х] ещё один многочлен

Тогда

Если a = ß, то a — (3 = 0. Но

Отсюда, опираясь на основные алгебраические свойства операций, имеющие место во всяком коммутативном кольце и, в частности, в кольце 2, получаем, что при п = т

Так как 6 трансцендентно относительно Ry то получается, что при п = т

при п<^т

Мы видим отсюда, что f(x)=g(x).

Для завершения доказательства теоремы остаётся показать, что сумме и произведению любых двух многочленов из R [х] соответствуют сумма и произведение соответствующих элементов из R [6].

Пусть, например,

f(x)=a0 + alx+ ... +апхп, g(x)=b0 + b1x+ ...+Ьтхт и п^т.

Тогда согласно определению сложения многочленов из R [х] f(x) + g(x) = c0 + c1x+ ... +спхп,

где ci = ai-\-bb причём при п^>т коэффициенты bm^t9 ... , &Л следует считать равными нулю. Этому многочлену f(x)-\-g{x) мы должны поставить в соответствие

т=с0 + с,е+... +с„е\

Но

Следовательно,

Аналогичным образом обнаруживается, что

Теорема доказана.

Из изоморфизма кольца многочленов R [х] с множеством R [6] вытекает, что R [6] есть также кольцо. Тем самым R [8] есть расширение кольца R, содержащее элемент 6, и в то же время R [6] есть подкольцо кольца Q. Оказывается, что R [6] является минимальным в следующем смысле: никакое подкольцо кольца R [6], отличное от R [6] и являющееся расширением R, уже не может содержать элемента 8.

В самом деле, пусть 5—некоторое подкольцо кольца R [в], содержащее элемент 6 и являющееся расширением R. Тогда, очевидно, 5 будет содержать не только 6, но и любую целую неотрицательную степень 8fe элемента 6. Так как 5 является расширением /?, то 5 должно содержать произвольный элемент а кольца /?, а потому должно содержать и а№. Отсюда 5 должно содержать, и всевозможные элементы вида

где п — произвольное целое неотрицательное число, а0, аи ... , ап— произвольные элементы из /?. Таким образом, 5 должно совпадать с R [8], и минимальность R [8] становится очевидной.

Изоморфизм кольца многочленов R [х] с кольцом R [8] даёт нам право считать R [х] и R [6] неразличимыми с точки зрения их алгебраических свойств относительно операций сложения и умножения, а само X рассматривать как элемент, трансцендентный относительно R. Таково истолкование неизвестного х.

Введём теперь понятие степени многочлена от неизвестного х. Возьмём из R [х] произвольный многочлен, не равный нулю. В таком многочлене по меньшей мере один коэффициент должен быть отличен от нуля. Назовём степенью этого многочлена наибольшую из степеней его членов, у которых коэффициенты не равны нулю.

Например,

f(x) = l -f 2x-f3.*r2-f0 . хг + 2х*-\-0 • л;5

есть многочлен от х четвёртой степени над кольцом целых чисел.

Если степень многочлена f(x) равна пу то, очевидно, мы его можем всегда записать в виде

или в виде

/(*) = + an_lX»-1 + ... + а,

со старшим коэффициентом ап, отличным от нуля, так как члены, содержащие х в степени выше /z-й, равны нулю, и мы их можем отбросить.

Всякий элемент а ф О кольца R можно рассматривать как многочлен нулевой степени от неизвестного ху потому что а = ах°. Что касается нуля кольца /?, то мы его будем рассматривать как многочлен, не имеющий степени.

Понятие степени позволяет весьма просто выразить условие равенства двух многочленов от х. А именно, если

/(*) = a0 + ûi*+ ... (апфО)

и

g(x)=bQ + btx+ ... +Ьт^ (ЬтфО)

— два многочлена из R [х] соответственно степени п и т9 то эти многочлены равны лишь в том и только в том случае, когда их степени равны и равны их коэффициенты при одинаковых степенях неизвестного:

n — m, a0 = b0, al = bl, an = bn.

Что касается многочлена, равного нулю, то, как мы знаем, все коэффициенты такого многочлена должны быть равны нулю.

Из определения операции сложения многочленов от х легко усмотреть, что степень суммы f(x) -\-g(x) не превосходит степени

каждого из слагаемых/(лг) ug(x); она может оказаться и ниже степеней f(x) и g(x). Например, если

f(x) = 2x*-\-x2-\-x— 1, g(x) = — 2хъ — х2 + 5х + б,

то

/И+ = 6*+5

будет уже многочленом первой степени.

С первого взгляда на равенство (А) (см. стр. 132) может показаться, что степень произведения многочленов f(x) и g(x) равна сумме их степеней. Но это заключение в случае произвольного кольца R ошибочно. Дело в том, что существуют кольца R с делителями нуля, т. е. кольца, в которых произведение элементов может равняться нулю и в том случае, когда сомножители отличны от нуля: ab = 0 и при а^О, ЬфО. Такие элементы афО и ЬфО, как известно, называются делителями нуля.

Одним из простейших примеров кольца с делителями нуля может служить множество всех матриц второго порядка

с действительными элементами ап, а12, a2i» а22- Нетрудно убедиться, что это множество образует кольцо относительно сложения и умножения матриц1). Вместе с тем легко видеть, что в этом кольце роль нуля играет нулевая матрица второго порядка, т. е. матрица

все элементы которой равны нулю. Возьмём теперь следующие две матрицы:

Эти матрицы отличны от нуля, так как каждая из них содержит в качестве элемента число 1, не равное нулю. Однако их произведение согласно правилу перемножения матриц будет равно нулю, т. е. будет нулевой матрицей.

Таким образом, если кольцо R обладает делителями нуля и

1) О действиях над матрицами см. в § 21 статьи А. И. Узкова «Векторные пространства и линейные преобразования».

— многочлен т-й степени над Rf причём старшие коэффициенты ап и Ьт являются делителями нуля: апЬт = 0, то степень произведения f{x)g(x) будет уже меньше п-\-т, так как член апЬтхп + т равен нулю. Но если хотя бы один из старших коэффициентов ап или Ьт не является делителем нуля, то степень произведения f(x)g(x) будет в точности равна сумме степеней п-\-т сомножителей.

В случае если R — область целостности (т. е. кольцо без делителей нуля) и, в частности, поле1), то степень произведения f(x)g(x) многочленов f(x) и g(x) над R всегда равна сумме степеней сомножителей.

Отметим ещё одно существенное свойство многочленов от х над областью целостности R.

Теорема 4. Если кольцо R является областью целостности, то кольцо многочленов R [х] также является областью целостности.

Доказательство. Пусть f(x) и g(x) — два многочлена из /?[лг], не равные нулю. Эти многочлены должны иметь вполне определённую степень. Пусть степень f(x) равна п, а степень g(x) равна т. Тогда степень произведения f(x)g(x) будет равна п-\-т, так как R по условию есть область целостности. Мы видим, что произведение f(x)g(x) имеет вполне определённую степень, в силу чего f(x)g(x) ф 0. Итак, в кольце R [х] не существует делителей нуля; кольцо R [x]t следовательно, есть область целостности.

В заключение введём понятие значения многочлена от неизвестного X над R. Оно будет играть немаловажную роль.

Пусть

/(х)=а0-\-агх-\-...-{-апх?

— произвольный многочлен из R [х]. Заменим в нём неизвестное X каким-нибудь элементом с кольца R. Мы получим элемент того же кольца R следующего вида:

d = a0 + a1c-{-...-)-ancn.

Этот элемент d называется значением многочлена f(x) при значении неизвестного х = с и обозначается через /(с). Подчёркиваем, что под значением неизвестного х мы всегда будем подразумевать тот или иной элемент кольца R.

Очевидно, что если f(x) = g(x), то f(c)=g(c) для любого с из R. Обратное утверждение вообще неверно: мы знаем, что многочлены f(x) и g(x) над конечным кольцом могут быть и не равны, и тем не менее f(c) будет равно g (с) для любого с из R (см. хотя бы пример, приведённый на стр. 129). Впрочем, в § 3 мы увидим,

1) Что поле не содержит делителей нуля, можно убедиться следующим образом. Пусть ab = 0 и афЪ. Тогда ö-1ö^ = 0 или £ = 0, так как сг1а = е — единица поля.

что для частного случая, когда R является бесконечной областью целостности1), обратное утверждение верно, и мы увидим, что для таких колец функциональная точка зрения на многочлен является оправданной. Это обстоятельство играет важную роль при изучении свойств многочленов над полем действительных и над полем комплексных чисел.

Нетрудно проверить, что если

то

f(c) + g(c) = h(c), f(c)g(c) = k(c). (7)

Мы ограничимся проверкой первого равенства (7).

Пусть, например, степень многочлена f(x) больше или равна степени многочлена g(x):

f(x) = а0 + atx+... + dnX* (ап ф 0),

g (X)=b0 + bxx +... + bm^ (bm ф 0)

и m^n. Тогда

h (x) = c0 + ctx -f... + спх^у

где Ci = at-\-bif причём в случае n^>m надо считать bm+vbn равными нулю. Найдём, чему равно h (с);

h(c) = с0 + Clc + ... + спсп.

Пользуясь переместительным, сочетательным и распределительным законами, имеющими место в /?, мы можем последнее равенство преобразовать в следующее:

А (с) = (а, + а,с +... + а„Ся) + + *,с +... + Ьтст),

т. е. получилось, что

А(с)=/(с)+*(с).

Подобным же образом проверяется и второе соотношение (7).

§ 2. Свойства делимости многочленов от одного неизвестного

Большой интерес в алгебре представляет кольцо многочленов с коэффициентами из того или другого поля; в этом случае наблюдается далеко идущая аналогия между свойствами делимости многочленов и свойствами делимости целых чисел. В настоящем параграфе мы изложим в основных чертах теорию делимости

1) To-есть областью целостности, состоящей из бесконечного множества элементов.

многочленов над произвольным полем Р. Единицу поля Р мы будем обозначать через 1.

Ещё в определении поля под делением подразумевалось нахождение корня уравнения ах = Ь. Назовём в соответствии с этим многочлен fix) из кольца Р[х] делящимся на многочлен g(x)^0 из того же кольца Р[х], если уравнение g(x) X=f(x) разрешимо в Р[х]. Иными словами, многочлен fix) делится на многочлен g(x), если в том же кольце существует такой третий многочлен q (X), что f(x) = g (х) q (х).

Не следует думать, однако, что в кольце многочленов Р[х] деление всегда выполнимо. Возьмём хотя бы многочлены f(x)=x-\- 1 и g(x) = x2-f-1- Легко видеть, что fix) не делится на g(x). В самом деле, если бы fix) делилось на g(x), то в Р[х] нашёлся бы многочлен q (лг), для которого имело бы место равенство

x+l=(x*+l)q(x).

Но это равенство невозможно, так как степень произведения (х7,-\-\ ) q (х) выше степени лг-f-l. Таким образом, Р[х], подобно множеству целых чисел, есть область целостности, но не поле. Отметим, прежде всего, простейшие свойства делимости многочленов.

1°. Всякий многочлен fix) ф О из Р[х] делится на самого себя.

Действительно, мы можем написать очевидное равенство

/(*)=/(*). 1,

а единицу 1 поля Р можно рассматривать как многочлен нулевой степени из Р[х].

2°. Если fix) и g(x)—многочлены из Р[х], и f(x) делится на g(x), a g(x) делится на f(x), то многочлены fix) и g(x) отличаются друг от друга лишь множителем нулевой степени'.

f(x) = cg(x) (с^О),

где с — некоторый элемент из поля Р.

В самом деле, так как f(x) делится на g(x), a g(x) делится на f(x), то по определению делимости мы можем написать, что

0*0Ях (■*)• g(x)=f{x)q2(x).

Подставляя выражение g(x) из второго равенства в первое, получаем:

f(x)=f(x)qi (x)q2(x)t или, сокращая на f(x)1):

1) Законность такого сокращения основана на том, что Р [х] есть область целостности. В самом деле, если в некоторой области целостности имеет место равенство ас = Ьс (или са = сЬ), причём сф0, то ас — Ьс=.0 или (а — Ь) с = 0. Отсюда, учитывая, что сфО и что кольцо не содержит делителей нуля, получаем: а — £ = 0, а = Ь.

В левой части последнего равенства находится 1, т. е. многочлен нулевой степени. Следовательно, для обеспечения равенства необходимо, чтобы произведение qi(x)q2(x) было также многочленом нулевой степени, а это возможно лишь тогда, когда степени самих сомножителей ql (х) и q2(x) равны нулю. Таким образом, qî(x) — cf q2 (х) = d, где с и d — элементы поля Я, отличные от нуля. Отсюда f(x) = c g(x), что и требовалось доказать.

В дальнейшем мы будем два многочлена, отличающихся друг от друга множителем нулевой степени, называть многочленами, совпадающими с точностью до множителя нулевой степени.

3°. Если два многочлена ft (х) и /2 (х) из Р [х] делятся на третий многочлен g(x) из Р[х], то их сумма fi(x)-\-f2(x) и разность /, (х) — /2 (х) делятся на g (х).

Доказательство проводится сходным образом. А именно, по определению делимости можно написать, что

где qi(x) и q2 (х) — некоторые многочлены из Р[х]. Складывая и вычитая почленно оба эти равенства, получаем:

fi(x)±M*)=g(x)q(x),

где q (х) = qx (х) ± q2 (х) — многочлен из того же кольца Р[х]. Мы видим отсюда, что fx (х) ± /2 (х) делится на g(x).

Свойство 3° (делимость) можно обобщить следующим образом:

4°. Если многочлены ft (х), /2 (х), ..., fk(x) из Р [х] делятся на многочлен g(x) из Р[х], то cjx (х) -f- с2/2 (х) ... -|- ckfk (х), где сь — произвольные элементы поля Р, делится на g (х). Доказательство этого свойства сходно с доказательством свойства 3°.

5°. Если fi{x), f2(x), f3(x)t fk(x)—многочлены из Р[х] и ft (х) делится на многочлен g (х) из Р [х], то произведение fx (х) Л (х) /з (х) • • • Л (х) делится на g (х).

В самом деле, если fx (х) делится на g (лг), то

fi(*)=g(x)Çi(x)> (1)

где qi(x) — некоторый многочлен из Р[х]. Умножая обе части равенства (1) на fi(x)fz(x)...fk(x), получаем:

Л (•*)/« И ■ • -Л (X)=g(x) q (X),

где q (х) = qx (х)/2 (х)... Д (х) — также многочлен из Р [х]. Следовательно, fi(x)fb(x)...fk(x) делится на g(x).

6°. Если f(x), g(x) и h(x)—многочлены из Р[х] и f(x) делится на g(x), a g(x) делится на h(x), то f(x) делится на h{x).

Для доказательства опять обращаемся к определению делимости многочленов. Пишем:

где Çi(x) и q,2(x)— некоторые многочлены из Р[х\. Подставляя выражения g(x) из второго равенства в первое, получаем:

f(x) = h(x)q(x),

где ç(x) = q1(x)qi(x)— многочлен из Р[х], т. е. /(х) делится на h(x).

Наконец, следует указать ещё одно свойство.

7°. Многочлены нулевой степени из Р [х] являются делителями любого многочлена f(x) из Р[х].

Действительно, если с ф О— элемент поля Р и

— какой-нибудь многочлен из Р[х], то, очевидно,

где

есть снова многочлен из Р[х].

В кольце целых чисел имеют место аналогичные свойства делимости. При этом числа 1 и — 1 играют роль, сходную с ролью многочленов нулевой степени. А именно, если целое число а делится на целое число b, a b делится на а, то числа а и b отличаются друг от друга лишь множителем ±1- Далее, всякое целое число а делится на dbl.

Делимость одного многочлена на другой можно обнаружить с помощью процесса, хорошо известного читателю из элементарной алгебры. Мы имеем в виду так называемый алгорифм деления с остатком. Но этот процесс нуждается в обосновании, так как заранее не очевидно, что он должен иметь место для любого поля Р. Такое обоснование будет дано при доказательстве следующей теоремы:

Теорема 5 (о делении с остатком). Для любых двух многочленов f(x) и g(x)^0 из Р[х] существует такая единственная пара многочленов q (х) и г(х) из того же кольца Р[х\, что

f(x)=g(x)q(x) + r(x) (2)

и при г(х)^0 степень г(х) меньше степени g(x).

Замечание. Обычно многочлен q(х) называется частным, а многочлен г(х) — остатком от деления f(x) на g(x).

Доказательство. Пусть

Если п <^ ту то равенство (2) будет удовлетворяться при q (х) — О, r(x)=f(x).

Если п^т, то действуем следующим образом. Вычитаем из f(x) многочлен g(x), умноженный иа^-хп-т:

В результате старший член а0хп многочлена f(x) уничтожится и степень f(x) понизится:

Если степень ft (х) больше или равна степени g (х), то мы снова повторяем процесс понижения степени:

и т. д. Так как степени я, п19 щ,... не могут убывать безгранично, то в конце концов мы придем к многочлену r(x), у которого степень будет ниже степени g(x). Таким образом,

Складывая эти равенства почленно, мы после очевидных упрощений получим:

или где

Коэффициенты многочленов q(x) и г(х) будут при этом принадлежать полю Я, так как мы их получили с помощью операций сложения, вычитания, умножения и деления, не выводящих за пределы поля.

Для завершения доказательства остаётся убедиться, что частное и остаток определяются единственным образом.

Пусть, кроме q(x) и г(х), существует частное дх(х) и остаток гх(х). Тогда

f(x)=g(x)qi(x) + rt(x). (3)

Из равенств (2) и (3) следует, что

g M Ç(*) + r (X) =g(x)q1 (X) + Г, (*)

или

g (X) [q (X) - qt (X)] = r, (X) —r(x). (4)

Если q (x) ф qx (x), то q (x) — qx (x) ф О, вследствие чего и ri(x) — г(х)ф0. Но тогда мы приходим к абсурду—в правой части равенства (4) находится разность rt(x) — г (х) со степенью, меньшей, чем т9 так как степени гг(х) и г(х) меньше т; в левой же части того же равенства мы имеем произведение g(x)[q(x) — — Çi(x)] со степенью не ниже т. Следовательно, q (x) = qx(x) и r(x)=rt(x).

Процесс, с помощью которого мы получили в только что изложенном доказательстве частное и остаток, является не чем иным, как правилом деления расположенных многочленов, известным ещё из школьного курса алгебры. Таким образом, доказывая теорему 5, мы попутно дали и обоснование этого правила.

С некоторым ограничением теорему 5 можно распространить и на случай произвольного коммутативного кольца R с единицей е ф 0. А именно, справедлива следующая

Теорема 6. Если R — коммутативное кольцо с единицей ефЪ, f(x) и g(x) ф 0 — два многочлена из R [х], причём старший коэффициент g(x) равен единице, то существует такая единственная пара многочленов q(x) и г (х) из того же кольца R [х], что

f(x)=g(x)q(x) + r(x)

и при г(х)ф0 степень г (х) меньше степени g (х).

Доказательство ничем существенным не отличается от доказательства теоремы 5, и самый процесс нахождения частного и остатка здесь проще в том отношении, что вместо хп"т, xni~т и т. д. берутся в качестве множителей при g(x) выражения а0хп—т9 а[хпг~т,... При доказательстве единственности частного и остатка надо учесть, что единица е кольца R не может быть делителем нуля1), в силу чего степень произведения g(x) [q (x) — qx (x)] должна быть в точности равна сумме степеней g(x) и q (х) — qt (х).

Алгорифм деления с остатком позволяет обнаружить, делится ли данный многочлен f(x) из Р[х] на многочлен g(x) из Р[х] или

1) Если бы единица е была делителем нуля, то существовало бы такое афЪ, что ае^ЬО. Но это противоречит равенству ае = аф0.

не делится. Именно, f(x) делится на g(x) тогда и только тогда, когда остаток г(х) от деления f(x) на g(x) равен нулю.

Действительно, если остаток г(х) равен нулю, то равенство (2) превращается в

/(*)== *(*)?(*).

откуда ясно, что f{x) делится на g(x). Обратно, если f(x) делится на g{x)y то

f{x)=g(x)q(x),

где q(x) — некоторый многочлен из Р[х]. Отсюда в силу единственности остатка и частного следует, что остаток г(х) равен нулю.

Благодаря этой связи делимости с равенством нулю остатка получается, что делимость многочлена f(x) на многочлен g(x) не зависит от того, над каким полем рассматриваются многочлены f(x) и g(x)- В самом деле, будем ли мы рассматривать поле Р или более обширное поле, содержащее Р как часть, мы получим при делении f{x) на g(x) одни и те же частное и остаток.

Роль алгорифма деления с остатком этим, однако, не исчерпывается. Мы сейчас увидим, что на основании теоремы о делении с остатком можно провести дальнейший параллелизм между теорией делимости целых чисел и теорией делимости многочленов. К тому же в кольце целых чисел, как известно, имеет место теорема, аналогичная теореме 5.

Пусть f(x) и g(x) — два каких-нибудь многочлена из Р[х]. Назовём третий многочлен d(x) из того же кольца Р(х) общим делителем f(x) и g(x)t если d(x) делит как f(x), так и g(x). В частности, общий делитель D(x) называется наибольшим, если D (х) делится на всякий общий делитель d (х) многочленов f(x) и g (х).

Мы покажем, что для любых двух многочленов f(x) и g(x) из Р[х] наибольший общий делитель существует, а именно укажем вполне определённый способ, позволяющий находить наибольший общий делитель для каких угодно многочленов f(x) и g(x)^0 из Р[х]. Этот способ, известный под названием алгорифма Евклида, заключается в следующем. Пусть степень f(x) не ниже степени g(x). Тогда делим f(x) на g(x); остаток и частное, полученные при делении, обозначим, соответственно, через гх (х) и qx (х). Затем делим g(x) на остаток гх (х); в результате получатся второй остаток г2(х) и частное q^(x) и т. д. Вообще каждый раз делится предыдущий остаток на последующий. Степени получающихся при этом процессе остатков г1 (лг), г2 (х), ... будут, очевидно, всё время убывать. Но целые неотрицательные числа не могут убывать неограниченно. Следовательно, этот процесс деления не может быть бесконечным— в конце концов мы должны притти к остатку rk(x), на который нацело разделится предыдущий остаток rk_t (х). Покажем,

что этот последний остаток rk(x) и будет наибольшим общим делителем многочленов f(x) и g(x).

Запишем весь процесс деления следующим образом:

(5)

Прежде всего покажем, что rk(x) есть общий делитель многочленов /(лг) и g(x). Обратимся к предпоследнему равенству системы равенств (5):

Гн-ч (*) = V, (X) qk (X) + rk (х).

Его правая часть делится на rk (х), так как rk_x (х) делится на rk(x), a rk(x) делится на самого себя. Следовательно, левая часть также делится на rk(x), т. е. rk_2(x) делится на rk(x). Обращаемся, далее, к вышележащему равенству

'к-* О*) — rk-2 С*) Çk-1 G*) + (•*)-

Здесь rk_2 (x) и rk_i (x) делятся на rk (x), откуда ясно, что вся правая часть делится на rk{x). Следовательно, на rk(x) делится и левая часть, т. е. rk_z(x) делится на rk(x). Двигаясь таким образом постепенно вверх, мы, наконец, дойдём до многочленов g(x) и f(x) и убедимся, что g(x) и /(лг) делятся на rk(x).

Теперь остаётся показать, что rk(x) есть наибольший общий делитель. Для этой цели обратимся к первому равенству

f(x)=g(x)qi(x) + rl(x)

и посмотрим, что получается относительно некоторого общего делителя d(x). Так как f(x) и g(x) делятся на d(x)> то разность /(лг)—g(x)qi(x) = rt(x) должна делиться на d(x). Точно так же, рассматривая второе из равенств системы (5)

g С*) = П (x) q2 (x) + г2 (лг),

находим, что г2(лг) делится на d(x) и т. д. Так, опускаясь постепенно вниз, мы, наконец, дойдём до rk(x) и убедимся, что rk(x) делится на d(x). Иными словами, мы обнаружим, что rk(x) есть наибольший общий делитель многочленов f(x) и g(x).

Нетрудно убедиться, что наибольший общий делитель многочленов f (х) и g (лг) является единственным с точностью до множителя нулевой степени.

В самом деле, если Dx(x) и D2(x) — два наибольших общих делителя многочленов /(лг) и g(x), то по определению наибольшего общего делителя Dx (лг) должно делиться на D2 (х) и D2 (х) должно

делиться на Dx (х), откуда по свойству 2° делимости D2(x) = cDt (дг), что и требовалось показать.

Наибольший общий делитель f(x) и g(x) может оказаться многочленом нулевой степени. В этом случае f(x) и g(x) называются взаимно простыми многочленами.

Как и в случае целых чисел, условимся наибольший общий делитель многочленов f(x) и g(x) обозначать для сокращения письма символом (f(x), g(x)).

Пример 1. Найти наибольший общий делитель многочленов

/ (х) = 2лгв — Злг4 — Ъхъ + л:2 + 6х + 3, g (х) = Зх1 + 2лг3 — гх* — 5х — 2

над полем рациональных чисел. Чтобы избежать дробных коэффициентов, умножим предварительно f(x) на 3:

Теперь, чтобы избежать дробных коэффициентов, умножим полученную разность на 3. Этим мы, правда, исказим частное, но остаток определится с точностью до множителя нулевой степени. Итак, продолжаем вычисления:

Таким образом, мы нашли с точностью до множителя нулевой степени остаток

rt (x) = xz — X— 1

от деления f(x) на g(x). Теперь надо g(x) делить на гх(х). Читатель может сам без труда убедиться, что g(x) делится без остатка на Тх (х). Следовательно,

хъ — X— 1

и есть наибольший общий делитель многочленов f(x) и g(x).

Так как алгорифм Евклида сводится к последовательному применению алгорифма деления с остатком, то можно высказать следующее важное заключение: наибольший общий делитель D (х) многочленов f{x) и g(x), найденный с помощью алгорифма Евклида, не зависит от того, будем ли мы рассматривать f(x) и g(x) над полем Р или над более обширным полем Р\

Так, в только что разобранном примере мы нашли, что наибольший общий делитель многочленов

f(x) = 2хъ — Злг4 — 5х* + X2 + 6^ + 3,

g (X) = Зхк + 2хг — Sx2 — 5х— 2

над полем рациональных чисел равен xz — х—1. Но эти же многочлены и над полем действительных чисел будут иметь хъ — х—1 наибольшим общим делителем.

Для нескольких многочленов fx (лг), /2 (.хг), ... , fk (х) из Р [х] общий делитель и наибольший общий делитель определяются аналогичным образом. Именно, многочлен d(x) из Р[х] называется общим делителем ft (х)> /2 (х), ... , fk (x)t если каждый из многочленов /, (х), /2 (х), ... , fk (х) делится на d (х). Общий делитель D(x) называется наибольшим, если D(x) делится на всякий общий делитель многочленов fx (х), /2 (х), ... , fk (х).

Разыскание наибольшего общего делителя нескольких многочленов можно свести к нахождению наибольшего общего делителя двух многочленов. В самом деле, пусть Dx (х) — наибольший общий делитель k — 1 многочленов fx(х), /2(х), ... f fk_x(х). Легко убедиться, что если D (х) — наибольший общий делитель Dx (х) и fk (х), то это D (х) будет вместе с тем и наибольшим общим делителем всех k многочленов fx (х), ... , Д (х).

Повторяя дословно те же рассуждения, что и выше, можно убедиться в единственности наибольшего общего делителя нескольких многочленов (с точностью до множителя нулевой степени).

Исходя из алгорифма Евклида, можно получить ряд выводов. Отметим наиболее существенное.

Теорема 7. Если D(х) — наибольший общий делитель многочленов f(x) и g(x) из Р[х], то в том же самом кольце Р[х] можно подобрать такую пару многочленов ср(х) и <j>(je), что

f (X) 9{x) + g (X) ty(x) — D (X). (6)

Доказательство. Возьмём предпоследнее равенство (5) и перенесём rk_x (х) qk (х) в левую часть. Тогда, принимая во внимание, что rk (х) = D (лг), получаем:

h-i (х) — rk_x (X) qk (х) = D (x). (7)

Затем из равенства

rfe_3 (X) = rft_2 (X) qk_x (X) -f rÄ_, (X)

определяем rkmmX (х)

rk-i M = гк_ъ (x) — rk_2 (x) qk_x (x)

и подставляем это значение rk_x(x) в (7). Получим:

r*-S С*)11 + 9k G*) ft-i (*)] — h_z (x) qk (x) = D (x)

или

rk-2 С*) ?i С*) + rM W W = D (*), (8)

где

9l (*) = 1 + ft (ЛГ) ft., (*), ф, (*) = — ft (*).

Далее, из равенства

rk-i (х) = ГА_з (Х) ft__2 (*) + rÄ_2 (X)

определяем rk_2(x) и подставляем в (8). Получим:

>а-з И ?2 О*) + ^-4 W (*) = ° И

и т. д., пока не получится равенство

/ С*) ?м И+г С*) Ф* -2 С*)=о (*),

т. е. равенство (6) с y(x) = q>k_2(x) и ф (лг) = фА_2 (л;).

В частности, когда многочлены f(x) и £•(•*•) взаимно просты, равенство (6) принимает вид

/(*)9(х)+е(хЦ(х) = с (с Ф 0).

Мы можем с положить равным 1, так как обе части последнего равенства можно разделить на с и в качестве ср(х) и <|>(лг) рассматривать, соответственно,

Таким образом, если многочлены f(x) и g(x) взаимно просты, то в том же кольце Р[х] можно подобрать такую пару многочленов 9(лг) и ^(лг), что

/Мф(*)+*(*Ж*)=1. (6*)

Пример 2. Для многочленов

над полем рациональных чисел подобрать многочлены ср(х) и ty(x) над тем же полем так, чтобы

f(x)<p(x)+g(x))(x)=D(x).

Здесь существенное значение имеют не только остатки, но и частные, получаемые в процессе последовательного деления; поэтому необходимо каждый раз учитывать производимое сокращение или умножение на число. С данными многочленами f(x) и g(x) мы уже имели дело в примере 1. Учитывая умножение f(x) на 3, а также умножение на 3 многочлена — 1 3jc4 — 9хг + 1 Злг2 -|- 22лг -j- 9, мы

можем соответствующие результаты вычислений, полученные в предыдущем примере, записать коротко в виде равенств:

3f(x) = g (х). 2х + (— 1 Злг4 — 9лг3 + 1 Зх2 + 22л; + 9), (9)

3(— 1 Злг4 — 9лг3 + 1 Злг2 + 22х + 9) =g (х) • (— 13) — гх (х), (10) где

гх (х) = х% — x— 1.

Мы знаем из предыдущего примера, что тх (х) есть наибольший общий делитель многочленов f(x) и g(x), т. е. тх (х) = D (х).

Умножим обе части равенства (9) на 3 и затем подставим значение

3 (— 1З*4 — 9лг3 + 1 Зх* + 22лг -J- 9) из равенства (10). Получаем:

9/(*)=*(■*) • te + g(x) • (- 13) —Г! (х)9

или

9f(x)=g(x)(6x— 13) — D (х).

Отсюда

/ (x) • (- 9) + g (x) ■ (6х - 13) = D (x), т. е. мы нашли, что

ср(х) = —9, ty(x) = 6x—13.

Пользуясь равенством (6*), можно без труда получить ряд свойств взаимно простых многочленов, аналогичных свойствам взаимно простых целых чисел.

1°. Два многочлена f{x) и g(x) из Р[х] тогда и только тогда взаимно просты, когда

f(x)9(x)+g(xmx)=l, (6*)

где ср(х) и $(х) — некоторые многочлены из Р[х].

Доказательство. Если f(x) и g(x) взаимно просты, то, как мы уже знаем, должно выполняться равенство (6*) для некоторых 9 (х) и ф(лг) из Р[х].

Обратно, пусть имеет место равенство (6*) для некоторых 9 (х) и ф(лг) из Р[х]. Обозначим через d(x) произвольный общий делитель f(x) и g(x). Тогда, очевидно, левая часть равенства (6*) будет делиться на d{x), в силу чего на d(x) будет делиться и правая часть, т. е. 1. Но d(x) может делить 1 только в том случае, когда d(x) есть многочлен нулевой степени. Итак f(x) и g(x) могут иметь общим делителем только многочлен нулевой степени, откуда f(x) и g(x) взаимно просты.

2°. Если D(x) — наибольший общий делитель многочленов f(x) и g(x) из Р[х], то многочлены /х{х) и gi(x), получающиеся при делении f(x) и g{x) на D(x), будут взаимно простыми.

Доказательство. Так как по условию

f(x)=ft(x)D(x), g(x)=gl(x)D(x),

то равенство

можно переписать следующим образом:

fi (X) <р (x) D (x)+gt (x) ф (x) D (x) = D(x).

Сокращая на D (х), получаем:

fi(x)9(x)+gl(x))(x)=l.

Отсюда в силу предыдущего свойства 1° следует, что fx (х) и gt (х) взаимно просты.

3°. Если многочлены f(x) и g(x) из Р[х] взаимно просты с третьим многочленом h(x) из Р[х], то произведение f(x)g(x) также взаимно просто сh(x).

Доказательство. Так как по условию f(x) и h(x) взаимно просты, то

f(x)9(x)+h(x))(x)=l

для некоторых ср(х) и $(х) из Р[х]. Умножим обе части этого равенства на g(x):

fix) g (x) ? (x) + h (x)g(x) <|J (x)=g(x).

Пусть теперь d{x) — какой-нибудь общий делитель f(x)g(x) и h(x). Тогда левая часть последнего равенства будет делиться на d(x) и потому на d(x) будет делиться и правая часть, т. е. g(x). Таким образом, d(x) оказалось общим делителем g(x) и h(x). Но g(x) и k(x) взаимно просты. Следовательно, d(x) есть многочлен нулевой степени. Тем самым мы показали, что произведение f(x)g(x) взаимно просто с h (х).

Свойство 3° можно с помощью метода математической индукции обобщить на любое число многочленов из Р[х]: если каждый из многочленов fi(x), f2(x)t fk(x) взаимно прост с h(x), то произведение fx (х)/2 (х) ... fk (х) также взаимно просто с h (х).

4°. Если f(x), g(x)t h(x) — такие многочлены из Р[х], что f(x) взаимно просто с h(x) и произведение f(x)g{x) делится на h(x), то g(x) делится на h(x).

Доказательство. Так как f(x)nh(х) взаимно просты, то

f(x)9(x) + h(x)b(x)=l

для некоторых ср(х) и $(х) из Р[х]. Умножим обе части этого равенства на g(x). Получим:

Левая часть последнего равенства делится на h(x); следовательно, правая часть, т. е. g(x) делится на h(x).

В теории делимости многочленов роль простого числа играют так называемые неприводимые многочлены.

Определение. Многочлен f{x) из Р[х] называется приводимым в поле Р, если он может быть разложен в произведение двух многочленов меньшей степени из того же кольца Р [х].

Напротив, многочлен р(х) из Р(х) выше нулевой степени называется неприводимым в поле РУ если р (х) не может быть разложен в произведение двух многочленов меньшей степени из того же кольца Р[х].

Согласно этому определению многочлен нулевой степени нельзя считать приводимым, а также нельзя считать неприводимым многочленом. В этом отношении наблюдается та же картина, что и для числа 1. Число 1, как известно, не считается простым и в то же время не считается и составным числом.

Пример 3. Рассмотрим многочлен

над полем рациональных чисел. Он разлагается в произведение многочленов меньшей (а именно второй) степени над тем же полем рациональных чисел:

Следовательно, рассматриваемый многочлен f(x) приводим в поле рациональных чисел.

Пример 4. Многочлен первой степени

р(х) = х+1

над произвольным полем Р неприводим в Р.

Действительно, если f(x) и g(x)— произвольные многочлены выше нулевой степени, то их произведение будет иметь по меньшей мере вторую, а не первую степень.

Пример 5. Многочлен

неприводим в поле рациональных чисел.

В самом деле, если бы многочен р (х) был приводим в поле рациональных чисел, то р (х) разлагался бы в произведение двух множителей, из которых один был бы первой степени, а другой — второй степени:

где a, b, с, d, е— некоторые рациональные числа. Полагая

получаем:

или

Получился абсурд: ]/ 2 оказался рациональным числом — —. Следовательно, многочлен р(х) = хг— 2 неприводим в поле рациональных чисел.

Однако этот же многочлен в поле действительных чисел будет уже приводимым — так как в поле действительных чисел мы считаем допустимым разложение и на множители с иррациональными коэффициентами, то мы можем написать, что

Для многочленов из кольца Р[х] имеет место теорема, аналогичная теореме о разложении целого числа на простые множители.

Теорема 8. Всякий многочлен из Р[х] выше нулевой степени разлагается в произведение неприводимых многочленов:

f(x) =рх (х)р2 (х) ... рГ (х)

(Pi(x) — неприводимый многочлен в поле Р), и это разложение является единственным с точностью до порядка следования и множителей нулевой степени.

Для доказательства этой теоремы придётся предварительно рассмотреть следующие свойства неприводимых многочленов, сходные со свойствами простого числа.

1°. Если Pi(x) и р2(х)— неприводимые многочлены в поле Р и рх (х) делится на р2 (лг), то рх (х) и р2 (х) совпадают с точностью до множителя нулевой степени.

В самом деле, из равенства Pi(x)—p2(x) q (х), где q(x) — частное от деления рх (х) на р2(х), следует в силу неприводимости /?, (х), что q(x) есть многочлен нулевой степени: q(x) = c^0. Отсюда рг (х) = ср2 (лг), что и требовалось показать.

2°. Многочлен f(x) из Р[х] тогда и только тогда не делится на многочлен p(v), неприводимый в поле Р, когда f{x) и р (х) взаимно просты.

Доказательство. Пусть f(x) не делится на р(х). Обозначим через D(x) наибольший общий делитель f(x) и р (х). Так как р(х) — неприводимый многочлен, то из условия делимости р(х) на D{x) следует лишь одно из двух: либо 1) D (х) есть многочлен нулевой степени, либо 2) D (х) совпадает с р (х) с точностью до

множителя нулевой степени. Вторая возможность, однако, отпадает, так как в случае совпадения D (х) с р (х) (с точностью до множителя нулевой степени) многочлен f(x) делился бы на р(х). Следовательно, остаётся только одно — D(x) является многочленом нулевой степени. Но это значит, что f(x) и р(х) взаимно просты.

Обратно, пусть f(x) и р (х) взаимно просты. Тогда /(лг) не может делиться на р(х): если бы f(x) делилось на р(х), то наибольший общий делитель f(x) и р (х) был бы равен р (л;), а не многочлену нулевой степени.

3°. Если произведение f(x)g(x) двух многочленов из Р[х] делится на многочлен р (х), неприводимый в Р, то на р (х) делится по меньшей мере один из сомножителей f(x), g(x).

Доказательство. Предположим противное — пусть ни f(x) и ни g(x) не делятся на р(х). Тогда по предыдущему свойству 2° многочлены f(x) и g(x) будут взаимно просты с р(х). Отсюда в силу свойства 3° взаимно простых многочленов произведение f(x)g(x) будет также взаимно просто с р(х) и потому не может делиться на р (лг), что противоречит условию.

Очевидно, что свойство 3° можно распространить на случай произведения любого числа сомножителей, стоит только воспользоваться методом математической индукции.

Теперь мы можем приступить к доказательству теоремы.

Доказательство теоремы 8. Покажем сначала, что всякий многочлен f(x) из Р[х] выше нулевой степени можно разложить в произведение неприводимых множителей.

Для неприводимого f(x) утверждение очевидно — в этом случае получается разложение из одного неприводимого множителя: f(x)—f(x). Поэтому пусть f(x) приводимо. Тогда

/(*)=/, (*)/.(*),

где fi(x) и /2(лг)— многочлены из Р[х] более низкой степени, чем /(лг). Если один или оба сомножителя f\(x) и f2(x) приводимы, то один или оба сомножителя ft (х) и /2 (х) будут разлагаться на дальнейшие сомножители ещё более низкой степени и т. д. Этот процесс дальнейшего разложения на множители не может быть безграничным, так как степени многочленов не могут безгранично понижаться. Следовательно, мы в конце концов дойдём до разложения многочлена f(x) на неприводимые множители.

Теперь остаётся доказать вторую половину теоремы — единственность разложения на неприводимые множители.

Пусть многочлен f(x) двумя способами разлагается в произведение неприводимых множителей:

f(x)=Pl(x)Pi(x) ... Pk(x), (11)

где Pi(x) — многочлены, неприводимые в поле Р, и

(12)

где qi(x) — также неприводимые в Р многочлены. Без ограничения общности можно предположить, что k^L Из равенств (12) и (13) следует, что

ftWftW Pk(x) = qi(x)q2(x) ... qt(x). (13)

Левая часть последнего равенства делится, очевидно, на рх (х); следовательно, на рг (х) должна делиться и правая часть. Отсюда в силу свойства 3° неприводимого многочлена должен делиться на pt (х) по меньшей мере один из сомножителей правой части. Пусть для определённости qx (к) делится на рх(х). Тогда по свойству 1° неприводимого многочлена qx (лг) и pt (лг) должны совпадать с точностью до множителя нулевой степени: qi(x) = c1p1(x). Подставляя это значение qt(x) в правую часть равенства (13) и производя сокращение обеих частей равенства на рх (х), получаем:

Рч (*)••• Рн С*) = Wz № • • • 4i (x). (14)

Повторяем относительно равенства (14) аналогичные рассуждения. Получим q2(x) = c2p2(x) и затем после соответствующего сокращения

Рг(х) ... Рк{х) = схс&г(х) ... qt(x)

и т. д. Мы утверждаем теперь, что k = L В самом деле, если бы k<^l, то после всех таких последовательных сокращений мы получили бы равенство

l=ctc2 ... саш(х) ... qt(x).

Но это равенство абсурдно, так как 1 не может делиться на многочлены qk+1 (лг), ... 9 q% (х), имеющие степень выше нулевой.

Итак, k — l и q1(x) = c1pi (лг), ... , qt (x)==clpl (х). Теорема полностью доказана.

В разложении многочлена f(x) на неприводимые множители могут встречаться многочлены, совпадающие с точностью до множителя нулевой степени. Например, многочлен

/(*) = 6(лг3 — I)2

в поле рациональных чисел разлагается в произведение четырёх неприводимых многочленов:

/ (лг) = (2л:2 + 2х + 2) (л;2 + X + 1 ) (х — 1 ) (Зх — 3),

и мы видим, что многочлены

2л;2 + 2лг + 2 и лг2+лг+1

совпадают с точностью до множителя 2, а многочлены

лг—1 и Злг—3

совпадают с точностью до множителя 3.

Пусть в разложении

/(*) =Pi (Х)Р* С*) • • • />* С*)

многочлена /(лг) на неприводимые многочлены в поле Р многочлены рх (х), р2 (х) и т. д. повторяются (с точностью до множителя нулевой степени) соответственно аг раз, а2 раз и т. д. Тогда, объединяя повторяющиеся многочлены, получим так называемое каноническое разложение f(x) в произведение неприводимых многочленов:

/(лг) = ср^ (лг) рр (х) ... ра/ (лг) (г ^ k, с ф 0 — элемент из Р\

Здесь неприводимые многочлены pt (х) между собой существенно различны (т. е. не совпадают с точностью до множителя нулевой степени).

Показатель at называется кратностью неприводимого множителя Pi(x).

Так, например, рассмотренный выше многочлен /(лг) = 6(л;3 — I)2

имеет следующее каноническое разложение:

f(x) = G(x* + x+l)Hx—l )2,

причём кратности неприводимых множителей равны двум.

Вообще мы скажем, что некоторый многочлен g(x) из Р[х] входит в данный многочлен f(x) из Р[х] с кратностью а, если f(x) делится на ga (x)t но не делится на ga+l (х).

Пример 6. С какой кратностью входит многочлен g(х) = =х* — 4 в многочлен f(x) = xl-T-xlL — 8лг3 — 8х2 + 16х+ 16?

Применяя алгорифм деления с остатком, без труда убеждаемся, что f(x) делится на g2(x)f но не делится на g*(x). Следовательно, g(x) входит в f(x) с кратностью 2.

Пример 7. С какой кратностью входит многочлен g(х) = =лг2 — 2х — 2 в многочлен f(x)—x* — Злг — 3?

Легко убедиться, что /(лг) не делится на £*(лт). Это означает, что g(x) входит в f(x) с нулевой кратностью.

§ 3. Деление на линейный двучлен х — а. Корни многочленов

Ради большей общности выводов мы в этом параграфе будем рассматривать многочлены над произвольным коммутативным кольцом R с единицей е ф 0. Очевидно, что поле является частным случаем такого кольца.

Мы займёмся часто встречающейся в алгебре задачей — задачей деления многочлена f(x) из R [х] на линейный двучлен лг — а с а, лежащим в том же кольце R, что и коэффициенты многочлена f(x).

Так как старший коэффициент двучлена х— а равен единице, то согласно теореме 6 мы можем написать, что

f(x) = (x — a)q(x) + r. (1)

Очевидно, что остаток г должен быть некоторым элементом кольца R, так как если г Ф О, то степень г должна быть ниже степени делителя х — а.

Равенство (1) остаётся в силе и при любом значении х [см. в § 1 соотношения (7)]. Возьмём для х значение а. Тогда

f(a) = (a — a)q(a) + r, или, так как а — а = 0,

№=г.

Мы пришли к следующей теореме:

Теорема 9. Остаток, получающийся при делении многочлена f(x) над кольцом R на линейный двучлен х — а над тем же кольцом R, равен значению многочлена при х = а.

Пользуясь этой теоремой, можно находить остаток, не производя деления многочлена f(x) на х — а.

Пример 1. Найти остаток от деления многочлена

f (х) = Зх^ — х^ — 2лг2 — X -|— 1

над кольцом целых чисел на je+ 2, не производя деления.

Так как х-\-2=х — (—2), то здесь а = — 2. Таким образом, по теореме 9 получаем следующий остаток:

г=/(— 2) = 3 - (—2)4 —(—2)3 —2 . (—2)2 — (— 2)+ 1 = = 48 + 8 — 8 + 2 + 1=51.

Деление многочлена f(x) на линейный двучлен х — а осуществляется особенно просто с помощью схемы Горнера, заключающейся в следующем.

Так как степень частного q(x) от деления многочлена f(x) на X — а должна быть на единицу ниже, то мы можем положить:

Подставляя выражения f(x) и q(x) в равенство (1), получаем:

или, производя в первой части перемножение и группируя по степеням х:

Отсюда согласно определению равенства двух многочленов следует, что

откуда

(2)

Формулы (2) позволяют последовательно находить коэффициенты частного и остаток. Вычисления по формулам (2) удобнее всего проводить по следующей схеме, известной под названием схемы Горнера:

В верхней строке схемы Горнера написаны в порядке убывания степеней х коэффициенты многочлена f(x), а в нижней строке — коэффициенты Ь£ частного q(x) и остаток г.

Поясним метод Горнера на нескольких примерах.

Пример 2. Пользуясь схемой Горнера, разделить многочлен

f(x) = 2х* — Ьх* — 8лг + 1

над кольцом целых чисел на х — 3.

Составляем схему Горнера. При этом надо выписывать все коэффициенты f{x) без пропусков. Так, в данном многочлене отсутствуют члены с ^ и x2. Это значит, что ах = 0 и а3 = 0. Итак, пишем:

Таким образом, частное равно

q (х) = 2дг4 + бдг3 + 1 Злг2 + 39* + 109,

а остаток равен 328.

Пример 3. Пользуясь схемой Горнера, разделить многочлен

f {х) = Зх^ ~|- 2дг3 — x -J- 10

над кольцом целых чисел на -J— 3.

Составляем схему Горнера; при этом а = —3, так как х-\-3 = -=х—(—3). Выкладки мы будем здесь проводить в стороне, а в схему будем вписывать только окончательные результаты:

3

2

0

— 1

10

— 3

3

— 7

21

— 64

202

Таким образом, частное равно

q (дг) = Злг3 — 7х* + 21* — 64,

а остаток равен 202.

Схема Горнера выгодна не только для проведения деления многочлена f(x) на x — а. Она оказывается весьма удобной и для вычисления значения многочлена при х — а. А именно, остаток при делении f(x) на x — а мы можем найти при помощи схемы Горнера, а по теореме 9 этот остаток есть не что иное, как значение многочлена при х = а.

Так, в примере 3 было найдено при помощи схемы Горнера, что многочлен

/(д;) = Злг4 + 2лг3 —л-+10

при делении на х-\-Ъ даёт в остатке 202. Мы можем отсюда заключить, что /(—3) = 202. Приведём ещё один пример.

Пример 4. Пользуясь схемой Горнера, вычислить значение /(—2) многочлена

/ (х)=xi — 8х* + 24*2 — 50* + 90

над кольцом целых чисел.

Проводим вычисления по схеме Горнера

1

— 8

24

— 50

90

— 2

1

— 10

44

— 138

366

Мы видим отсюда, что /(—2) = 366.

Займёмся теперь случаем, когда многочлен f(x) делится на х — а без остатка. Этот случай тесно связан с понятием корня.

Определение. Корнем многочлена f(x) называется такое значение х0 неизвестного, при котором значение многочлена равно нулю: /(лг0) = 0.

Оказывается, что элемент а кольца R тогда и только тогда является корнем /(*), когда f(x) делится на х — а.

Доказательство. Если f(x) делится на х — а, то по определению делимости должно иметь место равенство

f(x) = (x— a)q(x).

Полагая х — а, получаем из этого равенства, что /(а) = 0, т. е. а оказалось корнем многочлена /(лг).

Обратно, пусть а — корень f(x). Тогда по теореме 9 остаток г от деления f(x) на х — а должен равняться /(а) = 0, т. е. f(x) делится на х — а.

Иногда вместо того, чтобы говорить о корне многочлена, говорят о корне алгебраического уравнения /z-й степени над кольцом R, т. е. уравнения вида

+ ... +ал = 0, а0фО, (3)

где а0, аи ... , ап — элементы кольца /?, называемые коэффициентами уравнения. При этом под корнем уравнения (3) подразумевается корень многочлена f (х) = а^х"-\-ОцХ*1'1 -f- ••• Л~ап-

Равенство (3) нельзя, конечно, рассматривать как равенство двух многочленов (многочлена f (х) = а^х?1-\-ОцХ?1*1-\- ••• -\~ап и НУЛЬ-многочлена); величина х имеет здесь другой смысл, чем в многочлене: x здесь означает любой из корней рассматриваемого уравнения.

Может случиться, что многочлен f(x) я-й степени будет делиться не только на х — а, но и на некоторую степень х — а. В соответствии с этим условимся а называть ^-кратным корнем многочлена f(x)f если f(x) делится на (х — a)k, но не делится на (х—Например, если f(x) делится на (х — а)2, но не делится на (х — а)3, то а — двукратный корень /(лг) (или корень кратности 2).

Пример 5. Число 1 является корнем многочлена

/ (л;) == лгв — 2лг4 + лг3 + лг2 — 2 х + 1

над кольцом целых чисел. Найти кратность этого корня. Делим f(x) яг x—1 при помощи схемы Горнера:

1

— 2

1

1

— 2

I

1

1

— 1

0

1

— 1

0

Отсюда частное равно

а остаток, как и следовало ожидать, равен нулю. Получившееся частное делим в свою очередь на х—1:

1

— 1

0

1

— 1

1

1

0

0

1

0

Мы видим, что и здесь остаток равен нулю, а частное равно

9l C*)=*l+1.

Если теперь разделить qi(x) на х—1, то получится остаток, уже отличный от нуля. Таким образом, данный многочлен f(x) делится на (х—I)2, но не делится на (х—I)3, в силу чего 1 является двукратным корнем f(x).

Возникает естественный вопрос, сколько корней может иметь многочлен f(x) я-й степени над кольцом R. Обратимся к конкретным примерам. Они помогут нам притти к правильному ответу.

Пример 6. Многочлен хг — 2 над полем рациональных чисел не имеет корней. Однако если дг3 — 2 рассматривать как многочлен над полем действительных чисел, то хъ — 2 будет иметь один корень Y2. Мы видим, что как в случае поля рациональных, так и в случае поля действительных чисел количество корней многочлена хг — 2 меньше трёх, т. е. меньше степени многочлена.

Пример 7. Многочлен х*—1 над кольцом целых чисел имеет два корня: 1 и — 1. Здесь получается, что число корней многочлена равно степени многочлена.

Эти два примера заставляют нас склоняться к мысли, что число корней многочлена /z-й степени над R не должно превосходить степени многочлена. Однако следующий пример покажет, что дело обстоит сложнее.

Пример 8. Рассмотрим в качестве кольца R множество квадратных матриц вида

где a, b — действительные числа. Предоставляем читателю проверить самому, что это множество в самом деле образует коммутативное кольцо относительно операций сложения и уможения матриц. Единицей здесь, очевидно, будет единичная матрица

Выясним, какие корни может иметь многочлен f(x)=x2— s над этим кольцом R. Согласно определению корня многочлена нам надо найти такие матрицы:

Возводя матрицу в квадрат, получаем:

откуда и2 = 1, V2 — 1. Таким образом, и — ± 1, v = ± 1, и мы получаем четыре корня:

Как видим, число корней здесь превосходит степень многочлена f(x) = x2 — s. Вместе с тем рассматриваемое кольцо R содержит делители нуля. Так,

Подведём некоторый итог. В первых двух примерах число корней не превосходило степени многочлена, и в качестве кольца мы имели поле рациональных чисел и кольцо целых чисел — области, не содержащие делители нуля. Напротив, в третьем примере мы имели дело с кольцом, содержащим делители нуля, и число корней рассматриваемого многочлена оказалось больше его степени. Нижеследующая теорема показывает, что эта связь с делителями нуля не случайна.

Теорема 10, Пусть коммутативное кольцо R с единицей ефО не обладает делителями нуля (является областью целостности). Тогда всякий многочлен п-й степени над R имеет в R не более чем п корней, если даже считать каждый корень столько раз, какова его кратность.

Доказательство. Обозначим через f(x) какой нибудь многочлен над /?-выше нулевой степени, и пусть он имеет корни av ... , as

соответственно с кратностями kx,...9ks. Так как кратность корня ах равна klf то мы можем написать, что

/(*) = (*—аМ(4

где /!(*) — многочлен над R, не делящийся на х — аХ9 т. е. не имеющий ах корнем: ft (ах) ^ 0.

Полагая в этом равенстве x = a2t получаем:

Но а2 — ах^0. Следовательно, так как R не имеет делителей нуля, должно быть /j(a2) = 0. Таким образом, а2 оказалось корнем многочлена fx (х).

Обозначим через 5 кратность корня а2 относительно fx (лг). Тогда

причём /2 (а2) ф 0.

Легко видеть, что s^k2. В самом деле, если бы 5 было больше &2, то из равенства

следовало бы, что а2 — корень многочлена /(лг) более высокой кратности, чем k2.

С другой стороны, так как а2 есть &2-кратный корень / (х), то

причём ф (а2) ф 0. Отсюда

(3')

Кольцо многочленов R [х] не содержит делителей нуля, так как R — область целостности. Поэтому обе части равенства (3') можно сократить на (х — a2)s. Получаем:

Если допустить, что £2^>s, то, полагая х = а2, мы имели бы:

откуда /2(а2) = 0, что невозможно. Следовательно, k2 = s. Итак,

а потому

Затем подобным же образом убеждаемся, что

причём /3 (аа) ф О, и

и т. д. В конечном счёте мы придём к разложению

Степень левой части последнего равенства равна п, а степень правой части не меньше чем kx -|- Л2 + ... -f- Отсюда получается, что -J- k2 -f- .. -f- ks ^ /г, и теорема для многочлена степени п ^ 1 доказана. Но для многочлена нулевой степени теорема тривиальна: такой многочлен не имеет корней. Отметим одно важное следствие.

Следствие. Если коммутативное кольцо R с единицей ефО является областью целостности и два многочлена f(x), g(x) над R со степенью, не превосходящей п, имеют равные значения более чем при п различных значениях х, то эти многочлены равны:

/(*)=*(*).

В самом деле, многочлен h(x)=f(x)—g(x), с одной стороны, имеет степень, не превосходящую п. С другой стороны, h (х) обращается в нуль при более чем п различных значениях х, т. е. имеет более чем п корней. Отсюда по только что доказанной теореме получается, что h(x)—f(x) — g(x) = 0, т. е. f(x)=g(x).

В случае бесконечной области целостности R из этого следствия вытекает, что два многочлена f(x) и g(x), имеющие равные значения при любых значениях х, должны быть равны.

Будем в произвольном многочлене f(x) из R[x] неизвестное х заменять тем или иным элементом с кольца R. Мы получим вполне определённый элемент /(с) из R. Таким образом, каждому многочлену f{x) из R [х] будет ставиться в соответствие функция от одного аргумента, определённая на множестве R:

№-+/(%). (4)

Через £ мы здесь обозначили аргумент, а через /(£) — функцию, соответствующую многочлену f(x).

Мы собираемся показать, что в случае бесконечной области целостности R функциональная и алгебраическая точки зрения на многочлен являются равносильными. А именно, имеет место следующая

Теорема 11. Если коммутативное кольцо R с единицей е ф О является бесконечной областью целостности, то множество функций /(£), соответствующих многочленам f(x) из R [х], образует кольцо, изоморфное кольцу многочленов R [х].

Доказательство. Пусть некоторому многочлену g(x) из R[x] соответствует та же функция /(Е), что и многочлену f(x):

/(*)-*/(*), g(x)-+f(t).

Тогда f(c) = g(c) для любого элемента с из R. Но мы уже знаем, что в случае бесконечной области целостности R два многочлена, имеющих равные значения при любых значениях лг, должны быть равны. Следовательно, f(x)=g(x). Таким образом, соответствие (4) является не только однозначным, но и взаимно однозначным.

Пусть, далее, f(x) и g(x)— два произвольных многочлена из R[x]. Обозначим f(x)-\-g(x) через h(x) и f(x)g(x) через k(x). Тогда f(x)-\-g(x) будет соответствовать /*(£), a f(x)g{x) будет соответствовать £(£).'

Но мы знаем, что для любого элемента с из R

f(c) + g(c) = k(c), f(e)g(e) = k(c)

(см. равенства (7) в § 1). Следовательно, по определению суммы и произведения функций1)

A(6)=/(S)+*(Ö. *<9=/<9*<9.

откуда

Итак, мы убедились, что соответствие (4) в самом деле является изоморфизмом между кольцом R [х] и множеством функций /(£). Тем самым множество функций /(£) образует кольцо, изоморфное R [х], и теорема полностью доказана.

В дальнейшем мы будем аргумент функций /(Q обозначать той же буквой x, что и неизвестное.

§ 4. Многочлены над полем рациональных чисел

В элементарной алгебре рассматриваются простейшие методы разложения многочлена f(x) с рациональными коэффициентами на неприводимые множители в поле рациональных чисел. Так как эти методы связаны с вычислением рациональных корней многочленов, то мы в этом параграфе изложим с необходимой полнотой вопрос о вычислении рациональных корней.

1) Пусть M — некоторое множество с двумя определёнными в нём алгебраическими операциями + и • . Под суммой f(Ç)+g(%) двух функций /($) и g(t), заданных на множестве М, подразумевается функция, ставящая в соответствие каждому элементу с из M сумму значений f(c)-\-g(c) данных функций при 5= с. Точно так же под произведением функций /(§) и g(Ç) подразумевается функция, ставящая в соответствие каждому элементу с из M произведение значений f(c)g(c) данных функций при £ = с.

Итак, пусть

(1)

— многочлен п-й степени (п^1) с рациональными коэффициентами. Без ограничения общности выводов можно предположить, что все коэффициенты многочлена (1) — числа целые. Действительно, если бы многочлен f(x) имел дробные коэффициенты, то, умножая f(x) на общий знаменатель коэффициентов, мы получили бы многочлен с целыми коэффициентами и с теми же корнями, что и у f(x).

Вычисление рациональных корней многочлена (1) основано на следующей теореме.

Теорема 12. Если несократимая дробь ~ (I, m — целые числа) является рациональным корнем многочлена (1), то I есть делитель свободного члена ап, a m — делитель старшего коэффициента а0.

Доказательство. Согласно определению корня многочлена мы можем написать, что

или, умножая обе части последнего равенства на тп:

Отсюда

(2) (3)

Правая часть равенства (2) делится, очевидно, на т. Следовательно, на m должна делиться и левая часть равенства (2), т. е. а01п. Но в силу несократимости дроби — число 1п взаимно просто с т. Поэтому а0 должно делиться на т.

Аналогично рассуждаем и относительно равенства (3). Его правая часть делится на /. Следовательно, аптп должно также делиться на /. Отсюда ап делится на /, так как тп взаимно просто с /.

Отметим одно следствие из только что доказанной теоремы.

Следствие. Многочлен

f(x) = xn + a1xn'l+... + ая

со старшим коэффициентом, равным единице, и с целыми коэффициентами av ... , ап может иметь в качестве рациональных корней только целые корни.

В самом деле, по теореме 12 знаменатель т^>0 рационального корня х^ = ~ должен быть делителем старшего коэффициента,

т. е. равен 1. Отсюда xQ = l, и тем самым корень х0 является целым числом.

Таким образом, испытывая всевозможные дроби — (т^>0) с числителем /, делящим ап, и со знаменателем т, делящим старший коэффициент а0, мы найдём рациональные корни многочлена (1) или убедимся, что многочлен (1) вовсе не имеет рациональных корней. Однако эти испытания можно значительно сократить, если воспользоваться следующим предложением.

Теорема 13. Если несократимая дробь ^(т^>0) является рациональным корнем многочлена (1), то для любого целого числа k число f(k) делится на I — km при условии, что I — km^O.

Доказательство. Умножая многочлен (1) на тп, получаем:

или, полагая тх—у:

Так как — корень многочлена f(x), то целое число / должно быть корнем многочлена ср(у), в силу чего мы можем написать, рассматривая ср(у) над кольцом целых чисел, что

?Су)=Су—Оя(у),

где q(y) есть также многочлен над кольцом целых чисел. Отсюда

(4)

должно быть целым числом; иными словами, mnf(k) делится на / — km. Но легко видеть, что m и /—km взаимно просты. В самом деле, если бы /га и / — km были бы не взаимно простыми, то дробь

была бы сократимой:

где 0 //*!<"/я, и мы имели бы, что

откуда

т. е. в силу неравенства т1<^т следовала бы сократимость дроби —, что невозможно.

Теперь теорема становится очевидной — произведение mnf(k) делится на / — km, a m взаимно просто с / — km; следовательно, f(k) делится на / — km.

Обращаясь к примерам, покажем, как на основании изложенного следует вычислять рациональные корни многочлена.

Пример 1. Найти рациональные корни многочлена

В этом многочлене все коэффициенты являются целыми числами и старший коэффициент равен единице. Следовательно, если многочлен f{x) имеет рациональные корни, то согласно следствию из теоремы 12 корни должны быть целыми. На основании теоремы 12 заключаем, что целые корни многочлена f(x) должны быть делителями его свободного члена — 24. Таким образом, целые корни следует искать среди чисел

l=h —1, 2, —2, 3, —3, 4, —4, б, —б,

8, —8, 12, — 12, 24, —24. (5)

Эти числа можно рассматривать как дроби — с т=1; отсюда на основании теоремы 13 заключаем, что для целого корня х0 = z=-j = l число f(k) должно делиться на / — k, где k — произвольное целое число, отличное от /. Возьмём k—\ и k — —1. Так как /(1) = —20 и /(—1)=—42, то 1 и —1 не могут быть корнями рассматриваемого многочлена, и потому остаётся исследовать числа

1=2, — 2, 3, — 3, 4, — 4, 6, — б, 8,-8, 12, — 12, 24, — 24. (6)

Посмотрим, для каких чисел (6) /(1) делится на /—1 и /(—1) делится на /-)-1. Легко усмотреть, что только числа

1=2, —3, —4, 6

удовлетворяют этому условию.

Так как /(2) = — 30^0, то остаётся исследовать

/= — 3, —4 и 6.

Число /(2) = —30 должно делиться на / — 2, если / — целый корень многочлена f(x). Но этому условию делимости удовлетворяют только — 3 и —4. Подставляя в выражение многочлена вместо х значения —3 и —4, видим, что /(—3) = 0 и /(—4)=180. Таким образом, рассматриваемый многочлен f(x) имеет только один рациональный корень х0 = — 3.

Пример 2. Найти рациональные корни многочлена

По теореме 12 знаменатель m рационального корня jç0 = — многочлена f(x) должен быть делителем 24, а числитель / — делителем 6. Мы можем знаменатель m считать положительным, относя знак к числителю /. В соответствии со всем этим составляем следующую таблицу возможных значений х0:

Числа 1 и — 1 не могут быть корнями многочлена fix), так как /(1)=15 и/(—1) = —21. Затем, пользуясь теоремой 13, можно исключить ещё ряд возможных значений х0. А именно, испытываем, для каких — число /(1)=15 делится на / — m и число /(—1) = m — — 21 делится на 1-\-т. Без труда находим, что этим условиям делимости удовлетворяют только числа

Так как /(2) = 840 и /(—2) = —660, то 2 и —2 исключаются и остаётся исследовать числа

(7)

Выкидываем из ряда (7) те числа ~, для которых /(2) = 840 не делится на /—2т. Затем выкидываем —, для которых /( — 2) = = — 660 не делится на 1-\-2т. В результате останутся

Подвергаем эти значения непосредственному испытанию — подставляем вместо x эти значения в многочлен f(x):

Мы видим отсюда, что рассматриваемый многочлен имеет только следующие рациональные корни:

и мы можем написать разложение f(x) в произведение неприводимых (в поле рациональных чисел) многочленов

или

Квадратный трёхчлен лг2 —.лг —J— 1 неприводим, так как, он не имеет рациональных корней.

В некоторых случаях большую помощь при вычислении рациональных корней могут оказать следующие предложения:

1°. Многочлен f(x) с целыми коэффициентами не имеет целых корней, если для некоторых целых sut /(2s) и /(2/-f-l) — нечётные числа.

Доказательство. Допустим противное — предположим, что f(x) имеет целый корень х0. Тогда

f(x) = (x — x0)q(x).

Отсюда

f(2s) = (2s-x0)q(2s) (8)

f(2t+ 1) = (2/ + 1 -х0) q (2t + 1). (9)

Из равенства (8) следует в силу нечётности /(2$), что число 25 — х0 должно быть нечётным. Так как 25 является чётным, то отсюда получается, что х0 должно быть нечётным числом. С другой стороны, из равенства (9) следует, что2/-|-1—х0 должно быть нечётным, откуда благодаря нечётности 2/~|-1 вытекает, что х0 должно быть чётным. Итак, одно и то же число х0 оказывается одновременно чётным и нечётным, что абсурдно.

2°. Многочлен f(x) с целыми коэффициентами не имеет рациональных корней, если можно указать два таких целых значения kx и k2 независимого переменного х, что kt—k<^>2 и f(kx) = = ±1 и f(k2) = ±L

Доказательство. Допустим, что многочлен f(x) при указанных условиях имеет рациональный корень х0 = —. Тогда по теореме 13 /(&j) = ± 1 должно делиться на /—kxm и f (k2) = ± 1 должно делиться на / — k2m. Отсюда получается, что

Вычитая из второго равенства первое, мы будем иметь: (kx—k2) //2 = -J- 2 или (kx—k2)m = 0.

Но равенство (kx—ko) m —0 исключается, так как kx ф k2 и т^>0. Таким образом, имеет место только первое равенство. Из этого равенства видно, что 2 должно делиться на kx—k2, что невозможно, так как по условию kx—£2^>2.

Пример 3. Найти рациональные корни многочлена

/ (х) = лг6 -f X* — лг4 — 2лг3 — блг2 + 7х + 1 Об.

Согласно следствию из теоремы 12 этот многочлен может иметь в качестве рациональных корней лишь целые корни. Легко видеть, что /(0) и /(1) — здесь нечётные числа: /(0) =/(1)= 105. Следовательно, согласно предложению 1° рассматриваемый многочлен не имеет целых корней и тем самым не имеет рациональных корней.

Пример 4. Найти рациональные корни многочлена

/ (лг) = 2лг4 — 7л;3 — X2 — 18х + 25.

Полагая х—1 илг = 4, получаем: /(1)=1 и /(4)= 1. Мы видим, что для этого многочлена условия предложения 2° соблюдаются. Следовательно, рассматриваемый многочлен не имеет рациональных корней.

§ 5. Разложение многочленов на неприводимые множители над полем рациональных чисел. Признак неприводимости

На основании изложенного в предыдущем параграфе мы теперь укажем различные приёмы разложения многочленов f(x) с рациональными коэффициентами на множители, неприводимые в поле рациональных чисел.

Для многочленов второй и третьей степени вопрос о разложении на множители решается просто. А именно, если многочлен второй степени

f(x) = ax2 + bx-\-c (1)

с рациональными коэффициентами приводим в поле рациональных чисел, то он, очевидно, будет разлагаться в произведение двух линейных множителей:

/ (лг) = а (X — хх ) (X — х2)

(хх и л*2 — рациональные числа), вследствие чего /(лг) будет иметь два рациональных корня хх и х.2. Обратно, если многочлен (1) имеет хотя бы один рациональный корень xlf то многочлен будет разлагаться в поле рациональных чисел в произведение двух линейных множителей.

Примерно такую же роль играют рациональные корни и для многочлена третьей степени

(2)

с рациональными коэффициентами: многочлен (2) приводим в поле рациональных чисел тогда и только тогда, когда он имеет по меньшей мере один рациональный корень.

В самом деле, если многочлен (2) приводим в поле рациональных чисел, то он должен иметь в своём разложении хотя бы один линейный множитель px-\-q с рациональными коэффициентами р, q.

Этот множитель обладает рациональным корнем х0 = — —. Очевидно, что х0 = — ~ будет также корнем и многочлена (2).

Обратно, если многочлен (2) имеет рациональный корень х0, то

откуда f(x) приводим в поле рациональных чисел.

Пример 1. Разложить многочлен

на множители в поле рациональных чисел.

Пользуясь методами предыдущего параграфа, находим, что данный многочлен не имеет рациональных корней. Следовательно, этот многочлен неприводим в поле рациональных чисел.

Пример 2. Разложить многочлен

на множители в поле рациональных чисел.

Находим, что этот многочлен имеет только один рациональный корень, равный у. Следовательно, данный многочлен приводим в поле рациональных чисел, а именно, распадается на линейный и квадратный множители. С помощью схемы Горнера без труда находим искомое разложение на множители:

или

Пример 3. Разложить многочлен

на множители в поле рациональных чисел.

Находим, что многочлен f(x) имеет три рациональных корня |, J и —2. Следовательно, f(x) должен разлагаться на три линейных множителя (х— (х — -тА и (х-\-2):

Впереди стоит число 6, так как старший коэффициент f(x) равен 6. Освобождаясь от знаменателей, получаем окончательно, что

Для многочленов более высокой степени дело обстоит сложнее— если многочлен /z-й степени (п ^4) с рациональными коэффициентами имеет рациональный корень xQi то этот многочлен будет приводим в поле рациональных чисел, так как будет делиться на x — х0. Обратное, однако, неверно. Например, многочлен

не имеет рациональных корней и тем не менее он приводим в поле рациональных чисел:

Для многочленов четвёртой степени можно указать довольно удобный приём разложения на множители, связанный с понятием кубической резольвенты.

Пусть

(3)

— некоторый многочлен четвёртой степени с рациональными коэффициентами. Преобразуем его так, чтобы он представился в виде разности двух квадратов. Для этой цели пишем:

Сделаем выражение внутри квадратных скобок полным квадратом, для чего прибавим и вычтем {^-^ •

Далее, введём вспомогательную величину у, а именно прибавим к последнему выражению и вычтем из него многочлен

Получим:

или где

Теперь подберём у таким, чтобы квадратный трёхчлен A£2-f--\-Bx-\-C был полным квадратом. Мы воспользуемся следующим предложением:

Квадратный трёхчлен Ах2 -f- Вх -f- С с комплексными коэффициентами А, В, С тогда и только тогда является квадратом линейного многочлена ах -j- ß с комплексными коэффициентами, когда В* = 4АС.

Доказательство. Пусть

Тогда

Мы знаем, что если два многочлена равны, то у них должны совпадать коэффициенты при одинаковых степенях х. Следовательно,

А = а\ В = 2а$, C=ß2.

Так как, очевидно, (2<zß)2 = 4<z2(32, то отсюда вытекает, что #2 = 4ЛС.

Обратно, пусть #2 = 4АС. Тогда квадратный трёхчлен можно преобразовать следующим образом:

т. е. Ах* -f- Вх -\- С представился в виде квадрата линейного двучлена.

Вернёмся теперь к выражению (4) многочлена f(x). На основании только что доказанного предложения попытаемся подобрать у с таким расчётом, чтобы В2==4АС или

(5)

Мы получили уравнение третьей степени относительно у. Это уравнение (5) и называется кубической резольвентой многочлена (3).

Итак, если у— один из корней кубической резольвенты (5), то многочлен (3) будет выражаться в виде разности двух квадратов:

Предлагаемый вниманию читателей приём разложения многочлена (3) четвёртой степени на множители в поле рациональных чисел основан на следующей теореме:

Теорема 14. Многочлен четвёртой степени

(3-)

с рациональными коэффициентами, не имеющий рациональных корней, тогда и только тогда приводим в поле рациональных чисел, когда его резольвента обладает таким рациональным корнем у0-, что

являются рациональными числами.

Доказательство. Пусть резольвента (5) имеет рациональный корень у0 и рациональные числа.

Тогда на основании вышеизложенного мы можем написать:

где

— рациональные числа. Но разность двух квадратов можно, как известно, представить в виде произведения суммы на разность. Следовательно,

т. е. многочлен f(x) оказался приводимым в поле рациональных чисел.

Обратно, пусть f(x) приводим в поле рациональных чисел. Так как по условию /(лг) не имеет рациональных корней, то многочлен /(лг) будет разлагаться в произведение двух квадратных трёхчленов с рациональными коэффициентами:

Сравнивая слева и справа коэффициенты при одинаковых степенях х, получаем:

(6)

Исходя из равенств (6), нетрудно убедиться, что резольвента (5) имеет рациональным корнем

являются рациональными числами.

В самом деле,

откуда уравнение (5) при у=у0 == ^"^^2 превращается в очевидное тождество

Итак, если многочлен (3) приводим в поле рациональных чисел, то его резольвента (5) имеет рациональный корень

Покажем теперь на конкретных примерах, как на основании изложенного проводится разложение многочленов четвёртой степени на множители.

Пример 4. Разложить многочлен

на множители в поле рациональных чисел.

Прежде всего выясним, имеет ли данный многочлен рациональные корни. С помощью обычных приёмов вычисления рациональных корней убеждаемся в том, что f(x) имеет только один рациональный корень х = ~. Пользуясь схемой Горнера, получаем:

или

Многочлен хъ~\-х2 — лг -f- 1 уже неприводим в поле рациональных чисел, так как он не имеет рациональных корней (корни этого многочлена являются также корнями многочлена / (х)).

Пример 5. Разложить многочлен

/ (x) = x* + Ъх* — 2х*-\-2х — 2

на множители в поле рациональных чисел.

Этот многочлен не имеет рациональных корней. Поэтому воспользуемся теоремой 14. Составляем резольвенту многочлена f(x):

или после очевидных упрощений

8У* + 8У + 28у-1-30 = 0,

или, наконец,

гз_|_2*2+14г + 30 = 0,

где z = 2у. Последнее уравнение не имеет, однако, рациональных корней. Следовательно, резольвента также не имеет рациональных корней. Отсюда рассматриваемый многочлен неприводим в поле рациональных чисел.

Пример 6. Разложить многочлен

f(x)=x* + 2хъ — 2х* + 2х + 1

на множители в поле рациональных чисел.

Нетрудно убедиться, что этот многочлен не имеет рациональных корней. Поэтому обращаемся к теореме 14. Составляем резольвенту многочлена

(2у — 2)2 = 4(2у + 3)(У — 1)

или

О— 1)0* + 2У + 2)*=0.

Отсюда легко усмотреть, что резольвента имеет только один рациональный корень j/0=l. Для этого корня

Итак, рассматриваемый многочлен неприводим в поле рациональных чисел, так как число ]/5 иррационально.

Пример 7. Разложить многочлен

на множители в поле рациональных чисел.

Этот многочлен не имеет рациональных корней. Чтобы можно было воспользоваться теоремой 14, преобразуем f(x) в многочлен со старшим коэффициентом, равным единице, для чего делим f(x) на 6:

Составляем резольвенту этого многочлена:

или окончательно

где z = 2y.

Это уравнение имеет рациональный корень z0 =--jl. Отсюда

резольвента также имеет рациональный корень, именно У0 =--jy.

Для этого корня у0

Следовательно, многочлен ft (х) и тем самым многочлен f(x) приводимы в поле рациональных чисел. Найдём, на какие множители распадается f(x). Для этой цели вычислим В:

Число В оказалось положительным. Отсюда а и ß должны быть одного знака, так как 2<xß = Z?^>0. Возьмём а и ß со знаком плюс (с таким же успехом можно было их взять и со знаком минус):

Тогда, руководствуясь доказательством первой половины теоремы 14, получаем:

Отсюда

Обращаясь к многочленам /(лг) выше четвёртой степени, отметим, прежде всего, что следует всегда начинать с вычисления рациональных корней многочлена. Если f{x) имеет хотя бы один рациональный корень х0, то f(x) = (x — xQ)f1(x)i и тогда дело сводится к разложению на дальнейшие множители многочлена /i (x), имеющего меньшую степень. Если же f(x) не имеет рациональных корней, то приходится прибегать к особым методам. Один из таких методов мы и собираемся изложить в общих чертах.

Коэффициенты многочлена

f(x) = a0 + a1x + ... +а/гкЛ (ап ф 0)

над полем рациональных чисел всегда можно предполагать целыми, так как в противном случае мы умножили бы f(x) на общего знаменателя его коэффициентов.

В этом предположении назовём многочлен f(x) примитивным, если наибольший общий делитель всех его коэффициентов равен единице.

Например,

/(лг) = 2л;5 — 4лг4 -f Злг3 -f 2л;2 — 5л; + 7

является примитивным многочленом; напротив

/(лг) = З*4 — 21лг3 + 15лг2 — блг + 18

не примитивен, так как наибольший общий делитель всех его коэффициентов равен 3, а не единице.

Рассмотрим две леммы, известные под названием лемм Гаусса.

Лемма 1. Произведение двух примитивных многочленов есть также примитивный многочлен.

Доказательство. Пусть

— примитивные многочлены. Предположим, вопреки утверждению леммы, что их произведение

9(хЦ(х)=с, + с1х+ ... +сп+тхп+т

не примитивно. Тогда все коэффициенты

произведения q>(x)ty(x) будут обладать наибольшим общим делителем ci, отличным от единицы. Пусть р — простое число, делящее (L Тогда, очевидно, р будет делить все коэффициенты с0, с,, с2, ..., сп+т произведения 9 (х) (х). Однако, р не может делить все коэффициенты 9(лг), так как в противном случае у(х) не было бы примитивным. Точно так же р не может делить все коэффициенты ty(x). Таким образом, пусть а£— первый коэффициент многочлена 9 (лг), не делящийся на р, и bj — первый коэффициент ty(x), не делящийся на р. Рассмотрим коэффициент

(6)

В правой части равенства (6) все члены, кроме atbjf делятся на р, так как а0, ..., a£_v bj_lf ..., bQ ещё делятся на р. Но член a£bj на р не делится, так как а£ и bj не делятся на р. Отсюда следует, что правая часть равенства (6) не делится на р. Получилось противоречие с нашим предположением о том, что все коэффициенты произведения 9 (х) $ (х), и в частности ci+J-, делятся на р. Это противоречие и доказывает лемму.

С помощью леммы 1 докажем вторую лемму, играющую в излагаемом методе основную роль. Эта лемма состоит в следующем:

Лемма 2. Если многочлен f(x) с целыми коэффициентами приводим в поле рациональных чисел, то он разлагается в произведение двух многочленов низшей степени с целыми коэффициентами.

Доказательство. Пусть многочлен

/(х) = а0 + агх+ ... +ал^ (ап ф О, п^2)

разлагается в поле рациональных чисел следующим образом на два множителя низшей степени:

Если все коэффициенты многочленов g(x) и h(x) — числа целые, то доказывать нечего. Поэтому пусть g(x) и h(x) имеют дробные коэффициенты. Обозначим через тх общий знаменатель коэффициентов g(x) и через т2 общий знаменатель коэффициентов h(x). Тогда

где S\ (х) и (х) — многочлены уже с целыми коэффициентами. Далее, обозначим через dt наибольший общий делитель коэффициентов gx (х) и через d2 наибольший общий делитель коэффициентов hx (х). Мы можем в таком случае написать, что

где tp(x) и ty(x) — примитивные многочлены. Отсюда

или, полагая

(7)

Если теперь

то из равенства (7) следует, что

Так как а0 — целое число, то гс0 должно делиться на s. Но в силу несократимости дроби — числа г и s взаимно просты. Следовательно, с0 должно делиться на s. Точно так же находим, что си с2, сп делятся на s. Мы видим отсюда, что s есть общий делитель коэффициентов произведения ®(x)ty(x). По лемме 1 многочлен ф(лт) (лг) должен быть примитивным. Тем самым 5 должно равняться единице и потому

f(x) = r9(x)^(x),

т. е. мы получили разложение многочлена f(x) в произведение многочленов с целыми коэффициентами выше нулевой степени.

Теперь мы можем приступить к изложению основной идеи метода разложения произвольного многочлена на неприводимые множители над полем рациональных чисел. Для большей наглядности обратимся к конкретному примеру.

Пример 8. Разложить многочлен

/(Лг) = л;5 + лг4 + З*3 + 4л;2 + 4л; + 2

на множители в поле рациональных чисел.

Легко убедиться, что данный многочлен /(лг) рациональных корней не имеет. Таким образом, если многочлен f(x) приводим в поле рациональных чисел, то он должен разлагаться на два множителя второй и третьей степени. По лемме 2 коэффициенты этих множителей должны быть целыми числами, причём старшие коэффициенты должны равняться единице, так как старший коэффициент /(лг) равен единице. Следовательно, если многочлен /(лг) приводим, то его множитель второй степени должен иметь вид

£*(л;) = лг2+/7л; + ?,

где р, q— какие-то целые числа. Отсюда получается, что при любом целом m число f(m) должно делиться на g(m). Этим обстоятельством мы и воспользуемся для нахождения многочлена g(x).

Так как /(0) = 2 и /(—1) = —1, то для g(0) и g(—1) возможны только следующие комбинации значений:

Рассмотрим первую комбинацию g(0) = l и g(—1)=1. Имеем: g(0) = q=h g(-l)=l-p + q=lt

откуда

p = q = l и £-(л;) = *2-|-лг+1.

Делим f(x) на х*-\-х-\-1 и убеждаемся, что /(лг) на этот квадратный трёхчлен делится:

f(x) = (л;2 + лг + 1) (лг3 -f 2лг + 2).

Таким образом, наша цель достигнута — разложение f(x) в поле рациональных чисел на неприводимые множители получено, и дальнейшие комбинации 2) — 8) незачем рассматривать.

Во многих случаях большую помощь оказывают критерии неприводимости, позволяющие сразу обнаружить неприводимость многих многочленов в поле рациональных чисел. Укажем один из наиболее распространённых критериев.

Признак неприводимости Эйзенштейна. Пусть /(лг)— многочлен с целыми коэффициентами. Если все его коэффициенты, кроме старшего, делятся на некоторое простое число р, а свободный член, делясь на р, не делится на р2, то многочлен неприводим в поле рациональных чисел.

Доказательство. Допустим противное — предположим, что многочлен

/(*) = а0 + а1*+ ... А-апхп

приводим в поле рациональных чисел. Тогда по лемме 2 многочлен f(x) разложится в произведение двух многочленов g(x) и h(x) низшей степени с целыми коэффициентами:

(8)

Пусть

Тогда из равенства (8) следует, что

По условию свободный член а0 = Ь0с0 многочлена f(x) делится на простое число /?. Отсюда на р должно делиться Ь0 или с0. Но Ь0 и с0 не могут одновременно делиться на /?, так как а0 не делится на р2. Пусть для определённости Ь0 делится на р, но с0 не делится на р. Возьмём равенство

Его левая часть ах по условию делится на р, а в правой части член схЬ0 делится на р, так как в этот член входит Ь0, делящееся на р. Отсюда следует, что другой член в правой части с0Ьх делится на р. Но с0 не делится на простое число р. Поэтому Ьх должно делиться на р. Переходя к следующему равенству

а2 = с0Ь2 -\- схЬх -f- с2£0,

подобным же образом убеждаемся, что #2 делится на р и т. д. Наконец, из равенства

Ч = С<А + с А_1 + • • • + ckbo

вытекает, что bk делится на р.

Теперь обратимся к равенству an = bkcl. Так как Ьк делится на р, то ап должно делиться на р. Получилось противоречие с условиями признака, согласно которым старший коэффициент ап

многочлена f(x) не делится на /7. Этим справедливость признака и доказана.

Пример 9. Многочлен

f (х) = лг5 — 12лг3 -J- 3 6х* — 12х — 12

неприводим в поле рациональных чисел. В самом деле, для простого числа /7 = 3 все условия признака Эйзенштейна выполняются — старший коэффициент рассматриваемого многочлена не делится на 3, а остальные коэффициенты делятся на 3, причём свободный член— 12 не делится на 32 = 9.

С помощью признака Эйзенштейна можно построить многочлен произвольной степени, неприводимый в поле рациональных чисел, например

f(x) = хп + 2хп~1 + 2j^"2 + ... -f 2.

В некоторых случаях, когда признак Эйзенштейна непосредственно применить не удаётся, можно, полагая je = ay-j~ß» где а и ß — надлежащим образом подобранные рациональные числа, получить многочлен от переменного у

А(у)=А*у+?)=/(*),

удовлетворяющий условиям признака Эйзенштейна. В этом случае из неприводимости многочлена fx (х) сразу будет вытекать неприводимость f(x). Действительно, если бы f(x) был бы приводим, в то время как fx (х) неприводим, то

f{x)=g(x)h(x)

или

/(«у + Р) =/, Су)=g («у 4- Р) h (ay + ß)=gl (y) h, о),

t. e. fx (x) было бы, вопреки условию, приводимым.

Пример 10. С помощью признака Эйзенштейна показать, что многочлен

/(х) = хЬ — х*-\-2х-\-\

неприводим в поле рациональных чисел.

К этому многочлену признак Эйзенштейна непосредственно применить нельзя, так как нельзя подобрать простого числа р, для которого будут выполняться все условия признака. Поэтому положим х=у-\-1. Тогда получим:

При /7 = 3 для многочлена /, (у) все условия признака Эйзенштейна выполняются. Следовательно, /, (у) и потому f(x) неприводимы в поле рациональных чисел,

§ 6. Основная теорема алгебры

В произвольном числовом поле Р многочлен я-й степени f(x)t как мы знаем, имеет не более чем п корней (считая каждый корень столько раз, какова его кратность)1). Однако многочлен f(x) в поле Р может и совсем не иметь корней. Возникает естественный вопрос, в каком числовом поле любой многочлен /z-й степени имеет в точности п корней. Мы покажем, что таким полем является поле комплексных чисел, самое обширное числовое поле. Это замечательное свойство поля комплексных чисел вытекает из теоремы, носящей название основной теоремы алгебры, и заключающейся в том, что всякий многочлен f(x) степени n^l с комплексными коэффициентами имеет в поле комплексных чисел по меньшей мере один корень.

Займёмся предварительно изучением основных свойств понятия непрерывности функции в области комплексных чисел, так как это понятие будет играть существенную роль в нашем доказательстве основной теоремы алгебры.

Обычное определение непрерывной функции, излагаемое в курсе математического анализа, можно без особых затруднений перенести и на тот случай, когда переменное х и функция у(х) принимают комплексные значения. А именно, назовём однозначную комплексную функцию ср(х) комплексного переменного х непрерывной в точке х0, если для всякого наперёд заданного положительного числа е можно указать такое положительное число 8, что для всякого значения х, удовлетворяющего неравенству

(1)

будет иметь место неравенство

(2)

для соответствующих значений функции.

Обращаем внимание читателя на то, что здесь две вертикальные чёрточки означают уже не абсолютную величину, а модуль.

Для большей наглядности дадим геометрическое истолкование этому определению непрерывности. Возьмём для изображения значений переменного х и функции <?(х) две плоскости Я и Q. На плоскости Р выберем прямоугольную систему координат ОЬ\> а на плоскости Q — прямоугольную систему координат Ouv. Плоскость Р мы будем называть плоскостью переменного х> a Q — плоскостью

1) Числовым полем принято называть всякую часть поля комплексных чисел, также образующую поле относительно арифметических действий сложения и умножения. Эта часть может совпадать и со всем полем комплексных чисел.

функции. Так как х и ц>(х) принимают комплексные значения, то можно написать, что

где Е, т), и, V действительны, a i=y—1—мнимая единица.

Каждое значение jc = i;-|-h) можно на плоскости Р изобразить точкой X с координатами £, у] или вектором ОХ,

Соответствующее значение функции w = cp(x) = u-{-iv будет тогда изображаться точкой W с координатами к, z; или вектором OW на плоскости Q.

Пусть теперь на плоскости Р переменного х значение х0 представляется вектором ОХ0. Тогда модуль разности х — х0 будет означать расстояние между точками X и XQ. Таким образом, неравенство (1) означает, что точка X должна лежать внутри круга Сг радиуса 8 и с центром в точке Х0. Точно такое же истолкование можно дать неравенству (2): если на плоскости функции ср(х) значение <?(х0) изображается точкой W0, то неравенство (2) означает, что точка W лежит внутри круга С2 радиуса е и с центром в точке W0.

Теперь определению непрерывности функции в точке можно дать следующее наглядное истолкование: функция <?(х) непрерывна в точке лг0, если для круга С2 произвольного радиуса е с центром в точке W0 на плоскости функции можно указать на плоскости переменного х круг Сх такого радиуса 8 с центром в точке Х0, что всякой внутренней точке круга Сг будет соответствовать внутренняя точка круга С2.

Если функция <?(х) непрерывна в любой точке плоскости переменного лг, то функция ф(лг) называется всюду непрерывной или, короче, непрерывной.

Посмотрим теперь, что можно сказать относительно многочлена с комплексными коэффициентами, если его рассматривать как комплексную функцию комплексного переменного1).

Легко убедиться в справедливости следующего предложения:

Многочлен f(x) с комплексными коэффициентами есть непрерывная функция комплексного переменного х.

Доказательство. Пусть

f(x) = a0xn + a1xn-1+ ...+ап и х0 — произвольное значение х или, выражаясь геометрически,

1) Так как поле комплексных чисел есть частный случай бесконечной области целостности R, то мы здесь имеем полное право рассматривать многочлены над полем комплексных чисел как функции комплексного переменного X.

произвольная точка. Так как то

Отсюда, принимая во внимание, что

получаем:

Известно, что модуль суммы меньше или равен сумме модулей, а модуль произведения равен произведению модулей. Следовательно,

(3)

Возьмём точку x столь близкой к точке xQf чтобы х лежало внутри круга радиуса 1 с центром в точке х09 т. е. чтобы | х — лг0|<^ 1.

Тогда I* К |-*о1 ~Ь I- Так как, очевидно, и | лг01 <^ | лг01 —[— 1, то, полагая для сокращения письма \х0 -\-1=М, мы можем неравенство (3) усилить, заменяя в нём \х н \х0\ большей величиной М. Получим:

или

Обозначим

через N. Тогда неравенство (4) запишется в виде

(5)

А теперь возьмём для заданного е^>0 число 8^>0 так, чтобы

Полагая \х — x0\<^üf мы получим следующее усиление неравенства (5):

или окончательно

Итак, многочлен f(x) оказался функцией, непрерывной в точке Xq. Но х0 — произвольно. Следовательно, f(x) есть всюду непрерывная функция, и наше утверждение доказано.

Из непрерывности многочлена вытекает, что и его модуль \ f(x)\ есть также непрерывная функция комплексного переменного х.

В самом деле, согласно одному из свойств модуля мы можем написать, что

I I/O*) I - |/(*о) 11 I/O*)-/(*„) |. (6)

Так как по доказанному многочлен f(x) есть непрерывная функция комплексного переменного ху то для любого е^>0 можно указать такое 8^>0, что при \х — х0\<^Ь будет выполняться неравенство

\f(x)-f(x0)\<e.

Отсюда благодаря неравенству (6) и подавно будет:

||/С*)|-|/С*,)||<е

при \х — лг0|<С^

Из теоремы о непрерывности многочлена вытекает ещё одно следствие:

Пусть

/(X) = а0хп + а^'1 + ... + ап_хх

— многочлен степени п~^0 и со свободным членом ап> равным нулю. Тогда для любого е^>0 можно указать такое о^>0, что для всех Ху удовлетворяющих неравенству |лг|<^8, будет иметь место неравенство |/(-*г)|<^е.

В самом деле, возьмем в качестве х0 значение 0. В силу непрерывности многочлена f(x) можно для любого е^>0 указать такое о^>0, что для всех ху удовлетворяющих условию \х — 0|<^8, будет выполняться неравенство

l/(*)-/(0)i<e.

Но /(0) = 0, так как f(x) есть многочлен со свободным членом, равным нулю. Таким образом, получается, что для любого е^>0 можно указать такое 8^>0, для которого \f(x)\<^e при |je|<^8.

Для доказательства основной теоремы алгебры понадобится, кроме того, несколько лемм.

Лемма 1. Модуль всякого многочлена

/С*) = а^ + ai^~l + - -. + a>n-ix + ап

степени п ^ 1 при достаточно больших по модулю значениях х может быть сделан больше любого наперёд заданного действительного положительного числа M.

Доказательство. Преобразуем многочлен f(x) следующим образом:

Так как модуль суммы больше или равен разности модулей, то

(7)

Выражение

можно рассматривать как многочлен от — со свободным членом, равным нулю. Поэтому можно для е=-^ указать такое 8^>0, что будет иметь место неравенство

(8)

Иными словами, неравенство (8) будет выполняться при |#|]>у=М Отсюда, полагая \x\^>N, можно неравенство (7) усилить, а именно,

или

Возьмём теперь х столь большим по модулю, чтобы одновременно \x\^>N и \x\^>Nv где

Тогда

или \f(x)\^>My что и требовалось показать.

Мы подошли к лемме, играющей в доказательстве основной теоремы алгебры весьма важную роль.

Лемма 2 (лемма Даламбера). Если многочлен

степени п^1 не обращается в нуль при х = х0, то можно подобрать такое комплексное число h, чтобы

Доказательство. Положим х = х0-f-/г. Тогда

/С*о + А) = а0С*о + + а, (*0 + h)n~l + ...+ап.

Раскрывая степени (x0-{-h)k по биному Ньютона и располагая члены по возрастающим степеням А, получаем:

f(xQ + А) = Ь0 + M + M2 + ... + ЬПтЛкп"х + а0/гЛ, (9)

где b0, ôj, ^n_j—соответствующие комплексные числа. Полагая в равенстве (9) А = 0, находим, что b0=f(x0). Таким образом,

f(xQ + h) =f(x0) + bth + M2 + - - - + Vi*""1 + a0A*. (10)

Может случиться, однако, что часть или даже все коэффициенты bv #2» • • •> bn_! будут равны нулю. Рассмотрим сначала тот случай, когда не все Ь£ равны нулю. В этом случае можно указать такое число k (1 <^ri), что Ькф0, но b1=b<2 = ... = = 0 (в частности, если btzjtOy то & = 1). В этом предположении равенство (10) перепишется следующим образом:

/С*, + /г) =/(*,) + ôftAfe + ôft+1Aft+1 + • • • +

Разделим обе части последнего равенства на f(x0). Делить на f(x0) мы имеем право, так как по условию f(x0) ф 0. Получим:

(11)

где

причём ck ф 0, так как, по нашему предположению, Ьк ф 0.

Принимая во внимание, что ck ф 0, мы можем правую часть равенства (11) преобразовать так:

Воспользуемся теперь тем, что модуль суммы меньше или равен сумме модулей и модуль произведения равен произведению модулей:

(12)

Выражение

можно рассматривать как многочлен от h со свободным членом, равным нулю. Для такого многочлена можно при е = у указать такое 8^>0, что при |А|<^8 будет:

Пользуясь этим обстоятельством, усиливаем неравенство (12), предполагая |/г|<^о:

(13)

До сих пор мы подбирали h достаточно малым по модулю. Теперь подберем аргумент h таким, чтобы ckhk было действительным отрицательным числом. Для этого надо потребовать, чтобы arg (ckhk) = к, так как аргумент отрицательного действительного числа равен Tz. Отсюда получаем, что axgck-\-k aigh = ^ и

(14)

С этого момента мы будем всё время предполагать аргумент выбранным таким, как это указано в равенстве (14).

Теперь при указанном выборе аргумента h имеем, что ckhk'= = — \ckh% и неравенство (13) можно переписать следующим образом:

Может случиться, что | ckhk | будет больше единицы. В таком случае возьмём h по модулю столь малым, чтобы \ckhk\<^l. Тогда разность 1 — \ckhk | будет положительна и потому

Отсюда

Но при \ckhr\<^\ неравенство 1—yl^Ä |<^1 будет, очевидно, выполняться. Следовательно, и подавно

при указанном выборе h по модулю и аргументу. Так как

то отсюда следует, что

откуда

Остаётся разобрать случай, когда все коэффициенты bt выражения (10) равны нулю. Но в этом случае дело обстоит ещё проще. А именно, если b1 = b2= ... — Ьп_г = 0, то

откуда

где

Таким образом,

Полагая затем

получаем, что

откуда

Итак, лемма доказана полностью.

Кроме леммы Даламбера, нам также понадобятся некоторые свойства последовательностей комплексных чисел, связанных с понятием предела. При этом мы будем предполагать, что читатель уже имеет некоторое знакомство с понятием предела и сходимости числовых последовательностей в области действительных чисел.

Пусть

дг„ х2 (15)

— некоторая последовательность комплексных чисел, хк = ак -|- ibk, где ak, bk — действительные числа. Комплексное число а называется пределом числовой последовательности (15), если для любого е^>0 можно указать такое число N^>0, что \xk — а|<^е для всех k^>N. При этом последовательность (15) называется сходящейся к числу а. То обстоятельство, что а есть предел последовательности (15), мы будем коротко записывать так: limxÄ = a. Последовательность, не имеющая предела, называется расходящейся. Для сокращения письма мы будем последовательность (15) обозначать через \xk).

Покажем, что последовательность \xk = ak-\- ibk} сходится тогда и только тогда к числу a = %-\-it\, когда последовательно-сти действительных чисел {ak} и {bk\ сходятся соответственно к числам S и т|.

Доказательство. Если limxk = а, то согласно определению предела числовой последовательности можно для всякого е^>0 указать такое положительное число N, что для всех k^>N

(16)

Так как .

то неравенство (16) можно переписать следующим образом:

откуда и подавно

let—«К». \h-ti\<*>

Мы видим, что последовательность {ak\ сходится к а последовательность {bk} сходится к у\: \imak = Z, \im bk = r\.

k оо k —*■ со

Обратно, пусть Тогда для всякого можно указать такие положительные числа что при

(17) (18)

Таким образом, если N—наибольшее из чисел и N2, то неравенства (17) и (18) будут одновременно выполняться для всех k^>N. Отсюда при k^>N получаем, что

т. е. последовательность \xk) сходится к числу а.

На основании только что доказанного можно вывести следующее свойство непрерывных функций комплексного переменного: если комплексная функция q>(x) комплексного переменного непрерывна в точке х0, то для любой последовательности \xk\ комплексных чисел, сходящейся к х0, будет иметь место равенство

В самом деле, согласно определению непрерывности в точке для всякого числа е^>0 можно указать такое 8^>0, что для всех х, удовлетворяющих условию \х — ^0|<С^ будет выполняться неравенство \у(х) — 9(^о)|<^е-

Пусть теперь {xk\ — последовательность комплексных чисел, сходящаяся к х0. Тогда для 8^>0 можно указать такое jV^>0, что \xk — лг0|<[8 при k^>N. Для этих чисел xk, очевидно, будет иметь место неравенство

Мы видим отсюда, что последовательность {y(xk)} сходится к ср(х0),

Назовём последовательность комплексных чисел {xk} (сходящуюся или расходящуюся — безразлично) ограниченной, если можно указать такое достаточно большое положительное число М, что \xk\<CM (£ = 1, 2, 3, ... ).

Назовём, далее, подпоследовательностью последовательности комплексных чисел \xk) последовательность {х^А* где vt> v2, . ..,vÄ, ...

есть некоторая монотонно возрастающая последовательность положительных целых чисел: vt <^ v2 <^ ... <^ vÄ <^ ... Нетрудно убедиться, что если последовательность {xk\ сходится к х0, то и всякая её подпоследовательность {^Vfe} сходится к х0.

В самом деле, так как {xk} сходится к х0, то для любого е^>0 можно указать такое N^>0, что при k^>N будет иметь место неравенство \xk—лг0|<^е. Отсюда для всех vk^>N будет также \x?k — xQ\<Ce> т* е* подпоследовательность {x^k} сходится к тому же числу х0.

Отметим следующее важное свойство ограниченных последовательностей:

Всякая ограниченная последовательность комплексных чисел {xk\ обладает сходящейся подпоследовательностью.

Доказательство. Мы будем считать эту теорему известной для последовательностей действительных чисел. В соответствии с этим мы проведём доказательство так.

Прежде всего легко усмотреть, что из ограниченности последовательности {xk = ak-\-ibk} вытекает ограниченность последовательностей действительных чисел {ak\ и {bk}. В самом деле, так как 1а£ 1^1**1 и т0 из неравенства |xÄ|<^Af следует, что и подавно \ak\<^M, \bk\<^M.

Поскольку последовательность действительных чисел \ak} ограничена, она должна обладать сходящейся подпоследовательностью. Пусть это будет {aVfe}« Тогда {jcVfe = ßvfe 4~^vfe} будет некоторой подпоследовательностью последовательности {xk\. Рассмотрим последовательность {b?k} мнимых частей чисел x^k. Эта последовательность есть подпоследовательность ограниченной последовательности {bk\ и потому в свою очередь ограничена. Следовательно, {b?k} должна обладать сходящейся подпоследовательностью. Пусть это будет {#|ife}. Рассмотрим последовательность {x^k = ailk~\-ibllk}. Она сходится, так как {b^k} сходится, и {a^k} сходится (как подпоследовательность сходящейся последовательности {aVfe})« Мы видим отсюда, что {xk} обладает сходящейся подпоследовательностью {л^}.

Вернёмся теперь к многочлену f(x) и рассмотрим множество А всевозможных значений модуля многочлена |/(х)|. Так как модуль комплексного числа не может быть отрицательным, то |/(аг)|^0. Таким образом, это множество А оказывается ограниченным снизу. Известно, что всякое (не пустое) множество действительных чисел, ограниченное снизу, должно обладать нижней гранью. Следовательно, и для множества А должна существовать нижняя грань, т. е. должно существовать такое действительное число /, что \f(x)\^l для

всех значений х, и для любого 8^>0 можно указать такое значение х — х\ при котором \/(х')\<^1-\-Ъ. Иными словами, для любого о^>0 можно подобрать такое комплексное число х\ что

(19)

Покажем, что имеет место даже нечто большее, а именно справедлива следующая.

Теорема 15. Если I—нижняя грань множества А всевозможных значении модуля многочлена \f(x)\, то существует по меньшей мере одно такое комплексное число х0, что l = \f(x0)\.

Доказательство. Возьмём какую-нибудь последовательность \bk\ положительных действительных чисел, сходящуюся к нулю. Согласно сказанному выше о неравенстве (19) можно для каждого bk подобрать такое xky что

(20)

Последовательность {bk\ сходится к нулю. Это значит, что для всякого б^>0 можно указать такое jV^>0, что для всех k^>N будет иметь место неравенство ük<^e. Отсюда для k^>N можно неравенство (20) усилить, а именно при k^>N будет иметь место

Последнее неравенство свидетельствует о том, что последовательность действительных положительных чисел {|/(л4)|} сходится к /. Поскольку последовательность { |/(лг^)|} сходится, она должна быть ограниченной, т. е. должно существовать такое число УИГ^>0, для которого

(21)

Согласно лемме 1 можно для этого M указать такое положительное число N, что при I x I ^> N будет выполняться неравенство

(22)

Но для чисел х\, х'2> ..., x'k, ... имеет место неравенство (21), а не (22). Поэтому x'k не могут быть по модулю больше N; иными словами, \x'k\^rN. Таким образом, последовательность {x'k} оказалась ограниченной. Но, как известно, ограниченная последовательность {x'k} должна обладать сходящейся подпоследовательностью. Пусть это будет {х^}, причём пусть lim x^k=x0.

Так как {|/С*^)|} есть подпоследовательность последовательности |[/(.*^)[} сходящейся к /, то {|/(^vfe)|} также сходится к /, Следовательно, мы можем написать, что

(23)

Но в силу непрерывности модуля многочлена

(24)

Таким образом, сравнивая равенства (23) и (24), получаем:

и теорема доказана.

Теперь мы можем сформулировать основную теорему алгебры и приступить к её доказательству.

Основная теорема алгебры. Всякий многочлен f(х) степени п^1 с комплексными коэффициентами имеет в поле комплексных чисел по меньшей мере один корень.

Доказательство. Как мы только что установили, существует по меньшей мере одно такое комплексное число х0, для которого \f(x0)\ = l, где / — нижняя грань всех значений модуля многочлена |/(лг)|- Покажем теперь, что 1=0. Допустив противное, предположим, что 1ф0. Тогда f(x0) ф О, и мы можем воспользоваться леммой Даламбера. Согласно этой лемме можно подобрать такое комплексное число х' = х0-{-hy что \f(x')\<^\f(x0)\ или \f(x')\<^l. Но последнее неравенство противоречит тому, что /есть нижняя грань всех значений |/(лг)|. Следовательно, наше допущение неверно и, таким образом, l = \f(x0) \ должно равняться нулю. Отсюда /(лг0) = 0, т. е. х0 оказалось корнем многочлена f(x).

Из основной теоремы алгебры вытекает целый ряд следствий. Отметим наиболее существенные.

1°. В поле комплексных чисел неприводимыми являются лишь многочлены первой степени.

В самом деле, если р(х) — многочлен, неприводимый в поле комплексных чисел, то он согласно основной теореме алгебры должен иметь по меньшей мере один комплексный корень х0. Отсюда р(х) = (х — x0)q(x). Но в силу неприводимости р (х) многочлен q(x) не может иметь степень выше нулевой. Следовательно, q{x) = c, где с — некоторое комплексное число, отличное от нуля. Таким образом, р(х) = с(х — х0), т. е. р (х) оказался многочленом первой степени, что и требовалось показать.

2°. Всякий многочлен f(x) степени п^1 с комплексными коэффициентами разлагается в поле комплексных чисел целиком на линейные множители.

Действительно, многочлен f(x) должен следующим образом разлагаться на неприводимые множители в поле комплексных чисел

(25)

так как в этом поле неприводимыми являются лишь многочлены первой степени. При этом, очевидно, а0 есть старший коэффициент многочлена f(x).

3°. Всякий многочлен f(x) степени п с комплексными коэффициентами имеет п комплексных корней, считая при этом каждый корень столько раз, какова его кратность. Действительно, это следствие с очевидностью вытекает из разложения (25).

Для получения дальнейших следствий воспользуемся следующим важным свойством многочлена с действительными коэффициентами: если х0 — корень многочлена f(x) с действительными коэффициентами, то сопряжённое комплексное число х0 будет также корнем многочлена f(x). Иными словами, мнимые корни многочлена f(x) с действительными коэффициентами должны быть попарно сопряжены.

Доказательство. Пусть = а —f— ß/ — мнимый корень многочлена

/ (х) = а0 хГ- + а^-1 +... + ап

с действительными коэффициентами. Обозначим через х0 комплексное число, сопряжённое с х0) и разделим многочлен f(x) на g(x) = = (х — х0)(х — х0) = х* — 2ах -f- (а2 + ß2). Так как степень делителя g(x) равна двум, то остаток будет иметь вид Px-\-Q> причём его коэффициенты действительны, так как коэффициенты делимого f(x) и делителя g(x) действительны. Таким образом, можно написать, что

f(x) = (x — x0) (х — х0) q (х) + (Px + Q).

Полагая в последнем равенстве х = х0, получаем:

P(a+ßi) + Q = 0,

или

(aP + Q) + /ßP=0,

откуда

aP-f-Q = 0, ßP=0.

Но ß ф О, так как х0 — мнимое число. Следовательно, Р=0 и потому Q = 0. Отсюда

f(x) = (х — х0) (х — х0) q (х),

и теперь становится очевидным, что х0 есть также корень многочлена f(x). Теперь укажем дальнейшие следствия из основной теоремы алгебры. Они будут относиться уже к многочленам с действительными коэффициентами.

4°. В поле действительных чисел неприводимыми могут быть только многочлены не выше второй степени.

В самом деле, пусть, вопреки утверждению, f(x) есть многочлен с действительными коэффициентами выше второй степени и неприводимый в поле действительных чисел. Согласно основной теореме алгебры f(x) должен иметь по меньшей мере один комп-

лексный корень х0. Этот корень не может быть действительным: если бы х0 было действительным, то многочлен f(x) был бы приводимым в поле действительных чисел:

f(x) = (x — x0)q(x),

где q(x)— многочлен с действительными коэффициентами. Следовательно, х0 есть мнимый корень. Отсюда в силу доказанного выше получаем при x0 = a-\-$i (ß Ф 0), что

/ (X) = [X2 - 2ах + (а2 + ß2)] q (x).

Так как коэффициенты квадратного трёхчлена Xя — 2ах -f-(а2 -|- ß2) действительны, то q(x) должен быть многочленом также с действительными коэффициентами. Вместе с тем степень q(x) не ниже единицы, так как f(x) есть многочлен выше второй степени. Получилось противоречие с нашим предположением о неприводимости f(x) в поле действительных чисел.

5°. Всякий многочлен степени п ^ 1 с действительными коэффициентами разлагается в поле действительных чисел на множители не выше второй степени.

6°. Число действительных корней многочлена f (х) степени п^1 с действительными коэффициентами имеет ту же чётность, что и степень п многочлена.

Справедливость этого свойства видна из следующих рассуждений.

Как мы уже знаем, многочлен f(x) должен иметь п комплексных корней (см. 3°). Среди этих корней могут быть и действительные корни. Пусть число действительных корней многочлена f(x) равно 5 (O^s^n). Тогда п — 5 будет числом мнимых корней многочлена. Из попарной сопряжённости мнимых корней следует, что их число п — 5 должно быть чётным, откуда п и s имеют одинаковую чётность.

Из свойства 6°, в частности, вытекает, что если степень многочлена f(x) с действительными коэффициентами нечётна, то многочлен имеет нечётное число действительных корней и потому имеет по меньшей мере один действительный корень.

Мысль о том, что многочлен /z-й степени имеет п комплексных корней, возникла ещё в XVII в. и была высказана в 1629 г. французским математиком Жираром. В 1746 г. Даламбер сделал попытку доказать основную теорему алгебры. Первое удовлетворительное доказательство было дано в 1799 г. Гауссом. В настоящее время известно много различных доказательств этой теоремы1).

1) В учебниках Куроша [2] и Окунева [4] по курсу высшей алгебры приводится доказательство основной теоремы алгебры, связанное с понятием поля разложения. В книге Кузьмина-Фаддеева [1] можно найти доказательство, связанное с поведением аргумента многочлена/(г) комплексного переменного z при обходе точки z замкнутого контура (см. стр. 41—51). Известны также и топологические доказательства основной теоремы алгебры. Одно из таких доказательств излагается на стр. 356 — 358 книги Р. Куранта и Г. Робинса «Что такое математика» (Гостехиздат, 1947),

В свое время эта теорема считалась краеугольным камнем всей алгебры. В настоящее время в связи с весьма интенсивным развитием таких разделов, как теория групп, теория колец и теория полей, эту теорему следует рассматривать только как основную теорему алгебры комплексных чисел.

§ 7. Проблема решения уравнений в радикалах. Двучленные уравнения

В предыдущем параграфе было установлено, что всякое алгебраическое уравнение /г-й степени с комплексными коэффициентами

а,*»+ а1*""1+ ... + *„=О (а0^0) (1)

имеет в точности п комплексных корней. Теперь возникает вопрос — как найти эти корни с помощью тех или иных операций, производимых над коэффициентами уравнения (1).

Основными алгебраическими операциями, совершаемыми над комплексными числами, являются четыре арифметических действия, а также действия возвышения в степень и извлечение корня. Поэтому является вполне естественной следующая задача, известная под названием проблемы решения уравнений в радикалах: выразить корни уравнения (1) через его коэффициенты с помощью конечного числа действий сложения, вычитания, умножения, деления, возвышения в степень и извлечения корня.

Операция извлечения корня /г-й степени из комплексного числа а сводится к отысканию корней так называемого двучленного уравнения

хп — а = 0 (афО). (2)

В алгебре обычно под символом у а подразумевается один из корней двучленного уравнения (2), и этот символ часто называется радикалом.

Уже из курса элементарной алгебры известно, что уравнение второй степени решается в радикалах. В ближайших параграфах мы увидим, что решаются в радикалах и уравнения третьей и четвёртой степеней. Гораздо сложнее обстоит дело с уравнениями высших степеней. В § 16 мы покажем, что уравнения выше четвёртой степени, вообще говоря, нельзя решить в радикалах. Таким образом, алгебраические действия оказываются недостаточными для решения любого уравнения, имеющего степень выше четырёх.

Вернёмся к операции извлечения корня /г-й степени из комплексного числа. Из теории комплексных чисел известно, что все п корней уравнения (2) можно найти по формуле

где r—модуль а, 9— аргумент а и |j/r|— арифметическое значение корня п-й степени из г.

Формула (3) допускает любопытное геометрическое истолкование. Возьмём для изображения комплексных чисел координатную плоскость Р с прямоугольной системой координат Oaß. Тогда числа

будут изображаться на плоскости Р векторами, имеющими начало в точке О, а концы — в вершинах правильного /г-угольника, вписанного в окружность радиуса /? = |j/V| и с центром в точке О. Мы видим отсюда, что решение двучленного уравнения (2) тесно связано с задачей построения правильного /г-угольника.

Пример. Найти правильный шестиугольник, соответствующий корням двучленного уравнения Xs— / = 0, где / = }/—1—мнимая единица.

Так как модуль I равен 1, аргумент i равен -у и п = 6, то по формуле (3) получаем:

Полагая k равным последовательно 0, 1, 2, 3, 4, 5, будем иметь все шесть корней уравнения

Корню х0 на плоскости Р будет соответствовать вектор Ох0 с длиною, равною единице, причём этот вектор образует с положительным направлением оси Оа угол, равный т. е. в 15°. Чтобы получить вектор Охь соответствующий корню xit надо повернуть вектор Öx0 против часовой стрелки на угол, равный --^- = -^- , т. е. на 60°. На тот же угол против часовой стрелки придётся, очевидно, повернуть и вектор Охх для получения вектора Ох2, изображающего корень х2, и т. д. Одним словом, концы векторов Ох0у Oxv Ох2, Охцу Oxk и Охк будут находиться в вершинах правильного шестиугольника радиуса R=l.

Двучленное уравнение (2) можно свести к ещё более простому уравнению

Xя—1=0. (4)

Дело в том, что между корнями уравнений (2) и (4) имеет место следующая зависимость: умножая один из корней п-й степени из а на всевозможные корни той же степени из единицы, мы получим все корни п-й степени из а.

Доказательство. Будем обозначать, как и выше, корни /г-й степени из а через xk, а корни /г-й степени из единицы — через ak. Возьмём один из корней /г-й степени из а, например х0, и покажем, прежде всего, что x0ak есть также корень /г-й степени из а. Для этой цели возведём x0ak в /г-ю степень. Получим:

(хо%)П = *№= аЛ=а,

т. е. Хца^ действительно оказалось корнем /г-й степени из a: x0ak=xk.

Теперь пусть xk — произвольный корень /г-й степени из а. Рассмотрим частное —. Легко видеть, что — есть корень /г-й степени из единицы. В самом деле,

Таким образом, мы можем написать, что

(5)

Итак, все корни /г-й степени из а получаются по формуле (5), т. е. путём умножения корня аг0 /г-й степени из а на всевозможные корни ak /г-й степени из единицы.

Среди корней /г-й степени из единицы весьма важную роль в теории двучленных уравнений играют так называемые первообразные корни.

Корень е /г-й степени из единицы называется первообразным, если е при возведении в степени 0, 1, 2, п даёт все корни /г-й степени из единицы.

Нетрудно убедиться, что для всякого целого положительного числа п существует по меньшей мере один первообразный корень п-й степени из единицы.

Чтобы убедиться в справедливости этого утверждения, обратимся к формуле извлечения корня /г-й степени из комплексного числа. Согласно этой формуле получаем

Отсюда по формуле Муавра

где

Мы видим отсюда, что е есть первообразный корень #-й степени из единицы.

§ 8. Уравнения второй и третьей степеней

Теперь перейдём к уравнениям второй и третьей степеней. Предварительно, однако, сделаем одно замечание, относящееся к алгебраическому уравнению

а0х» + а^-1 -f... + ап = О (а0 ф 0) (1)

любой степени. А именно, покажем, что соответствующей заменой неизвестного х новым неизвестным у можно добиться некоторого упрощения уравнения (1) — можно сделать равным нулю член с (п—1)-й степенью неизвестного. Для этой цели положим х=у-\-а9 где а — пока совершенно произвольное число. Получим;

а„ С+«)" + а, СУ+аГ1 + ••• + «„ = 0,

или, раскрывая скобки по биному Ньютона и располагая члены в порядке убывания степеней у:

*оУ + (па0а + ах)зГ1 + ...+ (а0а* + о,*-1 -f... + ап) = 0.

Таким образом, если мы стремимся, чтобы в последнем уравнении исчез член с уп~1, то надо, пользуясь произволом а, положить

па0а-\- at = 0.

Отсюда получаем, что а = — .

Итак, полагая х=у--— , мы получим уравнение с неизвестным у, в котором член с у*1"1 равен нулю.

Посмотрим, что даёт это преобразование для уравнения второй степени

ax* + bx+c = 0 (афО). (2)

Здесь а0==а, а^ — Ь, п = 2. Поэтому в соответствии с изложенным полагаем: х=у — Получим:

или после очевидных упрощений:

откуда

Мы пришли к известной формуле решения квадратного уравнения. Обычно эту формулу записывают в виде

(3)

подразумевая под \/Ь* — \ас одно какое-нибудь значение корня квадратного из — 4ас. Формула (3), таким образом, даёт оба корня уравнения (2).

Остановимся несколько подробнее на извлечении корня квадратного из комплексного числа, поскольку решение уравнения второй степени связано с этой операцией.

На основании общей формулы извлечения корня /г-й степени из комплексного числа мы можем в данном случае написать, что

где 9 — аргумент А и г — модуль А. Формулу (4) удобнее, однако, преобразовать в более простую формулу, избавляющую от необходимости находить модуль и аргумент комплексного числа Ау когда А задано в двучленном виде A = a-\-$L Именно, выразим г, cos 9 и sin 9 через действительную часть а и коэффициент ß при мнимой части комплексного числа А. Имеем:

символ абсолютной величины означает, что для модуля г числа А берётся положительное значение корня. Отсюда

Знаки ± для cos — и sin-^- следует брать так, чтобы не было противоречия с соотношением

А именно, в случае ß]>0 числа cos-|- и sin у должны иметь одинаковые знаки, а при ß<^0— противоположные знаки. Принимая во внимание, что

получаем вместо формулы (4) следующую формулу:

(5)

При ß^O следует брать перед мнимой единицей знак плюс, а при ß<^0 — знак минус.

Пример 1. Найти, чему равен /21+20/.

Здесь а = 21, ß = 20]>0. Поэтому, руководствуясь формулой (5), пишем:

Пример 2. Решить квадратное уравнение

По формуле решения квадратного уравнения имеем:

или

Мы написали перед радикалом знак плюс, так как у нас |/ 32 — 126/ означает любое значение квадратного корня. Найдём теперь, чему равен /32— 126/:

Отсюда

Займёмся исследованием квадратного уравнения с комплексными коэффициентами, т. е. выясним, при каких условиях уравнение имеет различные корни и при каких условиях оно имеет кратные корни. Нам придётся воспользоваться так называемыми формулами Вьета. Мы их выведем для общего случая уравнения п-й степени, так как эти формулы понадобятся и для уравнений выше второй степени.

Пусть

*г + ахх*-1 + ...+ап=о

— алгебраическое уравнение с комплексными коэффициентами ai9 *-.Уап и со старшим коэффициентом, равным единице. Обозначим его корни через xlf х2, ..., хп. Тогда можно будет написать следующее разложение многочлена f(x) =хп -f- аххп~х -f-... -f- ап на линейные множители:

Отсюда, производя перемножение линейных множителей, получаем:

Но если два многочлена равны, то их коэффициенты при одинаковых степенях х должны совпадать. Следовательно,

(А)

В правых частях соотношений (А) стоят всевозможные произведения корней по одному, по два, по три и т. д. Мы пришли к формулам Вьета.

Вернёмся к квадратному уравнению. Для большей простоты можно всегда предположить, что старший коэффициент уравнения равен единице; в противном случае мы разделили бы обе части уравнения на старший коэффициент. В этом предположении квадратное уравнение будет выглядеть так:

(в)

Обозначим корни уравнения (6) через xY и х2. Тогда по формулам Вьета имеем:

p= — (xi-\-x2), q=x1x2. (7)

Корни хх и х2 уравнения (6) найдутся по формуле

Мы пишем перед радикалом знак плюс, так как у нас -- означает любое значение квадратного корня.

Подкоренное выражение --q обычно называется дискриминантом квадратного уравнения. Исходя из формул Вьета, легко показать, что уравнение (6) тогда и только тогда имеет двукратный корень, когда его дискриминант равен нулю.

В самом деле, если уравнение (6) имеет один двукратный корень, то это означает, что уравнение имеет два равных корня: хх =х2. Отсюда р = — (х1-\-Хо) = —2xt, q = xix2 = x\ и

Обратно, если дискриминант --q равен нулю, то, подставляя вместо р и q их выражения через корни xt и хг по формулам Вьета, получаем:

откуда (хх — х2)2 = 0, или х1=х2.

Если, в частности, коэффициенты уравнения (6) действительны, то с помощью дискриминанта можно установить, когда корни уравнения действительны и когда они являются мнимыми. Очевидно, что корни уравнения (6) будут действительными в том и только в том случае, когда его дискриминант --q неотрицателен, так как в этом случае корень квадратный из --q имеет действительные значения.

В дополнение к только что сказанному можно отметить, что

1) уравнение (6) имеет различные действительные отрицательные корни, если 4--q^>0 и коэффициенты р и q положительны;

2) уравнение (6) имеет различные действительные положительные корни, если --Ç^>®> коэффициент р отрицателен, а коэффициент q положителен;

3) уравнение (6) имеет один корень положительный,

а другой отрицательный, если — q^>0 и коэффициент q отрицателен;

4) уравнение (6) имеет при --q = 0 только один двукратный действительный корень, положительный или отрицательный в зависимости от того, будет ли р отрицательно или положительно.

В справедливости всех этих утверждений легко убедиться с помощью формул Вьета.

Перейдём к уравнению третьей степени:

хъ -\- ах2 -\-Ьх-\-с = 0.

Без ограничения общности старший коэффициент можно предполагать равным единице. Подвергнем это уравнение уже знакомому упрощению — сделаем член с квадратом неизвестного равным нулю, для чего положим х=у—. Получим в результате так называемое каноническое уравнение третьей степени:

У*+РУ + 9 = 0, (8)

где

Чтобы найти корни уравнения (8), воспользуемся следующим приёмом: подразумевая под у любой из корней уравнения (8), рассмотрим квадратное уравнение

Если uyv — корни этого квадратного уравнения, то по формулам Вьета

(9)

Отсюда, подставляя выражение у через к, v в уравнение (8), имеем:

Раскроем скобки и произведём некоторую перегруппировку членов. Получим тогда, что

Но в силу равенства (9) Згго -|— /7 = 0. Следовательно,

или

(10)

Кроме того, возводя обе части равенства (9) в куб, получаем:

(11)

Из равенств (10) и (11) видно на основании формул Вьета, что и3 и V* являются корнями следующего квадратного уравнения:

Решаем это квадратное уравнение:

откуда

(I)

Мы пришли к формуле Кардана решения уравнения третьей степени. При вычислении корней уравнения (8) третьей степени следует, однако, иметь в виду, что к и г/ не независимы, а связаны друг с другом равенством

Пример 3. Решить с помощью формулы Кардана уравнение

Это уравнение является каноническим; поэтому можно сразу обратиться к формуле Кардана.

Здесь /7 = 15, ^=124. Следовательно, в данном случае

Находим все три значения щ так как

то

Соответствующие значения v мы найдём, пользуясь равенством uv = — £- = — 5. Имеем:

Отсюда без труда находим все три корня уравнения:

Пример 4. Решить с помощью формулы Кардана уравнение

*34-3лг2 — 6лг+3 = 0.

Приводим это уравнение к каноническому виду, полагая х — =у—1. Получаем:

Отсюда

Здесь удобнее сначала найти действительное значение щ корня третьей степени из — — у . С точностью до четвёртого знака после запятой находим, что

Остальные два значения и мы найдём, умножая и0 на корни третьей степени из единицы:

Получаем:

Соответствующие значения v найдутся из равенства

Таким образом,

или

Вспомнив теперь, что х=у—1, получаем для корней данного уравнения следующие значения:

Пусть и0 — одно из значений и. Обозначим через е первообразный корень третьей степени из единицы. Тогда остальные два значения и могут быть записаны следующим образом:

Отсюда получаем для соответствующих значений v:

Таким образом, корни уравнения (8) можно находить по формулам

(12)

где и0— одно из значений и (какое именно, безразлично), v0 = = — а е—какой-нибудь первообразный корень третьей степени из единицы.

Если в качестве s взять

то формулы (12) принимают ещё более удобный для вычисления вид:

(12*)

Выражение Д = ^0 фигурирующее под корнем квадратным в формуле Кардана, иногда называют дискриминантом уравнения (8)1). Посмотрим, что получается в случае А = 0 и А^О.

Если A = ^j ~^(з") то а~\//Г—f"' ^то выражение 11 можно несколько упростить. А именно,

Так как

Следовательно,

откуда в качестве одного из значений и получается следующее выражение:

1) Более употребительно называть дискриминантом не А, а —Д.

Соответствующее значение v0 будет равно

Обращаясь к формулам (12*), мы, таким образом, получаем:

Итак, если Д = 0, то уравнение (8) при рфО и дфО имеет один простой корень у0 и один двукратный корень у1=у2. Эти корни можно найти, не прибегая к извлечению корней второй и третьей степеней, а именно, их можно вычислить по формулам

(13)

Пример 5. Решить уравнение

Приводим, прежде всего, это уравнение к каноническому виду, для чего полагаем х=у-\- 1. Получаем:

Легко видеть, что здесь

и мы можем воспользоваться формулами (13):

Обратимся к случаю А^О и покажем, что если АфО, то уравнение (8) имеет три различных корня.

Доказательство* Предположим противное: пусть уравнение (8) имеет два корня, равных одному и тому же числу а; третий же корень пусть равен ß. Тогда по формулам Вьета получаем, что

Следовательно,

Таким образом,

что противоречит условию А ф 0.

До сих пор мы предполагали коэффициенты кубического уравнения любыми комплексными числами. Рассмотрим теперь наиболее часто встречающийся случай кубического уравнения с действительными коэффициентами. Мы увидим, что и в этом случае дискриминант А играет существенную роль в исследовании кубического уравнения.

А) А^>0. Так как здесь А ф О, то все три корня уравнения (8) должны быть различными. Выясним, сколько среди них будет действительных корней.

Обращаясь к выражению

легко усмотреть, что под кубическим корнем находится действительное число, так как Д^>0. Следовательно, одно из значений и должно быть действительным. Примем его за и0. Тогда v0 будет также действительным. Отсюда на основании формул (12*) заключаем, что уравнение (8) имеет только один действительный корень, а именно yQ = u0-\-v0. Выясним, когда этот корень положителен и когда отрицателен.

Пусть р^>0. Тогда

и и0 должно быть положительным, а число v0, равное действительному значению

должно быть, очевидно, отрицательным. Далее, при q^>0

а при q<C®

Таким образом, если q^>0, то [»oKl^ol» вследствие чегоy0=u0-{-v0 будет отрицательным; если же q <^ 0, то | щ | | v01 и потому у0 будет положительным.

Пусть теперь р<^0. Тогда

и и0 должно быть отрицательным при q^>0 и положительным приу<[0, а число v0, равное действительному значению

будет также при q^>0 отрицательным и при q <^ 0 положительным. Отсюда корень у0 = щ -f- v0 при q ^> 0 будет отрицателен, а при q <^ О положителен.

Итак, если А^>0, то уравнение (8) имеет лишь один действительный корень, причём при q^>0 этот корень будет отрицательный, а при q<^0 — положительным.

Б) Д = 0. Мы знаем, что при А = 0, рф 0, q^O уравнение имеет два равных корня. Учитывая, что теперь рассматривается уравнение с действительными коэффициентами, можно сделать следующее заключение: при А = 0, р фО, q фО все три корня уравнения (8) действительны, причём два из них равны; иными словами, уравнение имеет один простой действительный корень и один двукратный действительный корень:

Из

вытекает, что

откуда р<^0. Таким образом, если q^>0, то простой корень у0 будет отрицательным, а двукратный корень yt=y2 будет положительным; если же q<^0, то у0 будет положительно, a yl=yi — отрицательно.

В) А<^0. Этот случай известен под названием неприводимого случая и является в следующем отношении примечательным. А именно, так как корень третьей степени здесь приходится извлекать из мнимых чисел, то к и Ii являются мнимыми. И тем не менее все три корня будут действительны. В самом деле, так как А<^0, то мы можем положить А = — а2, где а — некоторое действительное положительное число. Тогда

Найдём модуль г и аргумент 9 подкоренного выражения. Имеем:

Таким образом,

Полагая последовательно k = 0, 1, 2, получаем все три значения к:

Известно, что произведение комплексного числа z на сопряжённое комплексное число z равно квадрату модуля z:

Руководствуясь этим, мы можем легко определить vQ, vif v2. Для этой цели обратимся к выражению

Мы видим, что модуль и равен

Отсюда квадрат модуля и будет равен — ~. Следовательно, ии — — у. Но и и V связаны тем же самым соотношением: uv = — Значит, v = ïït и мы получаем, что

Теперь все три корня уравнения (8) найдутся без труда:

(14)

Из формул (14) видно, что корни v0, у]у у* действительны и различны. Кроме того, исходя из формул (14), можно показать,

что при q^>0 уравнение (8) имеет два положительных корня, а при q<^0 — только один положительный корень.

В самом деле, если q^>0, то cos9<^0. Так как sin 9 ^> 0, то угол 9 должен лежать во второй четверти. Отсюда-|-^>-^ и лежит в первой четверти, а —^--в четвёртой, вследствие чего корни у0 и Уч положительны. Если q <^ 0, то аналогичным образом убеждаемся, что только у0 будет положительным.

Итак, в случае Д<^0 уравнение (8) имеет три действительных различных корня, причём при q^>0 два корня положительны, а при q<^0 только один корень положителен.

Корни у0, уи у% вычисляются по формулам (14) довольно легко, если пользоваться таблицами логарифмов значений тригонометрических функций.

Формула (I) на стр. 211 обладает тем недостатком, что она в случае отрицательного А выражает действительные корни уравнения (8) с действительными коэффициентами в мнимом виде. Для Кардана и его современников случай отрицательного Д казался парадоксальным, так как в то время понятие комплексного числа ещё не имело конкретного истолкования и операции извлечения квадратного корня из отрицательных чисел и извлечения кубического корня из комплексных чисел считались невозможными. Для математиков того времени было удивительным то обстоятельство, что в случае Д<^0 получались с помощью этих невозможных операций действительные числа. Были предприняты многочисленные попытки освободиться от мнимостей в формуле Кардана, но эти попытки кончались неудачей. С помощью рассуждений, выходящих за пределы нашей статьи, можно показать, что корни уравнения (8) с действительными коэффициентами в случае А <^ 0 никаким способом нельзя выразить через радикалы с действительными подкоренными выражениями. В силу этого обстоятельства случай Д<^0 и получил наименование неприводимого случая.

Другой недостаток формулы (I) состоит в том, что она часто представляет рациональные корни в иррациональном виде. Приведём пример.

Пример 6. С помощью общего приёма нахождения рациональных корней многочленов с рациональными коэффициентами легко убедиться, что уравнение

х^ — X — 6 = О

имеет рациональный корень х0 = 2. Так как для данного уравнения

то 2 является единственным действительным корнем уравнения.

Посмотрим теперь, что даёт формула (I). Обозначим через н0, v0 действительные значения кубических корней в формуле (I):

Мы видим, что и0 и v0 являются иррациональными числами. Таким образом, формула (I) даёт для корня х0 = 2 довольно сложное выражение

(для каждого кубического корня берётся действительное значение), которое приходится вычислять приближённо, так что на практике получается число, весьма близкое к 2, но не 2.

Вследствие этого недостатка рекомендуется рациональные корни кубического уравнения с рациональными коэффициентами находить не по формуле (I), а с помощью общего приёма вычисления рациональных корней, изложенного в § 4.

§ 9. Уравнение четвёртой степени

Мы начнём с изложения самого раннего способа решения уравнения четвёртой степени

лг4 + ахъ + Ъх* + ex -f d = О, ( 1 )

решения, принадлежащего Луиджи Феррари — ученику Кардана. Этот способ, впрочем, был нами использован ещё в § 5 для разложения многочлена четвёртой степени с рациональными коэффициентами на множители.

Мы будем предполагать, как и в предыдущем параграфе, коэффициенты уравнения комплексными (и, в частности, действительными) числами.

Подвергнем многочлен

/ (х) = xi + ахъ + Ьх2 + ex -f d,

находящийся в левой части уравнения (1), тем же самым преобразованиям, что и в § 5. В результате уравнение (1) превратится в

(2)

где

Подберём теперь вспомогательную величину у так, чтобы квадратный трёхчлен Ах% -f- Вх -\- С был полным квадратом некоторого линейного многочлена ах-\-$. Мы знаем, что это может

быть в том и только в том случае, когда у является корнем кубической резольвенты

(3)

Пусть у0 — один из корней уравнения (3). Тогда при у=у0 Ах2 + Вх -f С = (ах + ß)2, в результате чего уравнение (2) перепишется следующим образом:

или, разлагая разность квадратов в произведение суммы на разность:

Отсюда, решая квадратные уравнения

(4)

мы получим все четыре корня уравнения (1).

Итак, решение уравнения (1) сводится к решению уравнения третьей степени — кубической резольвенты — и решению квадратных уравнений (4).

При решении того или иного уравнения четвёртой степени мы рекомендуем проводить последовательно преобразования Феррари, а не пользоваться готовыми формулами. В качестве образца приводим решение следующего уравнения.

Пример 1. Решить с помощью способа Феррари уравнение

Прежде всего перенесём в правую часть уравнения с противоположными знаками все члены, степень которых не выше двух:

или

Если к обеим частям последнего уравнения прибавить лг2, то в левой части получится полный квадрат. Производим это преобразование:

или

Теперь к обеим частям получившегося уравнения прибавляем 2 (х2 -\-х)у -\-у2. От этого левая часть не перестанет быть полным квадратом:

(*» л- xf -t- 2 (x2 -f х)у + У = — 4#* — 6* — 9 + 2 (л;2 + х) .у + У, или

(^2 + ^+3/)2 = (2з/ —4)^2 + (2;; —6)>; + Cv2 —9). (5)

Возьмем теперь j/ таким, чтобы и правая часть уравнения (5) была полным квадратом. Для этого у должно быть корнем кубической резольвенты. Чтобы получить кубическую резольвенту, надо воспользоваться условием £2 = 4ЛС. В данном случае А = 2у— 4, В = 2у — 6 и С=у2 — 9. Следовательно,

(2у — 6f = A(2y — 4)(У — 9)

или после некоторых упрощений:

О—з)[(у—3)—(Зу—4)Су+з)]=о.

Мы видим отсюда, что в качестве у0 можно взять 3.

Возвращаемся к уравнению (5) и заменяем в нём у значением у0 = 3:

(*2 +* +3)2 = 2лг2

или

откуда

(6)

Решая уравнения (6), получаем все четыре корня данного уравнения четвёртой степени, а именно,

Приведём ещё один способ решения уравнения четвёртой степени. Он принадлежит знаменитому петербургскому академику Леонарду Эйлеру и замечателен в том отношении, что непосредственно выражает корни уравнения четвёртой степени через корни кубической резольвенты.

Положим, прежде всего, х=у— -g. Тогда полное уравнение четвёртой степени (1) превратится в четырёхчленное уравнение

(7)

Наряду с уравнением (7) рассмотрим кубическое уравнение относительно z:

(8)

где у — любой из корней уравнения (7), а коэффициенты тип пока произвольны.

Если корни уравнения (8) обозначить через tt, vy w, то по формулам Вьета будем иметь

2y — uJrv-\-w, m = iiv-\-uw-\-vw, п = — uvw.

Возводим обе части равенства

2y = u + v-\-w (9)

в квадрат:

(10)

Обе части равенства (10) возводим снова в квадрат:

(11)

Подставляя в уравнение (7) вместо у, у2, yk их выражения из равенств (9), (10) и (11), получаем после некоторых упрощений:

(12)

Подберём теперь коэффициенты тип уравнения (8) так, чтобы уравнение (12) максимально упростилось. А именно, положим:

и2 + v* + w*Jr2p = 0, uvw-\-q = Q1).

Тогда уравнение (12) превратится в

1) Легко убедиться, что такой подбор коэффициентов вполне возможен. Прежде всего из равенства uvw -\-q = 0 следует, что # = — uvw — q. Затем, заменяя в правой части равенства (10) и2 + ü2+ w* и uv + uw -\- vw их значениями— 2/7 и т9 получаем:

4у = -2р + 2///,

откуда т = 2у2+р.

Отсюда следует, что к, v, w удовлетворяют следующей системе уравнений:

Из равенств (13) следует на основании формул Вьета, что и2, и2, w1 являются корнями следующего кубического уравнения

(14)

которое переходит в уравнение кубической резольвенты для уравнения (7), если заменить здесь z через 2z'—р.

Таким образом, решая уравнение (14), мы получим три его корня

откуда

Значения радикалов j/zu |/г2, j/zz следует выбирать с таким расчётом, чтобы выполнялось равенство

(15)

Очевидно, что значения двух радикалов могут быть выбраны произвольно, а значение третьего радикала придётся уже брать, исходя из равенства (15).

Выбрав указанным образом значения радикалов j/zly \fzo, z.à, мы получим все четыре корня уравнения (7) по формулам

(16)

Пример 2. С помощью способа Эйлера решить уравнение

Полагаем

в результате чего получаем уравнение

(17)

Здесь

Стало быть, уравнение (14)

принимает вид:

(18)

Корнями уравнения (18) являются

Так как q=l^>0} то для , |/г2, Y гъ можно взять положительные значения. Таким образом,

или, так как

Отсюда без труда находим корни xlf х2) хг и аг4 первоначального уравнения

§ 10. Алгебраическое расширение и другая постановка проблемы решения уравнений в радикалах

В тесной связи с проблемой решения уравнений в радикалах находится весьма важное понятие алгебраического расширения. К изложению этого понятия мы сейчас и перейдём.

Пусть Р—некоторое числовое поле, а — произвольное комплексное число. Относительно а представляются, очевидно, только две возможности: либо а является корнем некоторого алгебраического уравнения я-й степени

ао*л + а1*п-1-|- ... -\-ап = 0

с коэффициентами из поля Р, либо а не может быть корнем

никакого алгебраического уравнения произвольной степени с коэффициентами из поля Р.

В первом случае а называется числом, алгебраическим относительно поля Р, а во втором, в соответствии с общим определением трансцендентного элемента (см. § 1), — числом, трансцендентным относительно Р. Отметим, что всякое а из поля Р будет алгебраическим относительно Р, так как оно является корнем уравнения X — а = 0 с коэффициентами из поля Р.

Если, в частности, Р есть поле рациональных чисел, то слова «относительно поля Р» обычно опускают и говорят просто об алгебраическом или трансцендентном числе. Например, у 2 есть алгебраическое число (т. е. алгебраическое число относительно поля рациональных чисел), так как ]/ 2 является корнем уравнения второй степени х- — 2 = 0 с рациональными (а именно, целыми) коэффициентами.

Обозначим, далее, через Р[а] множество чисел вида

f(a) = c0-\-c1a-\-c2a*-\- ... +ckak9

где k — произвольное целое неотрицательное число, с0, clt... , ck — любые числа из поля Р. Легко проверить, что это множество Р[а] замкнуто относительно первых трёх арифметических действий и потому образует числовое кольцо.

Рассмотрим, кроме того, более обширное множество всевозможных отношений

элементов кольца Р[а]. Это множество, как легко видеть, является числовым полем. Мы его будем обозначать через Р(а) (а в круглых скобках!) и называть полем или простым расширением поля Р, получающимся путём присоединения к Р числа а. При этом переход от поля Р к полю Р(а) называется присоединением элемента a к Р.

Вообще, если некоторое числовое поле А содержится в некотором другом числовом поле Q, то А, как известно, называется подполем поля 2, а Q—расширением поля А. Таким образом, простое расширение Р(а) поля Р есть частный случай понятия расширения поля.

Отметим ещё, что Р(ос) называется простым алгебраическим расширением поля Р, если a является алгебраическим относительно Р; если же а трансцендентно относительно Р, то Р(а) называется простым трансцендентным расширением Р.

Пример 1. Возьмём в качестве поля Р поле рациональных чисел и в качестве a — число i/ 5. Выясним, что собой представляют

Согласно общему определению P[i/5] есть числовое кольцо, состоящее из элементов вида

(1)

где k — произвольное целое неотрицательное число, а с0,... , ck — произвольные рациональные числа.

Выражение (1) можно, однако, упростить. А именно, принимая во внимание, что

и т. д., можно выражение (1) преобразовать в двучленное выражение a -f- b где a, b — рациональные числа. Итак, мы видим, что P[j/5] состоит из всевозможных чисел вида a-f-ô ]/5.

Теперь посмотрим, из чисел какого вида состоит Р(у 5). По определению P(j/5) есть не что иное, как совокупность элементов вида

(2)

где a, by с, d— рациональные числа, c-\-d j/ 5 ф 0. Для упрощения умножим числитель и знаменатель дроби (2) на с — d j/5. Тогда получим:

где

Мы видим отсюда, что поле Р(/5) состоит из элементов того же двучленного вида, что и кольцо Р [ j/5 ]. Это значит, что кольцо Р [ /5] совпадает с полем Р(]/П$):

Только что подмеченное совпадение P[V~5] и P(j/1f) не является случайностью; оно характерно для всякого алгебраического числа.

Теорема 16. Если а — число, алгебраическое относительно поля Р, то уже Р[а] является числовым полем: Р[а] = Р(а).

Доказательство. Без ограничения общности выводов можно предположить, что а является корнем многочлена

P(x)=Po+Pi*+ ••• + Рп*" (Рп^°)>

неприводимого в поле Р. В самом деле, если бы а являлось корнем многочлена F (х), приводимого в Я, то, очевидно, а было бы корнем одного из неприводимых множителей F(x). Этот неприводимый множитель мы и взяли бы в качестве р (х).

Согласно определению любой элемент ß из Р [а] должен иметь вид

ß=/(«) = c, + ci«+...+<*«*. (3)

где k — целое неотрицательное число и с0, ... , ck — числа из поля Р. Покажем, прежде всего, что выражение (3) можно преобразовать в следующее выражение:

ß = a0 + a1a+ ... -f ап^аГ\

имеющее относительно а степень, меньшую чем степень п многочлена р (х).

Обозначим через ç(x) и г(х) = а0-\-а1 лг —[— л2лг2 —{— ... -f" -J- an_i хп~1 соответственно частное и остаток, получающиеся при делении

/(*) = c0 + ci*+ ... +ckxk

на р (лг). Мы можем написать, что

f(x)=p(x)q(x) + r(x). (4)

Полагая в равенстве (4)^ = аи принимая во внимание, что р(а) — 0, получаем: /(а) = г(а), или

Р=/(а) = г(а) = а0 + а1а+ ... rf-a^a""1,

что и требовалось показать.

Теперь обратимся к отношению

(5)

Мы сейчас убедимся, что его можно преобразовать в целое рациональное выражение от а. Для этой цели рассмотрим многочлен g(x) = b0-\-btx-{- ... -\-ЬПшт1хп~1. Он не равен (тождественно) нулю: если бы g(x)равнялось нулю, то Ь0 = ЬХ= ... =ЬПшт1 = 0, в силу чего

что противоречит условию g (а.) ф 0.

Очевидно, что g(x) не делится на р(х), так как степень g(x) ниже степени р (х). В силу неприводимости р (х) отсюда следует, что многочлены g(x) и р(х) взаимно просты. Но в таком случае будет иметь место равенство

g(x)9(x)+p(x)<t(x) = l, (6)

где у(х) и ф(.хг)— некоторые многочлены с коэффициентами из того же поля Р (см. § 2). Полагая в равенстве (6) х — а и принимая во внимание, что р (а) = 0, получаем:

*(а)9(а)=1. (7)

Теперь, пользуясь равенством (7), мы можем следующим образом преобразовать отношение (5). Умножим числитель и знаменатель (5) на 9(a). Получим на основании равенства (7), что

Но /(а)9(а) есть некоторый многочлен от а:

Следовательно,

Итак, поле Р (а) состоит из тех же элементов (3), что и кольцо Р [а], вследствие чего Р(а) = Р[а], и теорема доказана.

Замечание. В только что проведённом доказательстве мы попутно установили, что всякий элемент ß из Р(а) выражается в виде многочлена от а степени не выше, чем п—1, где п — степень многочлена р(х). Нетрудно убедиться, что такое выражение элемента ß является единственным. Действительно, если

то

Таким образом, многочлен h(x) = (a0 — 60) —|— C^i — b\)x-\- ... -f-+ (ал-1 —bn_1)xn"1 имеет a своим корнем, а потому многочлены р (х) и h(x) будут не взаимно просты, так как будут иметь х — а общим делителем. Тем самым многочлен h{x) должен в силу неприводимости р (х) делиться на р (х). Но это может быть лишь тогда, когда h(x) — 0; в противном случае р(х) был бы делителем много-

члена h(x) более низкой степени, что невозможно. Итак, h (х) = О, откуда а0 — Ь0 = 0, ап_х — Ьп_! = 0, т. е. a0 = b09...9 ая_а = = bn_ly и наше утверждение о единственности выражения ß через а становится очевидным.

Подчёркиваем, что в случае трансцендентного а Р[а>] уже ке будет полем.

В самом деле, если бы в этом случае Р[а] являлось полем, то отношение -, в частности, было бы равно некоторому целому рациональному выражению от а:

где с0, ... , ck— элементы из Р. Отсюда мы имели бы, что

или

что противоречит трансцендентности а, так как в последнем равенстве не все коэффициенты равны нулю (так, — 1 отлична от нуля).

До сих пор мы присоединяли к полю Р только одно число. Возьмём теперь несколько комплексных чисел ai9 <х2, ... , as (алгебраических или трансцендентных — безразлично). Присоединим сначала к Р число otj. Мы получим простое расширение P(«i). Затем присоединим к P(ctt) число а2. Получится дальнейшее расширение, которое мы обозначим через P(al9 а2,), и т- Д- После всех таких последовательных присоединений чисел «1э <х2, ... , as мы придём к расширению P(alt ... , as) поля Р. Мы будем называть Р(аи ... , as) расширением, полученным путём присоединения к Р чисел аи ... , as.

Оказывается, что числовое поле Р (ось ..., as) является минимальным среди всех числовых полей, содержащих Р и а1( .... а5, a именно, Р (а19 ..., as) есть пересечение всех числовых полей Д, содержащих поле Р и ai9 . •., as.

Доказательство. Так как каждое из упомянутых полей А замкнуто относительно четырёх арифметических действий (исключая, конечно, деление на нуль), то А вместе с at и Р должно содержать и всевозможные числа вида

Это значит, что Р(аА) содержится в каждом из полей А. Но если P(cci) содержится в А, то отсюда получается, что и P(ait <х2) содержится в А. Действительно, поскольку А замкнуто относительно

четырёх арифметических действий, поле Д должно содержать вместе с P(aj) и <х2 и всевозможные числа вида

где вДаД — элементы из P(at) и знаменатель отличен от нуля. Иными словами, Д должно содержать P(al9 a2) и т. д. Рассуждая так, мы, наконец, убедимся, что А содержит Р(а19 as).

Обозначим теперь через £ пересечение всех полей А, содержащих Р и al9 as. Так как a5) содержится во всех А, то

(8)

С другой стороны, Р(а1$ ..., as), очевидно, содержит Р и аи as и потому является одним из полей А, содержащих Р и а1} аА.. Следовательно,

(9)

Сравнивая соотношения (8) и (9), мы видим, что Р(аи a5) = E.

Из доказанной теоремы сразу вытекает, что расширение Р (alf ..., as) не зависит от того, в каком порядке присоединять к полю Р числа а„ as:

В самом деле, Р(о4, as) есть пересечение всех числовых полей, содержащих Р и а„ as; вследствие этого Р(аи as) зависит лишь от поля Р и от множества присоединяемых чисел al9 ..., as9 но не от порядка присоединения к полю Р этих чисел.

Затем легко видеть, что P(alt as) есть не что иное, как совокупность чисел вида

(10)

где A,., By — элементы из поля Р, а и ff — целые неотрицательные числа.

В самом деле, благодаря замкнутости Р(ах, a>s) относительно четырёх арифметических действий поле P(ai» •••» as) будет содержать вместе с Р и а19 as и всевозможные числа, получающиеся из чисел 0|, ..., а5 и чисел из Р с помощью той или иной комбинации четырёх арифметических действий. Короче говоря, P(al9 ...,as) должно содержать всевозможные числа вида (10). Но совокупность чисел вида (10) образует числовое поле. Следовательно, в силу минимальности, числами вида (10) должны исчерпываться все элементы поля P(alt .... aj.

В дополнение к сказанному отметим, что если ах является алгебраическим относительно Р, а2—-алгебраическим относительно Р(аг) и т. д., наконец, as является алгебраическим относительно P(ati..., сс^), то Р(ах, as) будет исчерпываться числами вида

получающимися в результате комбинации первых трёх арифметических действий. Это следует из того, что в случае а алгебраического относительно поля Р, кольцо Р[а] является полем: Р[а] ==Р(а).

Проблема решения алгебраических уравнений в радикалах тесно связана с процессом расширения поля путём присоединения чисел, алгебраических относительно рассматриваемого поля. Этой связью мы воспользуемся при доказательстве теоремы Руффини-Абеля в § 16. Введём предварительно весьма важное понятие нормального поля.

Пусть otj, ап — все п корней уравнения

(11)

/2-й степени. Присоединим к полю R рациональных чисел коэффициенты а0у аХу ..., ап уравнения. Мы получим расширение R(a0y at, ап), которое мы будем называть областью рациональности уравнения (11) и будем обозначать для краткости через А. Присоединим, далее, к А корни а1у а2, ..., ап. Полученное при этом расширение À(at9 ап) поля А называется нормальным полем или полем Галуа уравнения (11). Нормальное поле А(ах, ап) мы будем часто обозначать через 9.

Теперь покажем, что уравнение (11) тогда и только тогда разрешимо в радикалах, когда нормальное поле Q = A(at, ап) содержится в расширении £ = Д(р1, р2, рл), полученном путём присоединения к А некоторых радикалов pl=n-^A11 p2 = "pr A2f ... nk _ ..., pft = у Aky где Ах принадлежит А, А2 принадлежит A (pt), Аг принадлежит А(рх, р2), Ак принадлежит А(р1? р^).

В самом деле, если уравнение (11) разрешимо в радикалах, то это значит, что корни уравнения выражаются через его коэффициенты и некоторые радикалы plf р2, ..., pk с помощью конечной комбинации четырёх арифметических действий. Так как поле £ = = Д(р1, pk) содержит коэффициенты а0, аи ап и радикалы Pi» р2> • • • » Pk и» как и всякое числовое поле, замкнуто относительно арифметических действий, то корни alt ап должны лежать в 2. Следовательно, Ö, будучи минимальным среди всех числовых полей, содержащих А и ai9 ..., ая> само должно содержаться в S.

Обратно, если Q содержится в Е: Q ç£ £, то все корни аи ..., ап уравнения (11) лежат в £. Вследствие этого а,, ал будут выражаться через радикалы р1э pÄ и некоторые числа из Д. Но каждое число из А в свою очередь выражается с помощью той или иной комбинации арифметических действий через коэффициенты уравнения (11), так как Д = /?(а0, ал). Следовательно, корни уравнения (11) должны в конечном счёте выражаться через а0, ап и радикалы plf ..., pÄ с помощью некоторой конечной комбинации арифметических действий. Иными словами, уравнение (11) решается в радикалах.

Пример 2. Мы знаем, что уравнение третьей степени

можно решить по формулам

(12)

где к0, ии «2 суть значения

Обозначим через Ах выражение [^] ~\~ (^")3- Очевидно, что Л, лежит в А = /?(/?, q). Далее, обозначим через рх какое-нибудь из значений |/Av Затем через Л2 обозначим:

Очевидно, что Л2 лежит в A(pi). В качестве дальнейших радикалов мы возьмём p2 = w0, рг = ц1у р4 = и2. Таким образом, р2, р3, р4 являются здесь значениями у А2. Теперь формулы (12) примут вид

(13)

Таким образом, корни х0> хи х% выразились через радикалы Pi> Ра» Рз> р4 и потому лежат в А(р1? р2, р3, р4).

Обращаем внимание читателя на следующее любопытное обстоятельство. Если уравнение (11) решается в радикалах, то всегда можно его корни выразить в таком виде, чтобы радикалы plf р2, ..., pk не входили в знаменатели, т. е. чтобы корни получались из рх, р2> • • • » Ра и некоторых чисел поля А с помощью действий сложения, вычитания и умножения, но не деления. Это следует из того, что рх является алгебраическим относительно А, р2 является

алгебраическим относительно A(pi) и т.д. Например, в формулах (13) только что разобранного примера радикалы р2, р3, р4 встречаются и в знаменателях; однако мы можем формулы (13) преобразовать так, чтобы знаменатели зависели только от элементов поля А. А именно, если под р понимать любой из радикалов р2, р3, р4, то

откуда

ГЛАВА II

КОЛЬЦО МНОГОЧЛЕНОВ ОТ НЕСКОЛЬКИХ НЕИЗВЕСТНЫХ И ПОЛЕ РАЦИОНАЛЬНЫХ ФУНКЦИЙ

§ 11. Кольцо многочленов от нескольких неизвестных

Пользуясь понятием кольца многочленов от одного неизвестного, мы сейчас определим индуктивно кольцо многочленов от нескольких неизвестных. А именно, пусть R— снова коммутативное кольцо с единицей е ф 0. Тогда кольцо многочленов от х2 над Rl9 где Rt в свою очередь есть кольцо многочленов от хх над Ry мы назовём кольцом многочленов от двух неизвестных хх и х2 над R и обозначим через R [xl9 х2].

Вообще кольцо многочленов от хп над Rn_ïf где Rn_t — кольцо многочленов от хи хп_1 над /?, мы будем называть кольцом многочленов от п неизвестных х1У лг2, ... , хп и будем его обозначать через R [х1У х2У хп].

Посмотрим теперь, что представляют собою элементы кольца R [х1у ..., хп]. Обратимся сначала к кольцу R [х1у Хо] от двух неизвестных. Каждый элемент / этого кольца является не чем иным, как многочленом от х2 над /?[^]:

/= «о G*i) + а1 C*l) Х2 + • • • + ат G*l) *?> (1)

причём каждый из коэффициентов а^х^ является многочленом от Xt над R:

(2)

Сложение и умножение, употребляемые в выражениях (1) и (2), следует понимать в смысле операций сложения и умножения кольца R[xu х2]у так как R[Xi] есть подкольцо кольца R[xly х2]- Благодаря этому мы вправе заменить в равенстве (1) коэффициенты аДл^) их выражениями (2) и раскрыть скобки. В результате таких преобразований элемент / выразится в виде конечной суммы

(3)

где aif ßf — целые неотрицательные числа, Aj — элементы из R. Можно всегда предполагать, что в сумме (3) нет подобных слагаемых, т. е. слагаемых, отличающихся друг от друга лишь множителем Aj. В самом деле, если бы, например, Atx^x^ и А2х°рх\* были подобны, то а1=а2, ß1==ß2, вследствие чего

т. е. мы могли бы Л^иф и А2х^х\- заменить одним слагаемым

(Л, + Л8)*;иф.

Итак, каждый элемент / кольца R[xly х2] представляется в виде выражения (3). Покажем, что и в общем случае п (п^1) неизвестных наблюдается та же картина: каждый элемент f кольца R [хи ... f хп] можно представить в виде выражения

(4)

причём ос^б;, со,- — целые неотрицательные числа, Аи Л2, ... ..., Ak —элементы из Ryue выражении (4) нет подобных слагаемых.

Для этой цели воспользуемся методом математической индукции: допустим, что наше утверждение справедливо для п — 1 неизвестных, и покажем, что тогда оно будет верно и для п неизвестных.

Действительно, так как / есть многочлен от хп над кольцом R[xly хЛ^]9 то

(5)

где ai(xlf хп_х)— многочлен от п—1 неизвестных xlf хп^ над R. В силу нашего допущения все коэффициенты а,, (.х^, .., можно представить в виде выражений

(6)

Но R [хи ..., x^i] есть подкольцо кольца R [xlf ..., хп]. Следовательно, сложение и умножение, употребляемые в выражениях (5) и (6), надо понимать в смысле операций сложения и умножения кольца R [хи ..., хп]. Таким образом, в правой части равенства (5) можно коэффициенты а£ (хи ..., -*rn_i) заменить их выражениями (6), раскрыть скобки и произвести приведение подобных членов; в результате у нас как раз и получится выражение (4) элемента /. Тем самым наше утверждение доказано для любого nt так как оно верно для случая одного неизвестного.

Очевидно, что справедливо и обратное: всякая сумма вида (4) представляет собою элемент f кольца R [xlf ..., хп].

В самом деле, каждое слагаемое А*х*,1ж... xPi есть многочлен от хп над R[xlf xn_t]y так как AtX\i ... лежит в R [xv ., хп_г]. Поэтому сумма таких слагаемых будет также много-

членом от хп над R [xv ..., хп_г\ т. е. будет элементом кольца R[xu .. хп].

Элементы / кольца R [хи ., хп] называются многочленами от неизвестных хи ..., хп над R и обозначаются через f(xv ..., хп), g(xu хп) и т. п. Само выражение (4) обычно называется нормальным видом многочлена, слагаемое Агх\г... х^ — членом и А£ — коэффициентом многочлена.

В частности, всякий элемент а из кольца R можно рассматривать как многочлен от п неизвестных над /?, причём в случае а ф О следует предполагать, что показатели неизвестных равны нулю.

Пользуясь общими свойствами операций сложения, вычитания и умножения элементов кольца, нетрудно получить обычные правила обращения с многочленами от нескольких неизвестных. А именно, пусть

— два каких-нибудь многочлена из R [хи хп]. Тогда

Так как во всяком кольце и, в частности в кольце R [xlf . .., хп], сложение подчиняется сочетательному и переместительному законам и имеет место распределительный закон, то мы можем раскрыть скобки и произвести приведение подобных членов, в результате чего получится нормальный вид суммы f(xu ...,хп)-\-

Что касается разности f(xt, хп) — g(xî} хп), то она сводится к сумме f(xlf -Хгл)-|-[—g(Xi> хп)]у причём

Для получения произведения f(xv хп) g(xv хп) можно воспользоваться правилом умножения суммы на сумму

имеющим место во всяком кольце. Согласно этому правилу надо каждый член

многочлена f(xlt хп) умножить на каждый член

многочлена g(xlf ..., хп)\ затем, пользуясь сочетательностью и переместительностью умножения, а также распределительным законом, можно получившиеся произведения

преобразовать в

и затем произвести приведение подобных членов. В результате получится нормальный вид произведения f(xx, ..., хп) g(xly ..., хп).

Мы знаем, что многочлен над R от одного неизвестного равен нулю лишь в том случае, когда равны нулю все его коэффициенты. Оказывается, что это обстоятельство справедливо и для многочленов от п неизвестных, т. е. имеет место

Теорема 17. Многочлен

(7)

из R[xly хп] тогда и только тогда равен нулю, когда все его коэффициенты равны нулю.

Доказательство. Если все коэффициенты А£ многочлена (7) равны нулю, то, очевидно, многочлен сам равен нулю.

Обратно, пусть

(8)

Поскольку теорема верна для многочлена от одного неизвестного над R, воспользуемся методом математической индукции: допустим, что теорема верна для многочленов от п— 1 неизвестных х1у ..., хп_х над R, и покажем, что тогда теорема будет верна и для многочлена от п неизвестных.

Выносим за скобки каждую степень неизвестного хп в левой части равенства (8). Получаем:

(9)

где at (xl9 ..., xn_i) — многочлены уже от п — 1 неизвестных хх,..., xn_t над R. Рассматривая левую часть равенства (9) как многочлен от одного неизвестного хп над кольцом R(xly хп_х) и пользуясь тем, что теорема верна для случая одного неизвестного, получаем:

Но мы допустили, что теорема верна и для случая п—1 неизвестных. Следовательно, коэффициенты многочленов

все должны равняться нулю и тем самым должны равняться нулю коэффициенты многочлена f(xly ..., хп). Теорема доказана. Таким образом, если

то по меньшей мере один из коэффициентов Av ..., Ak должен быть отличен от нуля. В дальнейшем мы будем в нормальном виде многочлена, отличного от нуля, опускать члены с нулевыми коэффициентами.

Из только что доказанной теоремы 17 вытекает единственность представления многочлена в нормальном виде, а именно вытекает

Теорема 18. Два многочлена f(xv ..., хп) и g(xlf ..., хп) аз R [xv ..., хп] равны тогда и только тогда, когда члены многочлена f(xv ..., хп) входят в состав членов многочлена g (xv ..., хп), и обратно, члены многочлена g(xv . .., хп) входят в состав членов многочлена f(xv ..., хп).

Доказательство. Если два многочлена f(xif хп) и g(xv ..., хп) по составу своих членов не отличаются друг от друга, то

так как многочлены представляют собой сумму одних и тех же элементов кольца. Обратно, пусть

Предположим, например, что многочлен f(xv ..., хп) имеет член, не входящий в состав членов многочлена g(xv хп). Тогда разность f(xv хп) — g(xv хп) будет содержать по меньшей мере один член с коэффициентом, отличным от нуля, и в то же время будет равна нулю:

Но равенство (10) противоречит теореме 17.

Для изучения дальнейших свойств многочлена от нескольких неизвестных введём понятие степени многочлена.

Степенью многочлена f(xlf ..., хп) ф 0 из кольца R [xv ..., хп] по отношению к неизвестному xt называется наибольший показатель, с которым xt входит в члены многочлена. Например, степень многочлена

над кольцом целых чисел относительно хх равна двум, относительно хг равна трём и относительно хъ равна шести.

Если в многочлен f(xlf ..., хп) Ф 0 неизвестное xt фактически не входит, то степень многочлена f(xl9 ..., хп) относительно этого неизвестного xt будет, очевидно, равна нулю.

Назовём, далее, степенью члена

многочлена f(xv . .., хп) ф 0 сумму показателей at -f- ߣ -f-.. .-f- cof неизвестных. Тогда степенью многочлена (по отношению ко всей совокупности неизвестных) называется наибольшая из степеней его членов.

Так, например, степень многочлена

над кольцом целых чисел равна десяти.

Мы ввели понятие степени для многочленов /(.*:,, хп) из R(xl9 . .., хп], отличных от нуля. Что касается многочлена, равного нулю, то мы его будем считать многочленом, не имеющим степени. Очевидно, что всякий элемент афО кольца R можно рассматривать как многочлен нулевой степени над R от неизвестных xv ..., хп. В этом отношении мы имеем здесь ту же картину, что и в случае многочлена от одного неизвестного. Однако в отличие от случая многочлена от одного неизвестного здесь уже нельзя говорить в прежнем понимании о старшем члене, так как в многочлене от многих неизвестных могут встретиться несколько членов наибольшей степени, а в некоторых случаях все члены многочлена могут быть одной и той же степени.

Например, степень многочлена

x* + х{х\ — Ъх\хг + Ъх\ — 1

равна пяти, и многочлен имеет два члена х\ и ххх\ со степенью, равной пяти. В многочлене

bxyz—x*y+y*z (11)

все члены имеют третью степень.

Многочлен f(xv ..., хп)фО из R[xl9 хп] мы назовём однородным или формою т-й степени, если все его члены имеют одну и ту же степень, равную т. В частности, форма первой степени часто называется линейной, второй степени — квадратичной, третьей степени — кубичной. Рассмотренный выше многочлен (11) является кубичной формой от трёх неизвестных.

Если кольцо R не содержит делителей нуля, то справедлива следующая

Теорема 19. Если кольцо R не содержит делителей нуля, то кольцо R [xl9 .... хп] также не содержит делителей нуля.

Доказательство. Мы знаем, что теорема верна для случая одного неизвестного (см. § 1). Поэтому воспользуемся методом ма-

тематической индукции; допустим, что в кольце многочленов R[xly ..., -*T/i_i] от п—1 неизвестных нет делителей нуля. Тогда и в кольце R [xiy ..., хп] также не будет делителей нуля, так как по определению R[хи ..., хп] есть кольцо многочленов от одного неизвестного хп над кольцом R [xv хм] без делителей нуля.

Исходя из только что доказанной теоремы, нетрудно убедиться, что теорема о степени произведения двух многочленов от одного неизвестного, высказанная нами ещё в § 1, может быть распространена и на многочлены от нескольких неизвестных:

Теорема 20. Если кольцо R не содержит делителей нуля, то степень произведения двух многочленов из R [xv ... , хп] равна сумме их степеней.

Доказательство. Покажем, прежде всего, что теорема верна для однородных многочленов.

Пусть cp(xlt хп) и ty(xly хп)—две какие-нибудь формы из R [х1у ..., хп] соответственно тх-я и /я2-й степени:

Умножая каждый член формы 9 на каждый член формы мы получим сумму слагаемых вида

(12)

и степень каждого из таких слагаемых по отношению ко всей совокупности неизвестных равна

Следовательно, если 9^ ф 0, то не все слагаемые (12) исчезнут, и степень 9^ будет равна тг -f- т2. Но 9^ не может равняться нулю, так как R [х1У ..., хп] есть кольцо без делителей нуля в силу теоремы 19. Итак, для форм наша теорема доказана.

Остаётся доказать теорему для произвольных многочленов f(xv хп) и g(xly хп) из R[xv хп].

Пусть степень многочлена f(xly ..., хп) равна т1У а степень многочлена g(xu хп) равна mv Тогда мы можем написать,

что

где <pmi, cpkv 9/-1 — формы, соответственно, тгй, krft, ..., г^-й степени, <|/W2, tyk2> фг2 — формы, соответственно, /я2-й,

&2-й, /уй степени и m1^>k1^> ... ^>rt; /я2^>&2^> ... ]>r2. Перемножая /(j^, хп) и ^С^, хп), получаем:

Очевидно, что в произведении f(xv ..., -*гЛ) G^i» хп) наибольшую степень имеют члены, входящие в

(13)

Но по доказанному выше степень произведения (13) форм 9/7*! C*i> • ■ • » и tym« (-*ч> • • •, -*гп) должна равняться сумме mi -j- /я2 степеней этих форм. Следовательно, степень произведения многочленов f(xv хп) и g*^, -хгл) также равна т1-\-т2.

Только что доказанную теорему можно распространить и на произведение нескольких многочленов: степень произведения S много-членов из R [xv хп] равна сумме степеней этих многочленов.

Понятие значения многочлена от нескольких неизвестных вводится совершенно так же, как и в случае многочлена от одного неизвестного. Именно, пусть f(xv хп) — произвольный многочлен из R[xv хп]. Заменим в нём неизвестные хи хп какими-нибудь элементами ci9 ..., сп кольца R. Мы получим некоторый элемент d того же кольца R. Этот элемент и называется значением многочлена f(xlt хп) при значениях неизвестных xt = cly хп = сп и обозначается через f(cl9 сп).

Очевидно, что если два многочлена из R [х1у ..., хп] равны, то их значения также равны при любых значениях неизвестных. Для произвольного кольца R обратное, как мы знаем, неверно уже в случае многочлена от одного неизвестного. Однако дело обстоит иначе, когда кольцо R бесконечно и не обладает делителями нуля. Докажем, прежде всего, следующую теорему:

Теорема 21. Если кольцо R бесконечно и не содержит делителей нуля, то многочлен f(xu ..., хп) над R в том и только в том случае равен нулю, когда при любых значениях неизвестных он обращается в нуль.

Доказательство. Если многочлен f(xu ..., хп) равен нулю, то все его коэффициенты должны равняться нулю, и

потому многочлен будет обращаться в нуль при любых значениях неизвестных.

Обратно, пусть многочлен f(xly ... у хп) обращается в нуль при любых значениях неизвестных. Для случая одного неизвестного (т. е. при л=1) теорема была доказана уже в § 3. Поэтому воспользуемся методом математической индукции: предположим, что теорема верна для случая п — 1 неизвестных, и покажем, что тогда теорема будет верна и для случая п неизвестных.

Многочлен f(xly хп) можно записать в виде

где at (xly ..., хп) — многочлены от п — 1 неизвестных хи ..., хп_^ Дадим неизвестным х1У х2, хПшт1 произвольные значения bl9 b2t... ..., bn_t.Тогда мы получим многочлен уже от одного неизвестного хп над кольцом R:

(14)

Так как f(xiy *гЛ) равен нулю при любых значениях неизвестных, то многочлен (14) будет равен нулю при любом значении неизвестного хп. Отсюда в силу того, что теорема верна для многочлена от одного неизвестного над Ry получаем:

(15)

Равенства (15) свидетельствуют о том, что многочлены a£(xî9..., хп_х) от п—1 неизвестных xiy хп_х над R обращаются в нуль при любых значениях неизвестных, так как bl9 ..., bn_t произвольны. Но, по предположению, теорема верна для многочленов от п — 1 неизвестных. Следовательно,

в силу чего и f(xl9 хп) равен нулю.

Из только что доказанной теоремы вытекает

Теорема 22. Если кольцо R бесконечно и не содержит делителей нуля, то два многочлена из R [хх, ..., хп] равны в том и только в том случае, когда их значения совпадают при любых значениях неизвестных.

Доказательство. Если многочлены f(xly ..., хп) и g(xly хп) равны, то, как мы уже выше отметили, их значения совпадают независимо от того, будет или не будет R бесконечным кольцом без делителей нуля. Поэтому рассмотрим обратное: пусть значения многочленов f(xly хп) и g(xly хп) совпадают при любых значениях неизвестных. Тогда разность

будет обращаться в нуль при любых значениях неизвестных и потому на основании теоремы 21 будет равна нулю:

откуда f(xlt xn) = g(xlt хп).

В заключение этого параграфа отметим следующее: с помощью примерно тех же соображений, что и для случая многочлена от одного неизвестного, нетрудно убедиться, что если

(16)

при произвольных значениях х1 = с1, хп = сп неизвестных.

Пользуясь соотношениями (16) и теоремой 22, можно затем убедиться, что для бесконечного кольца R без делителей нуля алгебраическая и функциональная точки зрения на многочлен от нескольких неизвестных равносильны. Рассуждения по существу будут теми же, что и для многочлена от одного неизвестного.

§ 12. Поле алгебраических дробей

Многочлены являются частным случаем понятия алгебраической дроби. В этом параграфе мы сначала дадим соответствующее определение алгебраической дроби, а затем выясним, при каких условиях можно эти дроби рассматривать как функции.

Пусть Р—произвольное поле. Множество многочленов Р[хи хп] от неизвестных xt,...9 хп образует, как мы знаем из предыдущего параграфа, коммутативное кольцо без делителей нуля. Однако P[xv хп\ полем всо же не является, так как далеко не всегда один многочлен делится на другой. Например, х\-\-а9 где афО — элемент из Я, не делится на л^-|-а; не делится по той простой причине, что степень делимого меньше степени делителя.

Предположим теперь, что существует такое поле 2, в котором кольцо Р[х19..., хп] является подкольцом. Тогда для каждой пары многочленов f(xv хп) и g(xl9 хп) Ф 0 из P[xv хп] уравнение

g (х%$ . • •» хп) z =/(х1У ..., xn)

будет иметь в поле 2 единственное решение z = a. Обозначим это решение через

и назовём алгебраической дробью от неизвестных хи..хп над полем Я. При этом f(xv..., хп) и ^(.д^,..., .*;„) будут называться соответственно числителем и знаменателем дроби.

На основании общих свойств поля легко установить, что действия над алгебраическими дробями ничем не отличаются от действий над обычными дробями, а именно:

тогда и только тогда, когда

Мы ограничимся выводом свойства 1°, причём для сокращения письма будем многочлены f(xv..., хп), g(xv...t ^^..обозначать одной буквой: /, g,...

Если

то по определению алгебраической дроби

Умножим первое равенство на g2f а второе на gt. Получим:

откуда figf=f*gx.

Обратно, пусть fxg% =f<2gl и gxa =fv Покажем, что это a будет также решением и уравнения g*s=f%.

Умножаем обе части равенства gia=fi на g%. Получаем:

gigz«=fig*

Но flg2=f<lgl. Следовательно, заменяя в правой части равенства fig* выражением f2gXl имеем:

Последнее равенство можно сократить на glt так как gt^0. Получаем в результате такого сокращения, что £\2а=Л« Отсюда вытекает, что а = —, т. е. — = — .

Из свойств 1°—4° вытекает, что множество всех алгебраических дробей над Р от неизвестных -x^;..., хп образует подполе поля 2. Это подполе мы обозначим через Д и будем называть полем алгебраических дробей от х1У..., хп над Р.

Мы рассматривали P[xv...9 хп] как подкольцо некоторого поля 2. Не исключено, однако, что Р[хи...у хп] может оказаться подкольцом и другого поля 2'. Возникает вопрос, каково будет поле алгебраических дробей в 2'. Оказывается, что поле алгебраических дробей будет (с точностью до изоморфизма) тем же, что и в 2. Иными словами, можно высказать следующую теорему:

Теорема 23. Если для кольца многочленов Р [хи ..., хп] существует поле алгебраических дробей, то это поле является единственным (с точностью до изоморфизма).

Мы говорим «если существует», так как мы пока ещё не знаем, существует ли вообще поле 2, имеющее Р [xlt..., хп] своим подкольцом.

Доказательство. Пусть Р [х1У..., хп] является подкольцом как поля 2, так и поля 2'. Обозначим через Д поле алгебраических дробей в 2 и через А' поле алгебраических дробей в 2'. Далее, возьмём из P[xlf...y хп] два произвольных многочлена f(xv...t хп) и g{Xv-> Х^)Ф^ и обозначим через а решение уравнения

(1)

в поле А и через а решение того же уравнения в поле А'. Поставим теперь в соответствие элементу а элемент а':

(2)

Это соответствие является не только однозначным, но и взаимно однозначным. В самом деле, пусть решению ß уравнения

(3)

в поле А соответствует то же самое а'. Это значит, что уравнения (1) и (3) имеют в поле А' одно и то же решение а. Отсюда в силу свойства 1° алгебраических дробей должно выполняться равенство

(4)

Но если имеет место равенство (4), то в силу того же свойства 1° р = а. Очевидно, что для каждого а из А' найдётся в А элемент а, которому а и ставится в соответствие. Всё это вместе взятое означает, что (2) есть взаимно однозначное соответствие между полями А и А'.

Покажем, что соответствие (2) является изоморфизмом между Д и А'.

Пусть а и ß — два каких-нибудь элемента из А, причём пусть аир являются соответственно корнями уравнений

ft*=/i (ft 9*0) (5)

и

SiZ=U (ft^O) (6)

в поле А. Пусть в поле А' уравнение (5) имеет корень a', a уравнение (6) корень ß'. Тогда

Согласно свойству 2° алгебраических дробей сумма a —[— ß есть корень уравнения

g*g*—fig%+tei (7)

в поле А. Обозначим корень уравнения (7) в поле А' через у'. Тогда

Обращаясь снова к свойству 2°, имеем, что сумма a'-j-ß' должна быть в поле А' корнем того же уравнения (7), откуда в силу единственности решения уравнения (7) y' = a'4"ß'« Мы видим, что

Подобным же образом, пользуясь свойством 3° алгебраических дробей, можно показать, что a3-^a'ß'.

Итак, поля А и А' оказались изоморфными.

Отметим, что при изоморфизме (2) многочлены из P[xv...y хп] будут соответствовать самим себе: Действительно, многочлен f(xlt..., хп) можно рассматривать как корень уравнения

1 • z=f,

где 1 — единица поля А Но это уравнение как в поле А, так и в поле А' имеет одно и то же решение, а именно /.

Мы обнаружили, что если поле алгебраических дробей для кольца Р [х1У..., хп] существует, то оно является единственным. Покажем теперь, что это поле в самом деле существует.

Теорема 24 (о существовании поля алгебраических дробей). Поле алгебраических дробей существует для всякого кольца многочленов Р[х1У хп].

Доказательство. Рассмотрим множество M пар (/, g) многочленов f=f(xly ..., хп) и g = g(xiy ..., хп) ф 0 из Р[х1У .. .,хп]. Руководствуясь свойством 1° алгебраических дробей, мы для пар (f, g) введём следующее отношение эквивалентности: положим (Л. gi)~(f*> Ы если fig*=fav

Легко убедиться, что определённое таким образом соотношение действительно является отношением эквивалентности между парами множества М.

В самом деле, так как fxgx=fxgx> то (/„ т. е. наше соотношение обладает свойством рефлексивности.

Далее, так как равенство fxg*=figx можно переписать в виде f*gi=fig*> то из (fu gi)~(/a» g%) следует (/2, g%)~(fv gï), т. е. соотношение обладает свойством симметрии.

Наконец, пусть (/„ gx)~(fb gè и (/2, g*)~(fz, Ы- ТогДа будут иметь место равенства

flg-2=Âgl (8)

и

Aft—/iff* (9)

Умножим обе части равенства (8) на gz и равенства (9) на gv Получим:

figîg* =hg\gz> ftëigz =fig 1^2»

откуда

flgîgz =fig\g<l-

Сокращая последнее равенство на g2, имеем: fxg^=fzgu, т. е. из (fu gù~(Ug*) и (A, g%)~(fz, gz) следует, что (fl9 gx)~ (fz, g.à). Соотношение, таким образом, обладает свойством транзитивности.

Итак, соотношение ~ обладает всеми свойствами эквивалентности. Тем самым это соотношение определяет разбиение множества M на классы эквивалентных пар. Условимся класс, в котором лежит пара (/, g)f обозначать символом — . Очевидно, что —= — тогда и только тогда, когда ftg%=f%gv

Введём для множества А всех этих классов ^ операции сложения и умножения так, чтобы А стало полем относительно введённых операций.

Руководствуясь свойствами 2° и 3° алгебраических дробей, мы сумму и произведение классов определим следующим образом:

(10)

(11)

Покажем, что эти определения законны. Они законны, во-первых, потому, что gxgb^0, так как gx ф 0 и g2 ф 0 (напоминаем — для всех пар (/, g) множества M многочлен g ф 0). Таким образом, символы в правых частях равенств (10) и (11) имеют смысл.

Во-вторых, правые части равенств (10) и (11) не зависят от выбора представителей классов. В самом деле, пусть

(12)

Посмотрим, что произойдёт, если в сумме и в произведении заменить через

Из равенства (12) следует, что

(13)

Умножая обе части равенства (13) на g%, получаем:

/1^29=toft-Прибавляя затем к обеим частям последнего равенства /2g*i9> имеем:

Наконец, умножаем обе части получившегося равенства на gq:

(14)

Равенство (14) как раз свидетельствует о том, что

Аналогично, умножая обе части равенства (13) на fog^, получаем:

fif&g% = *tf*gig*>

откуда

Совершенно тем же способом можно показать, что, выбирая вместо (/2, g2) другой представитель класса мы этим также не изменим правые части равенств (10) и (11).

Теперь покажем, что относительно введённых операций множество классов А образует поле. Очевидно, придётся проверить все условия, характеризующие поле. Мы ограничимся проверкой сочетательности сложения. Имеем:

Получился в обоих случаях один и тот же результат. Следовательно,

Так же проверяются и остальные условия.

Мы утверждаем, что построенное поле Д и будет искомым полем алгебраических дробей. Это утверждение станет очевидным, если мы покажем, что А содержит подкольцо, изоморфное кольцу Р[х1у хп].

Рассмотрим в поле А подмножество классов вида у, где 1 — единица поля Р. Поставим в соответствие каждому многочлену / из P[xv хп] класс-у с тем же самым /. Мы получим тогда взаимно однозначное соответствие

(15)

между кольцом P[xv хп] и множеством, состоящим из классов вида у.

В самом деле, разным многочленам ft и /2 из Р[х1у хп] должны соответствовать разные классы у ф у. Если бы классы -у и у совпадали, то на основании условия равенства двух классов мы имели бы, что /1-1=/2.1 или /1=/2, что невозможно.

Взаимно однозначное соответствие (15) будет к тому же изоморфизмом. Действительно, если

то

Итак, множество классов вида у образует подкольцо поля А, изоморфное кольцу Р[хи хп]. В силу этого мы можем класс у не отличать от соответствующего многочлена /.

Далее, так как класс — является элементом, обратным относительно класса |-, то в силу равенства

глы можем любой классе —, т. е. любой элемент поля А, рассматривать как отношение многочленов / и g ф 0 из кольца P[xl9 ..., хп], т. е. А есть поле алгебраических дробей для кольца Р[х1у ..., хп]. Теорема доказана.

Поскольку мы убедились в существовании поля алгебраических дробей для кольца P[xlf хп]у мы будем в дальнейшем обозначать это поле через P(xit хп) (неизвестные в круглых, а не в квадратных скобках).

Перейдём теперь к вопросу о функциональной точке зрения на алгебраическую дробь.

Обратимся к случаю алгебраической дроби от одного неизвестного.

Пусть

(16)

— некоторая алгебраическая дробь из Р(х). Введём понятие значения дроби г(х).

Предварительно отметим, что числитель и знаменатель дроби (16) можно всегда предполагать взаимно простыми. Действительно, если бы многочлены f(x) и g(x) имели наибольший общий делитель D (х) со степенью выше нулевой, то

f(x) =/, (X) D ix), g ix) = gi ix) D ix),

fi (x) и £i (x) были бы взаимно простыми, и на основании условия равенства алгебраических дробей мы могли бы написать:

Итак, мы будем многочлены f(x) и g(x) предполагать взаимно простыми. Возьмём теперь из поля Р некоторый элемент с. Если g (с) фО, то под значением г(х) при х = с мы будем подразумевать отношение значений многочленов f(x) и g(x) при х = с и будем это отношение обозначать через г (с). Очевидно, что значение г (с) дроби г(х) есть некоторый элемент поля Р.

Из этого определения следует, что если две алгебраические дроби равны: гх (х) = г2 (х), то их значения совпадают при любом значении неизвестного х, не обращающего в нуль знаменатели дробей г\ (х) и г2 (х).

В самом деле, если

и rt (х) = г2 (х)у то в силу условия равенства алгебраических дробей

Пусть с — элемент из Р, для которого gx (с)фО и g2 (с) Ф °- Полагая х = су имеем:

Л («) А («)=/§(*) ft (О, откуда, пользуясь условием равенства дробей в поле Р, получаем:

Покажем, что в случае бесконечного поля Р будет верно и обратное: если значения алгебраических дробей гх (х) и г2 (х) совпадают при любом значении неизвестного х, не обрата-ющем в нуль знаменатели дробей, то дроби тх (лг) и г2 (х) равны.

Доказательство. Пусть

где с — произвольный элемент из Р, не обращающий в нуль gx (х) и go(x). Тогда

/i(4a(4=/i(0a('). О?)

Из равенства (17) видно, что значения произведений fx(x)g2(x) и f%(x)gi(x) совпадают при бесконечном множестве значений неизвестного x, так как поле Р бесконечно, а многочлены gx (х) ^0 и ^2 (х) ф 0 над полем Р имеют ограниченное число корней. Следовательно, многочлены fx(x)g2(x) и fi(x)g1(x) должны быть равны

Л G*) gi С*) =Л W gi С*)-

Отсюда на основании равенства алгебраических дробей получается, что

и наше предложение доказано.

Будем в произвольной алгебраической дроби г{х) = ^~ из Р{х) неизвестное х заменять тем или иным элементом с из поля Я, не обращающим в нуль знаменатель g(x). Тогда мы будем получать вполне определённые элементы г (с) из Р. Таким образом, каждой алгебраической дроби г(х) из Р(х) будет ставиться в соответствие функция от одного аргумента I, определённая для всех значений x, кроме значений, обращающих в нуль знаменатель g(x):

r(x)-+r®. (18)

Через r(ü) мы здесь обозначили функцию, соответствующую алгебраической дроби г(х). Мы будем г(£) называть рациональной функцией над полем Р.

Руководствуясь соответствием (18), введём теперь операции сложения и умножения рациональных функций. А именно, если

— две какие-нибудь алгебраические дроби из Р(х), то под ri(ü)-f--|- г2 (£) мы будем подразумевать рациональную функцию, соответствующую сумме тх (x) -f- Го (х) алгебраических дробей, а под г\ Ф) h (£) будем подразумевать рациональную функцию, соответствующую произведению гх (х) г2 (х) алгебраических дробей.

Наше определение операций сложения и умножения несколько расходится с обычным определением операций над функциями. Так, например, в нашем смысле

(1 — единица поля Р), (19)

а в обычном смысле (£—1)2-^ ^ нельзя считать равным I—1, так как правая часть равенства (19) определена для всех значений £, а в левой части g— ^ при £=1 не определена.

Итак, мы определили надлежащим образом операции сложения и умножения рациональных функций над полем Р. Покажем теперь, что в случае бесконечного поля Р алгебраическая и функциональная точки зрения на дробь в известном смысле слова совпадают. Точнее, покажем, что имеет место следующая

Теорема 25. Если поле Р бесконечно, то множество рациональных функций г(Е) над Р образует поле, изоморфное полю алгебраических дробей Р(х).

Доказательство. Пусть двум алгебраическим дробям

соответствует одна и та же рациональная функция г(£) над Р: г,И-.-г(5), r,C*)-..r(S).

Тогда rt(c) = r2(c) для любого с из Р, не обращающего в нуль знаменатели gt (х) и g% (х) дробей гх (х) и г2 (х). Но выше мы уже убедились, что в случае бесконечного поля Р такие алгебраические дроби должны быть равны. Следовательно, тх (х) = г2 (х), и мы видим, что соответствие (18) является не только однозначным, но и взаимно однозначным.

Далее, согласно самому определению суммы и произведения рациональных функций

Таким образом, соответствие (18) есть изоморфизм между полем Р(х) и множеством рациональных функций г(Е) над Р. Тем самым это множество функций образует поле, изоморфное Р(х)у и теорема доказана.

Только что доказанная теорема даёт нам основание не различать в случае бесконечного поля Р алгебраическую дробь от рациональной функции1), и мы можем в этом случае аргумент ? обозначать той же буквой, что и неизвестное х.

Примерно такое же обоснование функциональной точки зрения на алгебраическую дробь можно дать и для случая нескольких неизвестных, но мы не будем на этом задерживаться.

§ 13. Симметрические многочлены

В настоящем параграфе будет рассмотрен один довольно важный класс алгебраических дробей, так называемые симметрические алгебраические дроби или симметрические функции.

Пусть R — коммутативное кольцо с единицей е^О и без делителей нуля. Симметрическим многочленом над кольцом R принято называть такой многочлен f(xl9 хп) от п неизвестных над /?, который не меняется при любой перестановке неизвестных х1У ..., хп.

Например, многочлен

f(xly х2У хг) = х\х2 + х1х1+х\хг-^х1х% + х$хг-{-х2х1 (1)

является симметрическим; легко убедиться, что он не меняется при любой перестановке неизвестных:

Возьмём хотя бы

(2)

Для получения выражения f(xd, x2, хх) мы в выражении (1) многочлена f(xv х2у хг) неизвестное хх заменили через хг> х2 оставили без изменения, а хг заменили через хх. Сравнивая выражения (1) и (2), видим, что они отличаются друг от друга лишь порядком следования членов и порядком следования неизвестных в каждом члене. Следовательно, f(xz, хъ x1)=f(xl> х2, хг). Алгебраическая дробь

у которой числитель f(xiy ..., хп) и знаменатель g(xv ..., хп) ф О являются симметрическими многочленами над полем Р, называется симметрической алгебраической дробью, или симметрической функцией над Р.

1) Не различать по отношению к алгебраическим операциям.

Поскольку симметрическая функция выражается через симметрические многочлены, мы, естественно, начнём наше изложение с изучения основных свойств симметрических многочленов.

Впервые приходится сталкиваться с симметрическими многочле нами при решении следующей задачи: пусть уравнение п-й степени над полем Р

f(x)=xrl + aixn-1 + ... +ап = 0 (3)

со старшим коэффициентом, равным единице, имеет п корней. Эти корни aj, сс2, ..., ап даны. Найти коэффициенты а( уравнения.

Мы знаем (см. § 8, стр. 208), что коэффициенты уравнения (3) выражаются через корни по формулам Вьета:

(4)

Руководствуясь этими формулами, составим теперь многочлены от п неизвестных

(5)

Легко видеть, что многочлены (5) являются симметрическими. В самом деле, равенства (4), очевидно, не зависят от нумерации корней: аи а2, ап. Мы могли бы, например, корню ах приписать другой номер, хотя бы 2, а корню а3 — номер, равный единице; это изменение нумерации ни в какой мере не нарушило бы равенств (4), так как при их выводе совершенно безразлично, какой корень следует обозначать через av какой через а2 и т. д.

Многочлены (5) называются основными или элементарными симметрическими многочленами от неизвестных хи ..., хп.

Эти многочлены играют в теории симметрических функций исключительную роль благодаря следующей теореме:

Основная теорема о симметрических многочленах. Всякий симметрический многочлен f(xl9 хп) от п неизвестных над кольцом R может быть выражен в виде многочлена от основных симметрических многочленов oti о2, ..., оп над тем же кольцом R:

f(xlf xn)=g(oi9 оя), где g (pit оя) — многочлен от оА, о2, оп над R.

Существует весьма большое количество доказательств этой теоремы. Мы предлагаем вниманию читателя доказательство, достаточно простое как в теоретическом, так и в практическом отношении. Однако предварительно придётся ввести понятие высоты члена многочлена и доказать одну лемму, связанную с этим понятием.

Пусть f(xv . ., хп) — некоторый многочлен (он может быть и несимметрическим). Возьмём два каких-нибудь члена этого многочлена

(6)

(7)

Условимся считать из членов (6) и (7) тот выше, у которого больше показатель при хия если же показатели при хх равны, то условимся считать выше тот член, у которого больше показатель при лг2, и т. д. Вообще, если а(—ßr- есть первая отличная от нуля разность, то при а£ — ß/^>0 член (6) считается выше члена (7), а при а£ — ß/<[0 — ниже члена (7).

Пример 1. Какой из членов многочлена

является наивысшим?

Член 8ххх^х\ ниже члена х\х2; в свою очередь член х\х2 ниже члена х\х\хъ> а х\х\хъ ниже члена —х\х\^\. Таким образом, данный многочлен имеет наивысшим членом —х\х\х\.

Мы предостерегаем читателя от смешения понятий высшего члена и члена с наибольшей степенью. Так, в только что разобранном примере член Ъххх^х\ имеет наибольшую степень, но он является даже наинизшим членом многочлена.

Лемма. Наивысший член произведения двух многочленов f(xït ..., хп) и g(xu ..., хп) равен произведению наивысших членов этих многочленов.

Доказательство. Пусть

(8) (9)

— соответственно наивысшие члены многочленов f(xlt...fxn) и g(xv ... f хп). Возьмём какой-нибудь член

(10)

многочлена f(xi9 ...,хп) и какой-нибудь член

(11)

многочлена g(xl9 ..., хп) и покажем, что произведение

(12)

членов (8) и (9) выше произведения

(13)

членов (10) и (11), если член (10) ниже члена (8) или член (11) ниже члена (9).

Так как (8) и (9)—наивысшие члены многочленов f(xl9 ..., хп) и g(xly хп)9 то ajïfcji,, ßi^Xlf откуда «i + Pi^m + Xj. Таким образом, если «i + ßi^>j4--f-bi» то член О2) выше члена (13). Если же ocj —|— ===== julj^ —{— Х1э то a1=jx1, ß1 = X1, и мы обращаемся к следующим показателям а2 и ß2. Так как a1=jx1, ß1 = X, и член (8) не ниже члена (10), а член (9) не ниже члена (11), то a2^]x.2, ß2^=X2, откуда a2-j-ß«^]х2 + Член (12) будег выше члена (13), если a2 + p2>^2+X2Î если же a2 + ß2 = ^2 + ^2. то «2=J4> Ра = >^ и мы обращаемся к показателям <х3 и ß3 и т. д. В конечном счёте мы доберёмся до показателей ал и ßft таких, что будет иметь место по меньшей мере одно из неравенств ak^>}ik и ßfe^>Xft, и тогда мы получим, что ak -f- ßft ^> u,Ä AÄ, т. е. член (12) выше члена (13).

Теперь приступаем к доказательству основной теоремы теории симметрических функций.

Доказательство. Возьмём наивысший член симметрического многочлена f(xi9 ...9Хп). Пусть это будет член

(14)

Тогда многочлен f(xly ..., хп), являясь симметрическим, должен вместе с членом (14) содержать и все члены, получающиеся из члена (14) при всевозможных перестановках неизвестных. Покажем, что

(15)

Действительно, переставляя хх и хь мы получаем из члена (14) член

Так как этот член не может быть выше члена (14), то показатель при Xi в этом члене не может превосходить показателя при хх в члене (14): af ^=a2.

Точно так же, сравнивая член (14) с членом

получающимся из (14) путём перестановки неизвестных х% и х^ приходим к заключению, что a2^a3 и т. д. Очевидно, что

(16)

где kt — целые неотрицательные числа, есть также симметрический многочлен от х19 ..., хп. Попытаемся подобрать числа k£ так, чтобы наивысший член симметрического многочлена (16) совпадал с членом (14).

Основные симметрические многочлены аи о2, ..., оп имеют наивысшими членами соответственно х1У ххх2у ... у ххх2 ... хп. Следовательно, согласно недавно доказанной лемме, симметрический многочлен (16) имеет наивысшим членом

(17)

Решая эту систему уравнений относительно ki9 получаем:

k1=al — а2, &2 = а2— а3, ..., kn_î=an_1 — ап, kfl=an.

В силу неравенств (15) эти значения kt будут целыми неотрицательными числами.

Итак, вычитая из многочлена f(xl9 хп) выражение

мы уничтожим член (14) и получим симметрический многочлен

fi(xu xn)=f(xu хп) — Aoïl~~a202*2~*z ...

состоящий из более низких членов. Пусть

— наивысший член многочлена ft(xi9 ..., хп). Тогда мы снова повторим процесс понижения высоты членов — вычтем из многочлена ft(xi9 хп) выражение Zfo?1"^2"^3 ... о^, в результате чего получим симметрический многочлен

и т. д. Этот процесс, однако, не может быть бесконечным: если на £-м шагу мы придём к симметрическому многочлену fk (xî9 ..., хп) с наивысшим членом

(18)

то, с одной стороны, его показатели \t будут удовлетворять условию Xj^Xa^ ... ^X/t, а с другой стороны, о^^Х^ так как член

(14) выше члена (18). Но, очевидно, существует лишь конечное множество систем целых неотрицательных чисел Xt9 л2, ..., \п, удовлетворяющих условиям а1^\1 и Xj Х2 ^ ... Хл. Тем самьш наш процесс должен закончиться, т. е. через конечное число шагов неизбежно получится, что

Отсюда вытекает, что

т. е. многочлен f(xu хп) выразился в виде многочлена от о,, а2, ..., оп над тем же самым кольцом R. Этим теорема и доказана полностью.

Способ выражения симметрического многочлена через основные симметрические многочлены, положенный в основу только что проведённого доказательства, является и в практическом отношении довольно удобным способом. Обратимся к такому примеру.

Пример 2. Выразить симметрический многочлен

(19)

через основные симметрические многочлены ои о2, о3.

Очевидно, что лгА—лг2, хх—лг3, лг2—хъ имеют наивысшими членами соответственно xlt xt и х2. Поэтому на основании известной леммы наивысшим членом многочлена (19) будет:

Существенно облегчает наши выкладки то обстоятельство, что многочлен (19) является формой шестой степени.

Составим теперь следующую табличку наивысших членов многочленов /(лг„ хп)у fi(xi9 .... хп)у f2(xly хп) и т. д., получающихся при нашем способе понижения высоты членов симметрического многочлена. Ясно, что каждый из этих многочленов будет также формой шестой степени, и поэтому все члены будут шестой степени:

Система показателей наивысшего члена

Наивысший член

Соответствующая комбинация основных симметрических функций

Обращаем внимание читателя на то, что при составлении первого столбца таблички следует руководствоваться условием Xj ^ Х2 ^ Х3, имеющим место для наивысшего члена симметрического многочлена fk(xlf хп), получающегося на k-м шагу нашего процесса.

Таким образом,

/ (*„ лг2> лгз) = oft + ßo°o3 + Col + ооЛо, + Ed*. (20)

Остаётся определить, чему равны коэффициенты В, С, D, Е. Для этой цели будем неизвестным xlt х2> хъ давать те или иные значения. Полагаем лг1 = 1, х2=1, х3 = 0. Тогда

/(1, 1, 0) = 0, о1 = 2> о2 = 1, с3 = 0,

и равенство (20) превращается в

0 = 4 + С,

откуда С = — 4.

Следовательно,

/ х„ х3) = 0l2o= + Во'л - W2 + D W3 + £4 (21)

Полагаем теперь дг, = 1, ,*г2=1, д;3 = — 2.

Получаем:

/(1, 1, — 2) = 0, о1 = 0, о2 = —3, о3 = —2,

и равенство (21) превращается в

0=108-f 4£,

откуда Е = — 27. Следовательно,

/ (*,, х%, х3) = « + ß^a3 - 4о° + Dom - 27о\.

Далее, полагаем X\ = lt -*г2=1, хг=1. Получаем:

/(1, 1, 1) = 0, о1 = 3, о2 = 3, о3=1

и

0 = 81+ 21В — 108 + 9D — 27,

или

3tf-fD = 6. (22)

Затем, полагая xt = l, х%=1, лг3 = —1, получаем:

/(1, 1, —1) = 0, о1=1, а2 = —1, о3 = —1

и

0=1—^4-4 + 0 — 27,

или

В — D =— 22. (23)

Решая систему уравнений (22) и (23), находим без труда, что В = — 4, £ = 18.

Итак, окончательно

/С*,, лг2, *,) = о*о* - 4о*о3 - 4о2 + 18оЛо, - 27о|.

В случае неоднородного симметрического многочлена мы рекомендуем разбить многочлен на сумму однородных симметрических многочленов и каждый из таких многочленов выражать через основные симметрические многочлены так, как это было сделано в только что рассмотренном примере.

Существует, впрочем, и много других способов выражения симметрических многочленов через основные симметрические многочлены; некоторые из этих способов читатель найдёт в книге А. К. Сушкевич, Основы высшей алгебры, изд. 4-е, Гостехиздат, 1941.

Несмотря на большое разнообразие способов выражения симметрических многочленов через основные симметрические многочлены, имеет место следующая

Теорема о единственности выражения симметрических многочленов через основные симметрические многочлены. Всякий симметрический многочлен выражается единственным образом в виде многочлена от основных симметрических многочленов.

Мы опускаем доказательство этой теоремы1).

Очевидно, что все основные результаты настоящего параграфа остаются в силе и для симметрической алгебраической дроби. А именно, всякая симметрическая алгебраическая дробь

от п неизвестных над полем Р может быть выражена в виде алгебраической дроби от основных симметрических многочленов olf о2, о3, ..., оп над тем же полем Р:

где 9(oj, ал) и ^(о„ оп) — многочлены от а„ ..., ол над Р.

§ 14. Некоторые приложения теории симметрических многочленов

Ещё в элементарной алгебре приходится встречаться с задачей уничтожения иррациональности в знаменателе. Здесь мы рассмотрим эту задачу в полном объёме для случая числового поля.

1) Её доказательство можно найти в учебниках по высшей алгебре, например в учебнике Куроша [1] или в учебнике Окунева [3].

Пусть

—некоторая алгебраическая дробь от х над числовым полем Р, ср(х) — некоторый многочлен /г-й степени над полем Р и 6„ ... , 6Л — комплексные корни многочлена у(х)у причём пусть 6„ ... , Ьп не являются корнями g(x). Задача уничтожения иррациональности в знаменателе заключается в следующем: требуется преобразовать дробно-рациональное выражение

(1)

так, чтобы оно оказалось равным целому рациональному выражению от Oj с коэффициентами из того же поля Р:

где h(x) — некоторый многочлен над Р.

Мы предлагаем вниманию читателя два решения этой задачи.

1) Умножим числитель и знаменатель дроби (1) на ^(62).. .^(6Л). Получим:

Мы видим, что в качестве знаменателя получился симметрический многочлен F(8lf ... , 6Л) = ^(61)^(02)... g(bn) от 6lf ... , 6Я. Следовательно, согласно основной теореме теории симметрических многочленов F(6|, ... , 6Л) можно выразить в виде многочлена над Р от основных симметрических многочленов al9 о2, ... , оЛ. Отсюда в силу формул Вьета F (öj, ... , бЛ) будет выражаться и через коэффициенты многочлена ср(х)у т. е. если

то F(6j, ... , Ьп) = Н(аи ... , ап)у где Н(аи ... , ап) — многочлен от av а2, ... , ап над полем Р. Но al9 а2, ... , ап суть числа из поля Р. Значит, и F(Ь19 ... , 6л) = //(а1, ... , ап) является некоторым числом b из Р. Таким образом,

Остаётся f(Q1)g(%)...g(Qn) выразить через 6t. Для этой цели рассмотрим: ^ (02) g (03)... g (8J. Произведение

*Г(в«)«г(в.)...^(вй) (2)

является, очевидно, симметрическим многочленом от 82, ... , 6„. Следовательно, произведение (2) можно выразить через основные симметрические многочлены

от 62, ... , 8Я. В свою очередь о,, о2, ... , можно следующим образом выразить через Ьг и основные симметрические многочлены ai> о2, ... , оп от 6^ ... , 6Л:

и т. д. Но по формулам Вьета

Следовательно,

и т. д.

Итак, мы видим, что g"(62) ... g(Qn) можно выразить через 8А и коэффициенты аи .. • , ап многочлена <р (х), т. е.

где k (öj) — многочлен от Ьх над Р. Отсюда

мы освободились от иррациональности в знаменателе.

Пример 1. Дана дробь

где 8 — корень уравнения хг— 2х — 2 = 0. Освободиться от иррациональности в знаменателе.

Умножаем числитель и знаменатель дроби на (1-)-62) (1-(-6J, понимая под 02 и б3 остальные два корня рассматриваемого уравнения:

где et=e.

Обращаемся к симметрическому многочлену

и выражаем его через основные симметрические многочлены. Имеем: 61М3 — °з» ö162 -|- б^з -f- ö263 = о2, 8Х -j- 62 + 63 = oj.

Отсюда

F (Pu 92> в8) = а8 + аа + а1 + 1.

Но по формулам Вьета имеем в данном случае, что ох=0, о2 = — 2, о3 =— (—2) = 2. Следовательно,

F (Pu 62> 68) = 2 —2 + 0 + 1 = 1.

Таким образом,

Остаётся всё выразить через 6 = 6«. Пишем:

или, так как о{ = 0, о2 =— 2, о3 = 2:

62 + 63 = — 8,, е283 = — 2 + 6J. Отсюда окончательно получаем, что

Пример 2. Избавиться от иррациональности в знаменателе дроби

Здесь 81 = |/г5есть корень уравнения хг — 5 = 0. Переписываем данную дробь так:

Умножаем, далее, числитель и знаменатель на (6* 4- 4) (8ij -f- 4):

*) Этот пример легко решить, умножив числитель и знаменатель на V 253 — 4у~25 + 16; мы хотим, однако, продемонстрировать общий приём, указанный выше.

Симметрический многочлен

следующим образом выражается через основные симметрические многочлены:

Р(6„ 02, 63) = а32 + 4«--2а1а3)+16(а; — 2а2) + 64.

Так как в данном случае ol = 0f о2==0, о3 = 5, то F(61> ö2, 63) = 25 + 64 = 89

и потому

Выражаем

(о; + 4) (е: + 4)=еде + 4 (в;+в;> + ie

через о1э о2. Так как

еде=(е А)2=ïj, в;+=(в,+е3)* - 2в2в3 =ä; - 2Ö„

то

(в, + 4) (в; + 4)=5j + 4 (oj- + 16.

Наконец, принимая во внимание, что

oj == — — 6А = — 8lf о2 = а2 -f- «i^i + ei = 6Î>

находим, что

(622 + 4)(^ + 4)===ej + 4(6J-26J)+16 =

= 8J —46*+ 16 = 58! —48*-f 16,

так как 8^ = 5.

Итак,

или

2) Второе решение задачи об уничтожении иррациональности в знаменателе основано на использовании алгорифма Евклида и заключается в следующем.

Так как 8j — корень многочлена у(х) над полем Р, то 6 является числом, алгебраическим относительно Р. Но ещё в § 10 мы

установили, что в случае такого 8j дробь

где /(öj) и g(bt)^zO — произвольные многочлены от Bt над Р, может быть приведена к целому рациональному выражению от 8Х с коэффициентами из Р:

где /г (6Х) — некоторый многочлен от 6t над Р. В том же § 10 был указан метод нахождения многочлена h(bt). Отметим, что в этом методе существенно, чтобы многочлен 9 (х) был неприводим в поле Р.

Пример 3. Освободиться от иррациональности в знаменателе дроби

где 8j — корень уравнения 9 (х) = х* — 2х — 2=0. Здесь g(x) = = х-\-1 и многочлен 9(х) неприводим в поле рациональных чисел.

Многочлен 9 (х) = х* — 2х—2 при делении на g(x)= х-\- 1 в частном даот q(x) = xi— х3-\-х2 — х—1, а в остатке r(jc) = = —1. Таким образом,

ф (*)—*(*)? С*)— Ь

Отсюда

g(x)q(x) — cp(x)=l. Полагаем в последнем равенстве x = Qt:

*(öi)?(e.)=i.

Следовательно,

и потому

Так как 6j есть корень уравнения х* — 2х — 2 = 0, то 8* = 28I-f-2, в силу чего

Симметрические многочлены находят также применение и в решении алгебраических уравнений. Пусть

ер (лг) = ** + а^-1 + а2хп~* +... -f ап = 0 (3)

— уравнение /г-й степени с комплексными коэффициентами и Ьи • • •, 0П— корни этого уравнения. Рассмотрим некоторое целое рациональное выражение

и=/(Ьи 62, ... , 8Л) над полем рациональных чисел от корней 0Д> 82, ... , 8Л. Будем про-

изводить всевозможные перестановки корней bl9 62, ... , Вп; при некоторых перестановках bi9 62, ... , Ьп и может не измениться, а при других перестановках Ь19 ... 9 Ьп и может измениться. Пусть при этих перестановках и принимает m различных значений: ut = u9 и2, ... 9 ит; очевидно, что 1 ^m^п. Составим следующий многочлен:

где

От перестановки Ь19 82, ... , Ьп многочлен g(x) не может измениться, может произойти лишь перестановка линейных множителей X — щ. Отсюда ясно, что коэффициенты gt многочлена g(x) являются симметрическими многочленами корней 6«, 6Д. В силу этого коэффициенты g£ будут выражаться через коэффициенты данного уравнения (3):

gi = hi(al9 ... 9 ап)9

где h-(al9 ... 9 ап) — многочлен от а19 ... 9 ап над полем рациональных чисел. Уравнение

называется резольвентою или разрешающим для уравнения (3).

В некоторых случаях удаётся с помощью соответствующего разрешающего уравнения свести решение данного уравнения (3) к решению уравнений более низких степеней. В качестве иллюстрации рассмотрим следующий пример:

Пример 4. Обратимся к уравнению четвёртой степени

лг4 -f- аххг + а2лг2 + аъх + а4 = 0 (4)

и обозначим его корни через д19 62, 63, 64. В качестве и мы возьмём

« = 6,63 + 6364.

Легко видеть, что и при всевозможных перестановках корней 6„ 62, 63, 64 принимает только три различных значения:

И1 = н = вЛ + в8в4> «2 = 6,63 + 8264, Из = вА + 0А.

Таким образом, разрешающее уравнение g(x) = 0 будет третьей степени. Найдём его коэффициенты gi9 g2, еГз- С помощью сравни-

тельно несложных вычислений находим:

Следовательно, разрешающим уравнением будет:

хъ — а2х* -}- (ataz — 4а4) х — (а\ -\- а\ак — 4а2а4) = О*).

Теперь стоит только найти корни и19 гг2, иг разрешающего уравнения, и мы легко определим корни данного уравнения (4). В самом деле, для щ имеем:

8А + 63G4 = lh> 8 А ' = aL>

откуда видно, что и 8364 являются корнями квадратного уравнения

лг2 — щх -f я4 = 0. (5)

Далее, на основании формул Вьета

8 А83 + 8 А84 + 8 А84 + 828384 = — аЪ

или

в А (03 + е4) + ö3e4 (е, + е2)=- аъ.

Отсюда, обозначая корни и 6364 уравнения (5) соответственно через аир, получаем следующие два соотношения для öx —f— в2 и

(6» + 62) + (63 + = - аи ß (в, + 62) + а (93 -I- 64) = - а3. Из этих соотношений без труда находим, что

Следовательно, 6j и 02 являются корнями квадратного уравнения

а б3 и 64 — корнями квадратного уравнения

*) Это уравнение совпадает с разрешающим уравнением (3), построенным по способу Феррари (стр. 221), если положить х = 2у.

ГЛАВА III

О РЕШЕНИИ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ В РАДИКАЛАХ

§ 15. Подстановки

В настоящей главе мы покажем, что алгебраические уравнения выше четвёртой степени вообще нельзя решить в радикалах. Однако для этой цели нам придётся предварительно познакомиться с понятием подстановки, с понятием, представляющим также и самостоятельный интерес.

Пусть

аи а%, ... , ап (1)

— некоторая совокупность п элементов. Что собой представляют эти элементы, нас не интересует.

Подстановкой п-й степени элементов (1) называется такая замена каждого элемента at некоторым элементом а}- той же совокупности (1), при которой различные элементы переходят также в различные элементы. (В частности, тот или иной элемент at может быть заменён самим собою, т. е. может быть оставлен без изменения.)

Обычно подстановку /г-й степени записывают следующим образом:

Здесь под элементами аи а2, ... , ап первой строки находятся соответственно элементы щ19 at2i ... , ain второй строки. Это означает, что öj заменяется элементом a-lv а2— элементом а;2, ... , ал — элементом а1п.

Например,

(2)

есть подстановка четвёртой степени элементов аи а2, а3, а4. Мы здесь видим, что под элементом at первой строки находится элемент аг второй строки. Это значит, что подстановка 5 заменяет

элемент at элементом аъ. Далее, из записи подстановки (2) видно, что эта подстановка заменяет элемент а2 элементом а4, аъ — элементом ûj и а4 — элементом а2.

Условимся для упрощения писать вместо элементов alf а2, ... , ап их номера и говорить о подстановках я-й степени из п чисел 1, 2, ... , п. Так, например, вместо подстановки (2) можно говорить о подстановке

Введём теперь операцию умножения подстановок #-й степени. Для большей наглядности возьмём две подстановки четвёртой степени:

(3)

Посмотрим, что получится, если сначала применить подстановку 5 и затем подстановку Т.

Подстановка S число 1 переводит в число 3, после чего 3 переводится подстановкой Г в 4. Таким образом, при последовательном применении подстановок S и Т число 1 переводится в 4:

1-+4.

Далее, число 2 подстановкой 5 переводится в 1, после чего 1 подстановкой Т переводится в 2. Таким образом, при последовательном применении подстановок S и Т число 2 переводится в 2:

2-+2,

т. е. остаётся без изменения. Подобным же образом находим, что при последовательном применении подстановок S и Т число 3 переводится в 1 и число 4 переводится в 3:

3-*1,

4-^3.

Мы видим отсюда, что последовательное применение подстановок S и Т равносильно применению одной подстановки

(4)

Подстановку (4) мы назовём произведением подстановок 5 и Т и обозначим через ST.

Вообще произведением StS2 подстановок St и 52 /г-й степени называется такая подстановка /г-й степени, которая равносильна последовательному применению подстановок St и 52.

Легко убедиться, что умножение подстановок не подчиняется переместительному (коммутативному) закону. Например, произведение TS подстановок (3) будет уже отлично от подстановки (4)

Относительно умножения подстановок справедлива следующая Теорема 26. Множество Sn всех подстановок n-ä степени образует группу относительно операции умножения подстановок.

Доказательство. Прежде всего покажем, что умножение подстановок подчиняется сочетательному закону: для любых трёх подстановок Su S2 и 53 /г-й степени имеет место равенство

(StS2) 53 = (5253).

В самом деле, пусть а — одно из чисел 1, 2, ... , п и пусть подстановка St число а переводит в ß, подстановка S2 число ß переводит в у и у подстановкою 53 переводится в 8. Тогда (SjSg) будет а переводить в 8, так как SjScj число а переводит в у, после чего 53 число у переводит в 8.

Точно так же St (5253) переводит а в 8, так как S1 переводит а в ß и S2S3 переводит ß в 8. Мы видим отсюда, что (SiS2)S3 и Si (S2S3) производят одинаковую замену — они а переводят в 8. Следовательно,

(5j52) S3 = (S2S3).

Теперь покажем, что среди подстановок я-й степени имеется подстановка, играющая роль правого единичного элемента. Для этой цели рассмотрим подстановку

носящую название тождественной или единичной подстановки. Нетрудно проверить, что для любой подстановки я-й степени

(5)

выполняется равенство

SI=S.

Следовательно, подстановка / и будет правой единицей.

Наконец, покажем, что для каждой подстановки (5) существует подстановка той же степени, играющая для 5 роль правого обратного элемента. Мы утверждаем, что такой подстановкой будет:

Действительно, 1 переводится подстановкою 5 в alt после чего 5' переводит а} в 1; следовательно, произведение 55' переводит 1 в 1. Подобным же образом убеждаемся, что произведение 55' переводит 2 в 2, 3 в 3, ... , п в п. Значит, 55'=/, что и требовалось показать.

Подстановка 5' обозначается через 5~* и называется обратною относительно 5.

Группа 5Л всех подстановок я-й степени обычно называется симметрическою группой я-й степени; она является некоммутативной группой, так как вообще умножение подстановок не обладает свойством переместительности. Симметрическая группа 5Л состоит, очевидно, из п\ подстановок, вследствие чего 5Л есть конечная группа порядка, равного п\.

Всякая подгруппа G симметрической группы Sn называется группой подстановок л-й степени. Например, существует всего шесть групп подстановок третьей степени, а именно сама симметрическая группа 53 третьей степени; группа 01$ состоящая из трёх подстановок:

группа 02, состоящая из двух подстановок:

группа G3, состоящая из двух подстановок:

группа G4, состоящая из двух подстановок:

наконец, группа G8, состоящая лишь из единичной подстановки

Группу Gö принято обозначать через Е и называть единичной группой.

§ 16. О неразрешимости уравнений выше четвёртой степени в радикалах

В настоящем параграфе мы увидим, что для всех алгебраических уравнений данной степени п ^5 не существует общей формулы решения в радикалах.

В § 10 было показано, что уравнение

а0лгЛ + а1^"1+ ... +ап = 0 (а0ф0) (1)

тогда и только тогда разрешимо в радикалах, когда нормальное поле Q = A(a1, ... , ап) содержится в расширении А(р1? р2, ... , pk), полученном путём присоединения к А некоторых радикалов р± = Y Au р2 = 'у/Л2, ... , pk = |/rAk> где At принадлежит Д, Л2 принадлежит A (pi), ... , Ak принадлежит A (pt, р2, ... , pÄ_,); при этом поле Д есть не что иное, как область рациональности уравнения (см. § 10).

Мы можем всегда показатели #2, ... , nk радикалов предполагать простыми числами. В самом деле, если бы встретился, например, радикал *УА, то мы его заменили бы тремя радикалами р' = Y А, р"=|/у и р'" = у/Лр". В знак этого мы будем в дальнейшем показатель радикала pi обозначать не через nit а через р£ и будем молчаливо под Pi подразумевать простое число.

Присоединим к А первообразные корни Pi-fty ^2-й, ... , /?А-й степени из единицы и обозначим через К поле, получившееся в результате такого присоединения: К= A (s,, е2, eÄ). Очевидно, что если уравнение (1) разрешимо в радикалах, то его нормальное поле 2 будет и подавно содержаться в расширении К (pi, р2,... , pÄ).

Однако часть радикалов рх=РуAv ... , Pk = VAk может оказаться лишней. А именно, если подкоренная величина А4 радикала pz-= у Л| будет точной ргй степенью в поле К(р1у ... , P/_i), т. е. если Ai = ap\ где а — некоторый элемент из К (tu р2,..., pw), то в этом поле будут лежать все корни двучлена хр*— Аь в силу чего радикал р,- будет лишним — его присоединение к полю К(р\У р2, ... , р,-^) никакого расширения фактически не даст:

К(?и Р«» • > Р/) = #(р1» р2> ••• у Рм)'

Теперь докажем следующие леммы:

Лемма 1. Если А£ не является точной ргй степенью в поле К(Ри р2>---> Рм)» то двучлен xPi — At неприводим в поле

K(fu р2> - у P/-l)-

Доказательство. Предположим противное, пусть этот двучлен приводим в поле K(fu р2, ... , pt-_i):

где ер(х) и ф(лг) — многочлены над полем K(pit р2> ••• > P*-i)- Обозначим через е первообразный корень ргй степени из единицы и через 60 — какой-нибудь корень нашего двучлена. Тогда, как известно, любой корень 6V двучлена найдётся по формуле

8v = e^60.

Отсюда свободный член b многочлена ср(х) будет равен

&==(— l)rÖViev« Qvr = s'(-6o)r>

где e' = evi+••• + V и l^r<^Pi- Очевидно, что е' есть некоторый корень ргР[ степени из единицы. Возведём b в ргю степень:

b"' = s>p'(-%)rp' = (-l)rpiAl т. е. а: = (-1)грФ.

Так как 1 =^г<^/?£ и pt — простое число, то г и pt взаимно просты; отсюда существуют такие целые числа sut, что rs-\-pit= 1. Таким образом, получаем:

At = аг + # = A?Af*=(-1 ftytA'/ = [(-1 fb'A\\\

т. e. At является точной ргй степенью в поле К (рц p2, • • • > p/-i)» что невозможно. Pi _

Лемма 2. Если радикал pt = j/ Л,- не лежит в полеК(ри ..., p,-_i), то целая степень pf тогда и только тогда лежит в поле <^(Pi> ••• I Pi-i), когда m делится на pt.

Доказательство. Если m делится на piy то m = рд9 где q — некоторое целое число. Отсюда

Но At и тем самым Af лежат в поле К{$%%... , p/_i). Следовательно, должно лежать в К (pi, ... , p,_i).

Обратно, пусть pf1 лежит в K(plt ... , pt_x), т. е. pf = а, где а — некоторый элемент К(ри ... , Pi-i)- Обозначим через ^частное и через г остаток при делении m на /?,-. Тогда мы можем написать, что m=ptq-\-r. Предположим, что остаток г отличен от нуля. В таком случае

откуда в силу равенства р? — а получаем, что

Aipï = a или рГ==о,

где /? = аЛГ9 — элемент поля K(plt ... , р^). Мы видим отсюда, что pf является одновременно корнем многочлена p(x)=xPi — А; и многочлена ср(х) = хг—Ьу в силу чего многочлены р(х) и ^(лг) не взаимно просты. Но по лемме 1 многочлен р(х) неприводим

в поле К (pu ... t р,_х). Следовательно, поскольку многочлены р(х) и ср (х) не взаимно просты, 9 (х) должно делиться на р (лг). Но это невозможно, так как степень г многочлена 9 (х) меньше степени pt многочлена р (х). Поэтому предположение, что г ф 0 неверно, т. е. m делится на р£.

Лемма 3. Если уравнение (1) разрешимо в радикалах, то каждый из корней уравнения можно следующим образом выразить через радикалы:

* = Щ + Ра + M + - - - + Uph-iPfr-1'

где Pi = VАи р2 = РуА2, ... , ph = P*\[Ah (pt — простые числа), At—элемент поля К\ А2 — элемент поля AT(pi), ... , Ah — элемент поля K(pi, ... , pÄ_i); К—расширение, получающееся путём присоединения к области рациональности А уравнения первообразных корней sj, е2, ... , ek соответственно p^ft, ... , pk-ft степени из единицы (k^h); щ—элементы K(pi9 р2,..., Рл-i)- При этом рх не лежит в К, ... , pÄ не лежит в К(р19 ... , pÄ_x) и а не лежит в ^(p2, рз, ... , pÄ), К (pu Рз, ... , рл), ... , K(pi, р2, ... , pÄ_2> Рд), K(Pi> P2t ... i Рл-i)-

Доказательство. Пусть a = at — один из корней уравнения (1). Так как уравнение (1) разрешимо в радикалах, то a будет содержаться в 2 = А(р1, ... , pk) и, следовательно, будет содержаться в одном из полей вида К(р» р2, ... , Рд) (h^k). Отсюда следует, что

a = а0 + alPÄ -f а2р\ + ... + flPA_ipSÄ":(2)

где ai — элементы поля ^(рх, р2, ... , Ph-i)- Мы можем предположить, что р! не лежит в К, р2 не лежит в K(pi)t ... , Рд не лежит в К(Ри ••• * Рл-i) и a не лежит в К(ри • •• . Pi-i> P*+i> ••• » Рл) (/= 1, 2, ... , h). В самом деле, если бы имело место иное, то в выражении (2) некоторые радикалы pt можно было бы опустить.

Покажем, что при соответствующем выборе радикала ph величина может быть сделана равной единице. Действительно, все al9 ... 9 öpÄ-i в правой части равенства (2) не могут равняться нулю, так как в противном случае a лежало бы в K(pl9 р2, ... , Рл-i)» чт0 невозможно. Поэтому пусть агфО (1^/<^/?А). Тогда полагаем:

ai?lh = ?h.

Так как числа / и ph взаимно просты, то существуют такие целые числа sut, что sl-\-tph—\. Легко видеть, что s не делится на ph: если бы ^ делилось на ph, то, очевидно, и sl-\-tph делилось бы на ph9 вследствие чего и 1 делилась бы на простое число ph> а это невозможно. Возведём р^ в 5-10 степень:

откуда

где v = A{afs — элемент, лежащий в К(ри • • • » Рл-i)- Очевидно, что рл не лежит в К(рц ... , рл-J; в противном случае ph = vpns и подавно лежало бы в К(рц ... , Рл-i)- Таким образом, мы можем вместо рЛ взять в качестве h-ro радикала рд. Заменяя в равенстве (2) радикал рЛ его выражением через р'п и принимая во внимание, что

aiph = p'h> получаем:

a=ai=a0+alvtf+a%vy?s+... +9'п+... + a^V^1 PkiPh~i)S' (3)

в равенстве (3) все степени pä*(v = 0, 1, ... , ph—1) между собой различны. в самом деле, если бы

(V!>V2),

то pÄ(Vl ~Vs)s = 1, откуда по лемме 2 (Vj— v2)s делилось бы на рп, т. е. — v2 делилось бы на /?Л, так как s не делится на простое число рп. Но Vj — v2 не может делиться на ph, так как 0 <^ Vj — v2 <^ph. Следовательно, при Vj ф v2 степени р^1* и р^2* различны.

Пусть, далее, q— частное и г — остаток при делении vs на ph. Тогда

Pr=(PrA)V=*pa,

где b = (p'Pfl)4 — элемент поля К(Ри р2>--- » Рл-i)- Очевидно, что при изменении v от 1 до ph — 1 остаток г будет в той или иной последовательности принимать ph—1 различных значений 1, 2, ... ... , рп—1. Отсюда равенство (3) принимает следующий вид:

« = "о + Ph + Щрн + ... + uPh-iP'nPfri> т. е. вместо at получилась единица.

Лемма 4. Если уравнение (1) разрешимо в радикалах ри р2, ... ... , pfe с показателями ри р2> ... , pk) то радикалы р(- являются целыми рациональными функциями корней уравнения (1) над полем К, где К имеет тот же смысл, что и s лемме 3.

Доказательство. Пусть а—ах — какой-нибудь корень уравнения (1). Согласно лемме 3 мы можем написать, что

a = at = щ -f pÄ + н2р2д + ... + ttPhrl pF1, (4)

причём p,. не лежит в поле К(ри р2>.«- » p,-i) и a не лежит в поле К(рь..., р|-1, Pi +1,..., pÄ)(i= 1,2,..., h). Так как pÄ= у Ап не лежит в поле К(р1У р2,pÄ_i), то по лемме 1 двучлен хРл — Ап неприводим в поле К (pi, р2> • ••> Рл-i)- Принимая это во внимание, подставим в уравнение (1) вместо х выражение (4) корня а. Тогда в левой части уравнения получится относительно pÄ многочлен, степень которого с помощью равенства pphh = Ah можно понизить до рп—1:

где Вi лежат в AT(pi, р2, ... , рл-i)- В силу неприводимости двучлена хРн— Ah в поле K(Pi, р2, Ph-i) последнее равенство может иметь место только тогда, когда B0 = Bt = ... = BPh^ = 0. Таким образом, это равенство будет осуществляться для любого корня едрЛ двучлена хРн — Ah. Следовательно,

(5)

есть также корень уравнения (5).

Умножим теперь каждое из равенств (5) на еЛ""^ и сложим почленно (l^v^/?Ä—1). После некоторых упрощений у нас получится:

откуда

т. е. рЛ и щ лежат в K(a>i, ... , <х„).

Таким образом, величины ЛЛ = рдЛ и hv по только что доказанному являются целыми рациональными функциями корней ai9 ... , ап над полем /f, а с другой стороны, выражаются через радикалы р1? ... ..., рЛ-1. Введём для этих величин с целью сокращения письма единое обозначение ßv. По меньшей мере одна из величин ßv должна содержать радикал рЛ_1# Если бы это было не так, то в выражении (4) корня а через радикалы можно было бы рЛ_х опустить, вследствие чего мы имели бы, что корень а лежит в К (fit ... , pÄ_2, рЛ), что невозможно. Пусть ßj содержит pÄ_x. Напишем выражение величины ß, через радикалы:

ßi = Щ + üiPä-i + v^\x -}-...+ vPhî _ , p^-i -!. (6)

Так как ßt есть целая рациональная функция корней alt ... , ап над К:

ßi=r(«i. •••> О»

то мы можем в выражении г(а1? ап) произвести всевозможные перестановки корней ау-, в результате чего получим п\ значений: 6j =: P|, 02, ..., 6д!. Составим уравнение

(7)

Очевидно, что коэффициенты этого уравнения суть симметрические многочлены от av <х2, ... , ап над полем К\ поэтому g(x) есть многочлен над К.

Итак, мы видим, что ßt есть корень уравнения (7), разрешимого в радикалах. Согласно лемме 3 в выражении (6) можно принять v1=l:

Повторяя относительно ßt те же рассуждения, что и для аи получаем, что рЛ_х и лежат в K(cLlf ... , се,,).

Далее, вводим для величин рЛ-1 и vy единое обозначение По меньшей мере одна из величин yv, например у1э должна содержать радикал рЛ_2. Повторяя для у, рассуждения, аналогичные тем, которые мы провели для ßlf получим, что рЛ_2 лежит в К(а1у ... , ап) и т. д. В конечном счёте мы дойдём до радикала pi и покажем, что он лежит в K(oi,lf ... , <хл), и этим завершим доказательство леммы.

Лемма 5. Пусть T=R (е1У ... , ek) — расширение, получа-ющееся путём присоединения к полю R рациональных чисел первообразных корней 6j, ... , ek, соответственно ргй, р2-й, ... , pk-u степени из единицы. Тогда всякое рациональное соотношение над полем Т:

Х2У ... , Xni oi9 а2, ... , оя) = 0 (8)

между независимыми переменными xi9 ... , хп и основными симметрическими многочленами ol9 аа, ... , оп от этих переменных остаётся в силе при любой перестановке переменных:

Xiê9 ... , Xin% а„ о2, ... , ся) = 0, (9)

где ll9 i2, ... , ln — произвольная перестановка чисел 1, 2, ... , п.

Доказательство. Для произвольной системы значений переменных Аг1 = а1, ... , хп = ап (at — любые комплексные числа) пусть <з1=р1> ... , оп=рп. Тогда согласно условиям леммы

ф(<*i, <х2, ... , ап9 plt р2, ... , рп) = 0.

Полагая, далее, xl = ail, х2 = а^, ... , xn — ain) мы при этих значениях переменных будем иметь, очевидно, те же значения ot=pl9 ... , оп = рп основных симметрических многочленов. Таким образом, мы можем в соотношении (8) положить xx = aixi х2 = = а,-2, xn = ain, at=pu ... , on=pni в результате чего получим:

9(a*V ai2> ••• » av Pl> P*> ••• 9 Pn)

Отсюда в силу произвольности чисел al9 а2, ..., ап следует, что

Замечание. Переход от соотношения (8) к соотношению (9) можно, очевидно, осуществить с помощью подстановки

Мы можем, следовательно, сказать, что соотношение (8) не нарушается при любой подстановке симметрической группы Sn п-й степени. Теперь мы вплотную подошли к известной теореме о неразрешимости алгебраических уравнений выше четвёртой степени в радикалах.

Теорема Руффини-Абеля. Для алгебраических уравнений заданной п-й степени не существует общих формул, выражающих каждый корень уравнения через радикалы, когда я ^5.

Доказательство. Предположим противное — пусть какой-нибудь корень Х\ произвольного алгебраического уравнения

хп — а^ + о^-2— ... 4-(_1)*оЛ = 0

степени п ^5 выражается через радикалы по общей формуле

■*1=г(р1> ••• > Ра» °1> °2> ••• у °j» (10)

где г (р|,..., pÄ, Ql9 о2,... , оп) — рациональная функция от р19 ... , рЛ, ai9 ... , оп над полем T = R(elt е2, ... , efe), не зависящая от выбора уравнения; в;, как и выше, означает первообразный корень /?,-й степени из единицы. В силу произвольности алгебраического уравнения мы можем его корни хи ..., хп рассматривать как независимые переменные. Согласно лемме 4 радикалы р£ должны быть целыми рациональными функциями от xl9 ... , хп над полем Дг=А(е1, ... , е^)*) или, что то же, рациональными функциями от хи ... , хп, ait ... , оЛ над полем Т:

р$=^(х19 ... , хп9 а19 ... , оя), (11)

причём, поскольку формула (10) является общей для всех алгебраических уравнений заданной степени п ^5, выражения

г; (хи ... , хп, о19 ... , оп)

также не должны зависеть от выбора уравнения заданной степени п. Рассмотрим подстановку

Она переводит корень xt в лг2, х2 в xZi хъ в лг4, дг4 в хъ и *в в xlf а остальные корни (при я^>5) оставляет неподвижными. Будем обозначать через Ht выражение, получающееся из некоторой рациональной функции H от хх> ... , лгл, ох, ... , ort над полем Г

*) А = r (qu cj£, ... , сл).

в результате применения подстановки t /г-й степени. Покажем, что от подстановки s величина первого радикала не меняется.

Так как pl=rl(xlt ... , xtv о„ ... , on)=PYАх и At есть рациональная функция над полем Т от о,, а2, ... , од, то равенство

можно рассматривать как рациональное соотношение между xl9 ...

хПУ о,, ... , оп над полем Т; таким образом, это соотношение по лемме 5 не нарушится после применения подстановки s:

(pPi)s = Als

или, так как (р?1)5 = (Pi5)Pl и Als = Al9 имеем:

(Pis)Pi = Au

т. е. pts оказалось также корнем /?,-й степени из At. Отсюда р1$ = е][р1, где V — некоторое целое неотрицательное число. Далее, p1sm = (pls)sm-l = el(p1sm-ï)= ... =eJ»Pl. Но sB = /, где /—единичная подстановка. Следовательно, p1s5 = p1 = еС*р„ откуда е^ = 1. Теперь обратимся к подстановкам

Легко видеть, что tu = s и £3 = и3 = /. Рассуждая аналогичным образом, получаем, что р1£ = е£р1 и Р\и = ъ\р1У где ji. и X — некоторые целые неотрицательные числа и e^ = ejx=l. Отсюда

Pls = р, (tu) = ejf (piiï) = sf . exPl = + xp„

вследствие чего е* = е£ + х. А теперь получаем, что

т. е. р1$ = р! — подстановка s оставляет радикал р, без изменения.

Переходя к р2, затем к р3 и т. д., убеждаемся с помощью аналогичных рассуждений, что все радикалы р1, р2, ..., ph не меняются от подстановки 5.

Наконец, обращаемся к равенству (10). Согласно равенствам (11) мы можем равенство (10) рассматривать как рациональное соотношение между хи ... , хпУ ои ... ; оп над полем Г. Таким образом, в силу леммы 5 равенство (10) не нарушится после применения подстановки s:

XlS = r(plS, ... , pnSt 0,5, ... , ons).

Ho xls = x2, a/s = o/ и по доказанному выше p1s = p1, pns = pn# Следовательно,

*2 = г(ри ... , ря, olf ал),

т. е. х% = хи что противоречит независимости хи ... , хп.

§ 17. Группа алгебраического уравнения

Доказанная в предыдущем параграфе теорема Руффини-Абеля обнаруживает только то, что для всех алгебраических уравнений данной степени п ^5 универсальной формулы решения в радикалах не существует. Но отсюда ещё не следует, что существуют уравнения с числовыми коэффициентами, которые нельзя решить в радикалах; ведь остаётся возможность того, что каждое уравнение может иметь своё особое решение в радикалах. Поэтому для более полного исследования вопроса о разрешимости алгебраических уравнений в радикалах нам придётся пойти дальше и изложить некоторые сведения, относящиеся к теории нормальных полей (полей Галуа).

Пусть

F(x) = A^ + ... +Л„ = 0 (1)

— некоторое алгебраическое уравнение #-й степени над числовым полем Р. Мы будем предполагать, что комплексные корни уравнения (1) различны1).

Присоединим к полю Р корни а1у <х2, ... , <хп уравнения (1). Мы получим поле 2 = Р(а1, а2, .., , ап), носящее название нормального поля или поля Галуа относительно Р. В частности, когда Р есть область рациональности уравнения (1), то Q называется просто нормальным полем или полем Галуа, слова «относительно Р» опускаются (см. § 10, стр. 232).

Введём теперь весьма важное понятие группы уравнения. Обозначим через О совокупность всех таких подстановок симметрической группы Sn корней уравнения (1), которые, оставляя неподвижными элементы поля Р, не нарушают ни одно рациональное соотношение между корнями а19 ... , ап над полем Р.

Покажем, что множество Q образует группу относительно умножения подстановок.

Для этой цели воспользуемся следующим предложением, известным из теории групп: если M — конечное множество, то оно образует группу относительно алгебраической операции, определённой в этом множестве и подчиняющейся сочетательному закону.

Таким образом, нам надо показать, что умножение подстановок является для G алгебраической операцией, т. е. что умножение подстановок всегда выполнимо во множестве Q.

Возьмём две произвольные подстановки st и s2 из G. Пусть подстановка 5, переводит некоторое соотношение ri(al9 ... , <хп) = 0 между корнями уравнения (1) в соотношение га(«ц ... , ап) = 0> а подстановка s2 переводит г2(а„ ... , ап) = 0 в г3(а1, ... , ап) = 0. Тогда произведение sts2 переведёт соотношение fi(alf ... , ал) = 0

1) В противном случае мы отделили бы кратные корни. Об отделении кратных корней см. в книге Куроша [1] или в § 29 книги Окунева [3].

в r3(alt ... , ал) = 0. Следовательно, произведение не нарушает ни одно из рациональных соотношений между корнями зфавнения (1), в силу чего SjSg должно также принадлежать G. Так как G— конечное множество, то отсюда следует, что G образует группу.

Эта группа G носит название группы Галуа уравнения (1) над полем Р или короче группы уравнения (1) над полем Р. В тех случаях, когда Р есть область рациональности уравнения, слова «над полем Р» обычно опускаются.

Пример 1. Найдём группу квадратного уравнения

л*+рх + д = 0 (2)

с рациональными коэффициентами, имеющего два различных действительных иррациональных корня at и а2.

Очевидно, что в данном случае Р есть поле рациональных чисел. Далее, всякое рациональное соотношение г(аи <х2) = 0 между корнями уравнения (2) можно предполагать целым рациональным, так как at и <х2 являются алгебраическими числами (относительно поля рациональных чисел). Кроме того, мы можем предположить, что в соотношение r(av <х2) = 0 каждый из корней а„ а2 входит со степенью, не превосходящей 1, так как в противном случае мы могли бы с помощью уравнения (2) понизить степень соответствующего корня. Таким образом, соотношение г(аи а2) = 0 можно записать в виде

(а, b, с, d — рациональные числа).

Но по формулам Вьета ala2 = q. Следовательно, полагая aq d = m, имеем:

r(alf ос2) = bax -f- ca2 -(- m = 0.

Так как <x2 = — p — au то получается, что

r(ai> aa) = (b — c)ai-\-(m—pc) = 0.

Если бы b — сфО, то мы имели бы, что ах = Р^~™ > а это невозможно, так как аг иррационально. Следовательно, b — с = 0, в силу чего соотношение г (а,, а2) = 0 принимает такой окончательный вид:

r(alf a2) = ô(a1-f a2)-f/« = 0. (3)

Соотношение (3), очевидно, не нарушается (даже остаётся одним и тем же) при любой подстановке симметрической группы 52 второй степени. Следовательно, 52 и есть группа уравнения (2).

К понятию группы уравнения можно подойти и с несколько иной точки зрения. Назовём автоморфизмом нормального поля 2

уравнения (1) относительно Р такой изоморфизм 2 с самим собою, при котором каждому элементу а из Р ставится в соответствие тот же самый элемент а, т. е. при котором элемент а остаётся без изменения. Условимся автоморфизмы в отличие от подстановок обозначать большими латинскими буквами, чаще всего последними буквами латинского алфавита. При этом если какой-нибудь автоморфизм S переводит элемент со поля 2 в элемент со', то мы будем записывать это обстоятельство в форме равенства

со5=со'.

Введём теперь понятие умножения автоморфизмов поля 2. Пусть 5, и S2— два произвольных автоморфизма поля 2 и пусть

coSA = со', Q)'S2 = со".

Тогда соответствие со->со" будет взаимно однозначным и при этом соответствии -]- со2 со" -\- , cojCOçj -->- со"а>2, a элементы из поля Р не будут изменяться. Короче говоря, это соответствие будет автоморфизмом поля 2; мы его обозначим через StS2 и назовём произведением автоморфизмов Sx и S2.

Покажем, что множество H автоморфизмов нормального поля образует относительно введённой операции умножения группу, совпадающую с точностью до изоморфизма с группой Q уравнения (1).

Возьмём какое-нибудь рациональное соотношение г (а1э..., ап) = О над Р между корнями уравнения (1) и посмотрим, что произойдёт с этим соотношением при автоморфизме 5 нормального поля 2. Так как автоморфизм 5 сохраняет алгебраические операции поля 2 и не изменяет элементы поля Р, то автоморфизм 5 переведёт соотношение г (а,, ... , ап) = 0 в соотношение r(aiS} ... , anS) = 0. Далее, так как а£ — корень уравнения (1), то /(а1) = 0. Очевидно, что автоморфизм 5 равенство /(<х1.) = 0 переведёт в /(at.S) = 0. Мы видим, что a£S есть корень уравнения (1), т. е. alS=aJi. При этом, если 1фк, то a£S^akS, так как 5 является взаимно однозначным соответствием. Таким образом, автоморфизм S вызывает некоторую подстановку

корней уравнения (1), переводящую соотношение г(а1у ... , ап) = 0 в соотношение r(afl, ... , а^) = 0. Иными словами, автоморфизм 5 вызывает подстановку 5 группы О уравнения (1). Поставим эту подстановку s в соответствие S:

S-^s. (4)

Покажем, что соответствие (4) является изоморфизмом между множеством H и группой G.

Пусть Т—ещё один автоморфизм поля 2 и пусть Т соответствует та же подстановка s, что и автоморфизму .S: T-+s. Любой элемент ш из 2 есть многочлен от о1} ... , ап над Р:

<*>=/(ai> >

Поэтому

o>S=f(aiS, ... , <хя5)=/К, ... , %)=f(*iT, ... , апТ) = о>Т.

Так как со— произвольно, то отсюда вытекает, что S=T.

Легко, далее, убедиться, что для всякой подстановки 5 из G можно указать автоморфизм анормального поля 2 такой, что В самом деле, если

то подстановка 5 переведёт произвольный элемент <ü=f(ah ... , ап) из Q в элемент ш'=/(а/1> ... , ain). При другом выражении (a = g (aj, ... , ап) элемента со через корни уравнения (1) подстановка 5 переведёт со в тот же самый элемент со'. Это следует из того, что рациональное соотношение

/(«1» ... , *,d = g(*u •••>**)

между корнями уравнения (1) не должно нарушаться вследствие подстановки 5 группы G. Таким образом, подстановка 5 вызывает соответствие

со со', (5)

не зависящее от способа выражения элемента со через корни уравнения (1), причём, очевидно, что если а — элемент поля Р, то а-^а. Возьмём теперь другой элемент 6 из 2. Если 6-*-со', то обратная подстановка s'1 будет переводить один и тот же элемент со' в различные элементы со и 6, что невозможно, так как мы только что убедились, что всякая подстановка группы G, в частности s-1, должна, независимо от способа выражения элемента со' через корни уравнения (1), переводить со' в один и тот же элемент. Стало быть, соответствие (5) является не только однозначным, но и взаимно однозначным. Наконец, для произвольного со' можно указать такое со, что со -у со'. Именно, таким элементом со будет элемент, получающийся из со' в результате применения обратной подстановки s'1. Итак, мы убедились, что соответствие (5) есть не что иное, как взаимно однозначное отображение поля 2 на самого себя, оставляющее элементы поля Р неподвижными.

Покажем, что соответствие (5) и будет искомым автоморфизмом 5. Действительно, если со-»*со' и 6->8', то подстановка 5 переведёт сумму ю-f е=/(а„ ... , ая) + g(ai9 ... , ал) в

в силу чего со —[— Ö —со' —[— 6'. Точно так же убеждаемся, что шб-^со'6'. Все эти рассуждения показывают, что соответствие (4) есть взаимно однозначное соответствие между множествами H и G.

Остаётся проверить, выполняются ли для соответствия (4) условия изоморфизма. Пусть

Тогда для произвольного элемента (ü=f(alf ... , ап) из 2 получаем:

ю(5Г) = (<о5)Г=/(а,1, ... , а,я)Г=/(аЛ.....«/„) = »'•

Мы видим отсюда, что элемент со' получился из элемента со с помощью подстановки

Следовательно, ST-+st.

Итак, И и О оказались изоморфными. Благодаря этому обстоятельству мы можем не отличать G от H и в случае надобности понимать под группой уравнения (1) группу автоморфизмов его нормального поля 2. Так как группа автоморфизмов H зависит лишь от поля 2, то мы будем иногда G (и Н) называть группой нормального поля 2.

Прежде чем переходить к дальнейшему изучению группы уравнения, отметим некоторые свойства нормального поля 2 и алгебраических расширений.

Теорема 27. Всякий элемент со нормального поля 2 является корнем некоторого многочлена, неприводимого над Р.

Доказательство. Поскольку со — элемент поля 2, он выражается в виде многочлена от корней уравнения (1) над Р:

о>=/(«1» ... , <*д).

Подвергая /(а,, ... , ап) всевозможным подстановкам симметрической группы Sn, мы получим п\ элементов поля 2:

öi=со, е2, — , 6Я|.

Составим вспомогательное уравнение

g(x) = (x — bi)(x — b2) ... (je —6Л!) = 0.

На основании основной теоремы о симметрических многочленах нетрудно установить, что g(x) есть многочлен над Р. Вместе с тем g(x) имеет в качестве одного из корней со. Очевидно, что со также будет корнем одного из неприводимых (в Р) множителей многочлена g(x)y и теорема доказана.

Теорема 28. Если корень со многочлена р(х), неприводимого в Р, лежит в нормальном поле 2, то и все корни р (х) лежат в 2.

Доказательство. Как и выше, строим вспомогательный многочлен g(x) над Р, имеющий со своим корнем. С одной стороны, все корни многочлена g(x) лежат в поле 2. С другой стороны, g(x) имеет с многочленом р (х) общий корень со и потому в силу неприводимости р (х) делится на р (х). Но в таком случае корни р (х) должны войти в состав корней g(x). Отсюда следует, что корни р (х) должны лежать в 2.

Теорема 29. Если нормальное поле 2 изоморфно отображается на некоторое промежуточное поле А (Р сгд çzQ) так, что элементы Р остаются неподвижными, то А = 2.

Доказательство. Прежде всего легко убедиться, что нормальное поле 2 образует векторное пространство над Р относительно операций сложения элементов 2 и умножения элемента 2 на элемент поля Р. В самом деле, любой элемент нормального поля Q = P(alf... ,ад) является многочленом от а19 ... , ап с коэффициентами из Р. Складывая два таких многочлена, мы, очевидно, получим снова многочлен от ocj, ... , ап с коэффициентами из Р. Точно также умножая многочлен от ai9 ... , ап с коэффициентами из Р на элемент поля Р, мы получим снова многочлен от al9 ... , ап с коэффициентами из Р. Кроме того, выполняются и те требования, которые в определении векторного пространства были сформулированы в виде аксиом I — V (см. стр. 42—43). Очевидно, что промежуточное поле А относительно тех же операций будет подпространством пространства 2.

Далее, легко показать, что 2 — конечномерное пространство. Действительно, поскольку al(i=X9 2, ..., п) является корнем алгебраического уравнения (1) /г-й степени, любая степень а* с показателями k^n будет линейно выражаться через низшие степени а,.°=1, а£, ... , Поэтому каждый элемент а нормального поля 2 можно выразить в виде многочлена от al9 ... , ап над Р, содержащего аи ... , ап с показателями, не превосходящими п — 1. Таким образом совокупность произведений a*J dj ... ар с показателями k*9 lj, ... , Sj, не превосходящими п—1, образуют конечный базис пространства 2, в силу чего 2 конечномерно.

Теперь мы можем доказать нашу теорему. В теории векторных пространств доказывается, что конечномерное пространство нельзя изоморфно отобразить на собственное подпространство так, чтобы элементы Р оставались неподвижными. Следовательно, А не может быть собственным подполем 2 и потому Д==2.

Введём весьма важное понятие продолжения изоморфизма. Оно понадобится при изучении дальнейших свойств группы уравнения.

Пусть К и К—два изоморфных кольца (числовых или нечисловых, безразлично), А — расширение кольца К, а А — расширение кольца К. Пусть А и А также изоморфны. Мы назовём изоморфизм

Д = Д1) продолжением изоморфизма К=К, если всякий элемент а кольца К, отображающийся при изоморфизме К=К на а, при изоморфизме Д = Д попрежнему отображается на а.

Пример 2. Возьмём в качестве К поле всех действительных чисел, а в качестве К—поле матриц вида

где а — произвольное действительное число.

Для поля К алгебраическими операциями будут, очевидно, обычные арифметические сложение и умножение, а для К—матричные сложение и умножение. Приведём в соответствие каждому действительному числу а матрицу

Нетрудно убедиться, что это соответствие является изоморфизмом: К=К.

Затем в качестве расширения А возьмём поле комплексных чисел, а в качестве расширения А — поле матриц вида

(6)

где a, b — произвольные действительные числа. Читатель может сам проверить, что множество матриц вида (6) в самом деле образует поле относительно операций сложения и умножения матриц. Приведём в соответствие каждому комплексному числу а-\-Ы матрицу

(7)

Нетрудно убедиться, что это соответствие также является изоморфизмом: А^А.

Положим & = 0. Тогда соответствие (7) превратится в

1) есть сокращённое обозначение изоморфизма.

Мы видим, что при изоморфизме А = Д действительное число а попрежнему отображается в матрицу

Следовательно, изоморфизм Д^Д есть продолжение изоморфизма K^éK.

Отметим следующие свойства продолжения изоморфизма: Теорема 30. Если Р и Р — изоморфные поля, то кольцо многочленов Р [х] можно изоморфно отобразить на кольцо много-членов Р[х] так, чтобы изоморфизм Р[х]^Р[х] являлся продолжением изоморфизма Р^Р.

Доказательство. Пусть при изоморфизме Р^Р элемент а поля Р отображается на элемент а поля Р: а-^а. Тогда произвольному многочлену f(x) = a0-\-alx-{- ... -\-атх^ изР[лг] можно поставить в соответствие многочлен f(x) = a0-\-a1x-\- ,..-\-атхт из Р[х]:

f{x) = а0 + ахх +... + атх^ -> f(x) = а0 -f ахх +.. • -\-"атхт. (8) Читатель может без труда проверить, что (8) является взаимно однозначным соответствием между Р[х] и Р[х]. Покажем, что соответствие (8) является изоморфизмом колец Р[х] и Р[х].

В самом деле, если g(x) = b0-\-bxx-\- ... -\-btJc^ — ещё один произвольный многочлен из Р[-*г], то

«rG*)'=*o + *i* + ... +bix?^g(x)==b0+'bix+ ...

Пусть, например, l^m. Тогда

f(x)+g(x) = c0 + cix+ ... +стхт,

где c|=ai-(-ô/, причём в случае 1<^т надо положить Ьм — ... == — Ьт = 0. Отсюда

f(x)+g(x)+ïQ+!tx+ ... +~cmxm=f(x)+g(x).

Аналогично можно убедиться, что f(x)g(x)->f(x)g(x).

Остаётся показать, что изоморфизм Р[х]^Р[х] есть продолжение изоморфизма Pç^P.

Обращаемся к многочлену f(x) = a, где а — элемент Р. Для него соответствие (8) принимает вид а-^а. Мы видим, что при изоморфизме P[x]ç^P[x] элемент а поля Р попрежнему отображается на элемент а поля Р.

Переходя ко второму свойству продолжения изоморфизма, отметим, что если f(x) — некоторый многочлен над полем Р, то под

f(x) мы будем всё время подразумевать такой многочлен над изоморфным полем Р, на который отображается f(x) при изоморфизме Р[х]=Р[х]у упомянутом в теореме 30.

Отметим ещё, что если р (х) — многочлен, неприводимый над Р, то согласно теореме 30 многочлен р (х) также неприводим над Р.

Теорема 31. Если Р и Р—изоморфные числовые поля, 6— корень многочлена р (х), неприводимого над Р, и 6 — корень многочлена р{х)у то изоморфизм Pç^P можно продолжить до изоморфизма Р(8)^Р(6), при котором 8 будет отображаться на 6.

Доказательство. Пусть степень многочлена р (х) равна k. Тогда произвольный элемент у алгебраического расширения Р(6) будет единственным образом выражаться в виде

у = а0-{'а1Ь-\- ... -\-ak_tbk'1 (ai — элементы из Р)

(см. замечание на стр. 229). Пусть при изоморфизме Р^Р элемент at отображается на а£. Поставим элементу у в соответствие элемент у = а0--|-а18-f- ... -\-ak_^bk~l поля Р:

т = а0 + а16+ ... +ak.1bk~l _*7=<Г0 + ^8 + ... +âkJk~K (9)

Покажем, что соответствие (9) является изоморфизмом Р(8)^Р(8).

Пусть какой-нибудь элемент 8 расширения Р(8) отображается на тот же самый элемент, что и у: 8-^у. Тогда, если 8 = ô0-j-

8 - h + M + - - - + h-i G*"1 = ï = «о + M + ... +^.,6*4

Но многочлен р (х) неприводим над Р. Следовательно, у должно единственным образом выражаться в виде многочлена от 6 степени, не превосходящей k—1, и с коэффициентами из Р. В силу этого ао==^о> ai=b\, ... , Qk-i = &k-v Отсюда благодаря изоморфизму P^éP получается, что a0 = b0, а1 = Ьи , ak_r = bk_v т. е. 8 = у.

Очевидно, что для всякого элемента у из Р(6) можно указать в Р(8) такой элемент у, которому у и ставится в соответствие.

Всё это вместе взятое означает, что (9) есть взаимно однозначное соответствие между Р(6) и Р(8).

Возьмём теперь из расширения Р(8) два произвольных элемента

Ti = a0-i-ßiÖ+...+^18fe-1 и Tt = + ••• + Viô*"1.

Этим элементам в алгебраическом расширении Р(8) будут соответствовать

Отсюда сумме

ïi+т,=(«.+*•)+(«1+*i)6 + • • • + + Vi) в*-1

будет соответствовать

(*о + ôo) + (*i + Ьх) 6 + ... + (àk-i + ïfc-i) б*"1 = ti + T«-

Точно так же убеждаемся, что произведению YiÏ2 должно соответствовать произведение ftfj. Мы видим, что соответствие (9) есть изоморфизм Р(6)^Р(и).

Покажем, что изоморфизм Р(6)^Р(6) является продолжением изоморфизма Pç^P. Действительно, если у—элемент поля Р, то Y = a0, и для такого элемента а0 соответствие (9) принимает вид a0->ä0. Таким образом, при изоморфизме Р(6)^Р(8) элементы поля Р отображаются совершенно так же, как и при изоморфизме Р^Р.

Наконец, соответствие (9) будет, очевидно, переводить элемент 6 в б.

Вернёмся к группе уравнения (1). Мы собираемся рассмотреть следующие свойства группы уравнения.

Мы знаем, что всякий элемент со нормального поля Q является корнем некоторого многочлена р(х), неприводимого над Р (см. теорему 27). Назовём два элемента со и со' поля Ö сопряженными, если они являются корнями одного и того же многочлена р (х) неприводимого над Р. Тогда можно высказать такую теорему:

Теорема 32. Всякая подстановка (автоморфизм) группы уравнения (1) переводит элемент со нормального поля Q в сопряжённый элемент со'. Обратно, если со' — элемент, сопряжённый со, то в группе уравнения (1) существует по меньшей мере одна подстановка (автоморфизм), переводящая со в со'.

Доказательство. Пусть со является корнем многочлена р (лг). неприводимого над Р, и 5 — произвольная подстановка из группы О уравнения (1). Равенство /?(со) = 0 есть рациональное соотношение над Р между корнями а,, ... , ап уравнения (1), так как со рационально выражается через аи ... , ап. Следовательно, применяя к этому соотношению подстановку s, получаем на основании определения группы уравнения, что /?(cos) = 0. Таким образом, со'= cos есть корень того же самого многочлена р(х), т. е. элемент со' сопряжён с со.

Обратно, пусть со' — некоторый элемент, сопряжённый со. Это значит, что со и со' являются корнями одного и того же многочлена р(х), неприводимого над Р. Воспользуемся теперь теоремой 31: возьмём в качестве Р то же самое поле Р, а в качестве изоморфизма Р^Р будем рассматривать соответствие а->а, оставляющее элементы а поля Р неподвижными1). Тогда на основании теоремы 31

1) Так называемый тождественный изоморфизм поля Р с самим собой.

этот изоморфизм Р^Р можно продолжить до изоморфизма Р(со)^Р(со'), переводящего со в со'. Если Р(со) = 2, то в силу теоремы 29 расширение Р(со') должно также совпадать с 2, и мы имеем автоморфизм поля 2, переводящий со в со'.

Если же Р(со) не совпадает с 2, а является лишь частью 2, то рассуждаем следующим образом. Возьмём из 2 элемент 6, не лежащий в Я (со). Обозначим через рх (х) неприводимый над Р многочлен, имеющий 0 своим корнем. Над полем Я (со) многочлен рх(х) может оказаться приводимым. Пусть рх(х) над полем Я (со) следующим образом разлагается в произведение неприводимых множителей:

Pi G*)=Ч\ С*) я% (■*)••• Яг С*) (10)

(множители Çi(x) будут выше первой степени). Предположим для определённости, что б — корень qx (х). На основании теоремы 30 разложению (10) будет над полем Р(со') соответствовать разложение

Pi (•*) = ?! С*) 4% К*) . . . Çr(x)

на множители qi(x)y неприводимые в Р(со'). По теореме 28 все корни многочлена рх (х) должны лежать в нормальном поле 2. Тем самым в 2 будут лежать и все корни множителя ~ql (х). Пусть 6' — один из корней qt (х). Тогда по теореме 31

Р(со, 6)^Р(со', 6'), (11)

причём изоморфизм (11) есть продолжение изоморфизма Р(со)^Р(со'). Если Р(со, 6) = 2, то по теореме 29 будет и Р(со', 6') = 2; вследствие этого (11) будет искомым автоморфизмом нормального поля 2, переводящим со в со'. Если же Р(со, 6) не совпадает с 2, а является лишь частью 2, то продолжаем наш процесс. В конечном счёте мы, очевидно, придём к искомому автоморфизму поля 21).

Условимся в дальнейшем говорить, что элемент со нормального поля 2 допускает подстановки (автоморфизмы) группы поля 2, если со остаётся неизменным при любой подстановке группы. Тогда из теоремы 32 вытекает такое важное.

Следствие. Элемент со нормального поля 2 тогда и толь-ко тогда допускает подстановки группы Q поля 2, когда со лежит в поле Р.

1) Конечность этого процесса вытекает из следующих соображений. Каждое расширение P(w), Р(<», 6)., ... можно рассматривать как подпространство конечномерного пространства Q. Но в теории векторных пространств доказывается, что последовательность подпространств конечномерного пространства, в которой каждое подпространство содержится в следующем, не может быть бесконечной (в связи с ограниченностью размерности подпространств).

В самом деле, пусть со лежит в поле Р. Тогда, очевидно, со не меняется при любой подстановке из группы G.

Обратно, если со не меняется при любой подстановке из группы G, то по только что доказанной теореме 32 все элементы, сопряжённые с со, должны совпадать с со. Но последнее возможно лишь тогда, когда со есть корень многочлена р(х) первой степени: р{х) — х— а, где а — элемент Р.

Таким образом, со — а = 0 или со = а. Мы видим, что со оказался элементом поля Р.

Существенную роль в нашем изложении будет играть следующая

Теорема 33. Пусть 2— нормальное поле и G— группа уравнения (1) над Р. Тогда всякому промежуточному полю P'(PczP'cz2) соответствует подгруппа G' группы G, которая в свою очередь является группой уравнения (1), но уже над Р', а именно G' является совокупностью таких подстановок из G, которые оставляют неподвижным любой элемент Р'. При этом поле Р' определяется подгруппой G' однозначно: Р' есть совокупность всех элементов 2, «допускающих» подстановки из G', т. е. остающихся неподвижными при этих подстановках.

Доказательство. Группа G' уравнения (1), рассматриваемого над Р', есть, очевидно, совокупность таких подстановок корней av .. .,ал уравнения, которые не нарушают ни одно рациональное соотношение между а19 ... 9 ап над Р' и оставляют элементы Р неподвижными. Отсюда подстановка s из о' и подавно не будет нарушать рациональное соотношение между al9 ... 9 ап над Р, так как эти соотношения можно рассматривать и как соотношения между al9..., ап над Р'. Следовательно, 5 есть элемент группы G, откуда G' есть подгруппа G (возможно совпадающая с G).

Покажем теперь, что G' состоит из всех тех подстановок группы G, которые оставляют элементы Р неподвижными. Обозначим совокупность таких подстановок через G". Ясно, что группа G' будет содержаться в G": ö'cö". Кроме того, легко видеть, что G" является также группой, так как произведение двух подстановок, оставляющих элементы поля Р' неподвижными, также оставляет неподвижными элементы Р'.

Пусть теперь t — некоторая подстановка из G". Эта подстановка не нарушает ни одного рационального соотношения между aî9 ... 9 ап над Р, так как t содержится в группе G уравнения (1). Рассмотрим некоторое рациональное соотношение r(av ... , ап) = 0 над Р'. С одной стороны, это соотношение не нарушается подстановкой t, так как, выражая коэффициенты соотношения через корни ai9 ... , ап уравнения (1), мы получим соотношение между ai9 ... , ап над Р. С другой стороны, коэффициенты соотношения г(аи ... , ап)=?0 подстановкой t не меняются. Следовательно, / содержится в G\ откуда G,,ç^G'. Сопоставляя G,,ç=G' и G'çG", видим, что G" = G\

Для завершения доказательства теоремы остаётся убедиться в однозначности определения поля Р посредством подгруппы G'.

Пусть со — некоторый элемент Q, допускающий подстановки из G. Тогда согласно следствию из теоремы 32 сразу вытекает, что со есть элемент Р.

Для дальнейшего введём понятие гомоморфизма групп. Изоморфизм является частным случаем этого понятия.

Пусть некоторая группа Нх однозначно отображается на группу //2, причём отображение может и не быть взаимно однозначным. Мы назовём отображение гомоморфным, если произведению любых двух элементов группы Я, соответствует произведение соответствующих элементов группы #2. Мы будем гомоморфное отображение группы Нх на группу //2 записывать в виде: Н^^Н^.

Теперь мы можем высказать следующую теорему:

Теорема 34. Если поле Р, промежуточное между Р и нормальным полем Q (Р cz Р ci 2), есть в свою очередь нормальное поле некоторого многочлена g(х) над Р, то группа G поля Q над Р гомоморфно отображается на группу G поля Р над Р.

Доказательство. Обозначим корни g (х) через ßlf ß2, ... , ßm. Каждая подстановка 5 из G будет перемещать корень ߣ в корень ßy. При этом различные корни ߣ и ßfe будут перемещаться подстановкой 5 в различные корни. В самом деле, если бы ß^ было равно ß^s при ßf. ф ßfe, то, применяя к равенству ß^=ßft5 обратную подстановку s"1, мы нарушили бы соотношение ß/s = ßfes, а именно получили бы ß« Ф ßfc- Таким образом, получилось бы противоречие с тем, что s~l принадлежит группе О.

Итак, подстановка s вызывает некоторую подстановку

корней многочлена g(x). При этом, очевидно, 5 не будет нарушать ни одно рациональное соотношение r(ßj, ... , ßm) = 0 над Р и будет оставлять неподвижными элементы из Р, т. е. s будет подстановкой группы поля Р над Р.

Обратно, всякую подстановку 5 из группы поля Р над Р можно с помощью процесса, использованного при доказательстве теоремы 32, продолжить до подстановки (автоморфизма) 5 группы поля Q над Р.

Поставим теперь подстановке 5 в соответствие подстановку s, вызываемую s:

(12)

Легко видеть, что соответствие (12) будет отображать произведение SjS2 в произведение вследствие чего соответствие (12) есть гомоморфное отображение группы G на группу О.

§ 18. Уравнения с симметрической группой

В этом параграфе мы покажем, что уравнения степени п ^5 с симметрической группой неразрешимы в радикалах. Предварительно докажем несколько теорем.

Теорема 35. Если первообразный корень нечётной п-й степени из единицы не принадлежит полю Р, то группа двучленного уравнения

f(x)=xn —1=0 (1)

над Р является коммутативной.

Доказательство. Пусть s — первообразный корень уравнения (1). Тогда Р(е) есть нормальное поле уравнения (1), так как все корни уравнения (1) рационально выражаются через s, а именно являются степенями е. Обозначим через р(х) тот из неприводимых над Р множителей многочлена j (лг), который имеет s своим корнем. Очевидно, что Р(е) будет нормальным полем и для р(х)> вследствие чего группа р(х) совдадает с группой уравнения (1). Пусть Ь1==г1 82 = efe2, ... , bm = ekm — все корни многочлена р(х). По теореме 31 P(Qi) = P(bi), причём этот изоморфизм является продолжением тождественного изоморфизма Р^Р (т. е. изоморфизма, оставляющего неподвижными элементы поля Р) и переводит 6Х в 6£. Так как, очевидно, Р(6/) E=P(Qi), то в силУ теоремы 29 получается, что Р(81) = Р(8/). Мы видим отсюда, что P(61)^P(8f.) есть автоморфизм нормального поля Р^) над Р, т. е. один из элементов группы G уравнения (1) над Р. Таким образом, группа G должна состоять из m различных подстановок = 1, s2, ... , sm:

b1sl = Ql, 0^2 = 6,,, ... , blsm = 6m.

Найдём, чему равны 0j (Sjsy) и 8X (sfo). Имеем:

6, (siSj) = BiSj = (eft0 Sj = (esj) ki = (Ots/i= 8/i = *kh,

Отсюда siSj=slsi, т. e. G есть коммутативная группа.

Теорема 36. Если

F(x) = A0xn + A1xn-l+ ... +Ап = 0 (2)

есть уравнение с симметрической группой над полем Р, то многочлен F (х) неприводим над Р.

Доказательство. Пусть а„ ... , ап — корни уравнения (2) и пусть многочлен F(х) приводим над Р:

где Pi(x) — различные неприводимые над Р многочлены. Пусть а£ есть корень рг (х)у a а;- — корень р*(х). Возьмём подстановку, перемещающую только корни а£ и а/.

и применим её к рациональному соотношению p1(ai) = 0. Получим p1(cLj) = 0. Отсюда многочлен pt(x) должен в силу неприводимости делиться на р%(х)у вследствие чего рг (х) и р2(х) совпадают с точностью до множителя нулевой степени, что невозможно.

Теорема 37. Если (2) есть попрежнему уравнение с симметрической группой над полем Р и степень уравнения (2) больше двух, то ни один из корней такого уравнения не может бить рациональной функцией первообразного корня k-й (нечётной) степени из единицы над Р.

Иными словами, ни один из корней а£ уравнения (2) не лежит в поле Р(е), где е — первообразный корень k-Pi степени из единицы.

Доказательство. Согласно теореме 35 группа G' поля Р(s) над Р является коммутативной. Так как по теореме 36 многочлен F (х) неприводим над Р, то, предполагая, что в Р(е) лежит по меньшей мере один корень F (х), получаем на основании теоремы 28, что в Р(е) должны лежать все корни F(x)y т. е. Р(аи ... у аЛ)£=Д6)-Таким образом, на основании теоремы 34 получаем, что G'cv>G, где G — группа уравнения (2) над Р или, что то же, поля Q над Р. Из гомоморфизма G'cv>G вытекает, что G — также коммутативная группа1). Но последнее невозможно, так как по условию G — симметрическая группа: G = Sn, а при /г^>2 симметрическая группа не является коммутативной.

Теорема 38. Пусть попрежнему (2) есть уравнение степени л>2 с симметрической группой над Р. Тогда группа уравнения (2) над полем К=Р(е1У ek)y где е£ — первообразные корни из единицы простой нечётной степени р£ (р£ между собой различны), будет также симметрической.

Доказательство. Обозначим для краткости Р(аи ... , ап) через Q и К{^У ... , ап) через Е. Мы утверждаем, что К=Р(е)у где s — первообразный корень PiP^.^Pk"^ степени из единицы. В самом деле, с одной стороны,

так как нетрудно убедиться, что произведение е,е2 ... ея есть первообразный корень ргр2 ... pk-n степени из единицы. С другой стороны,

1) Действительно, если элементы а'Ь' группы G', отображаются на элементы ö, b группы О, то а'Ь' — ab и Ь'а'—-Ьа. Так как группа G' коммутативная, то а'Ь' = Ь'а', Отсюда и аЬ = Ьа, т. е. группа G также должна быть коммутативной.

так как каждое из е,- является корнем двучленного уравнения х™—1=0, где щ=р1р2 ... pkf и потому является некоторой степенью е. Отсюда следует, что P(ei» ••• » sft) — ^(е)-

На основании теоремы 37 имеем, что Ezd/C, но не равно К-Относительно полей Р и К представляются две возможности: либо К=Р> либо К^эР. Если К=Ру то теорема очевидна. Поэтому пусть

(3)

По теореме 33 соотношению (3) должно соответствовать соотношение

где Gj—группа поля S над Р, G2 — группа того же поля над К и Е — единичная группа (т. е. подгруппа, состоящая только из единицы). Очевидно, что G2 есть вместе с тем и группа уравнения (2) над К.

Поле S можно, очевидно, рассматривать как нормальное поле многочлена

h(x) = F(x)(xm-l + xm-*+ ... +ДГ+1) (m=PlPi ...pk)

над Р. Таким образом, Qt есть, кроме того, группа уравнения h(x) = 0 над Р.

Обозначим корни многочлена хт~1 -|- ... -f- х -(- 1 через 6lf К • - • » em-i- ТогДа корнями h (х) будут: а„ а2, ... , ап, 6„ ... , bm_t. Эти корни между собой различны, так как по теореме 37 многочлены F(х) и хт~г -f- ... —|— je —[— 1 не могут иметь общих корней.

Посмотрим, что представляет собою подстановка s группы Qv Эта подстановка не может перемещать а£ в 6у.. В самом деле, если бы ар было равно 6;-, то F(a.) = 0 под влиянием s перешло бы в /7(0/) = О, что в силу теоремы 37 невозможно. Таким образом, подстановка 5 из G. должна иметь вид

(4)

Покажем, что индексы 1и /2, ... , 1п во второй строчке выражения (4) образуют произвольную перестановку п чисел 1, 2, ... , п. Действительно, так как Е =з Q Я и группа поля Q над Р есть симметрическая группа Sn, то по теореме 34 Ol^c>Srln при этом гомоморфизме

(5)

Теперь, если бы в выражении (4) индексы iu i2, ... , ln не пробегали бы всех п\ перестановок из п чисел 1, 2, ..., я, то соответствие (5) не исчерпывало бы всех подстановок s симметрической

группы Sny вследствие чего G, не могла бы гомоморфно отображаться на Sn (она отображалась бы на правильную часть Sn).

Посмотрим, далее, что представляет собою группа G2 поля Е над К. Согласно теореме 33 группа G2 состоит из тех и только тех подстановок Ои которые оставляют неподвижными элементы промежуточного поля К и, в частности, оставляют неподвижными 6у-. Отсюда получаем, исходя из выражения (4), что группа G2 должна состоять из всевозможных подстановок t вида

Теперь без труда убеждаемся, что группы G2 и Sn изоморфны. Именно, изоморфным отображением G2 на Sn здесь будет соответствие

Итак, теорема доказана: группа G2 уравнения (2) над К с точностью до изоморфизма совпала с симметрической группой Sn.

Мы подошли вплотную к основной теореме о неразрешимости в радикалах алгебраических уравнений с симметрической группой.

Теорема 39. Если группа уравнения п-й степени

(6)

(Л£— комплексные числа) является симметрической и степень уравнения больше четырёх, то уравнение неразрешимо в радикалах.

Доказательство. Роль поля Р здесь играет область рациональности А уравнения /Г=А(г1, ... , ek). По теореме 38 группа уравнения (б) будет симметрической и над полем К. Таким образом, к этой группе будут также принадлежать подстановки

Эти подстановки, как и любые подстановки группы уравнения над К, не будут изменять элементы К и, в частности, будут оставлять неподвижными е^. Поэтому мы можем дословно повторить все рассуждения, приведённые в доказательстве теоремы Руффини-Абеля (см. § 16). В результате мы получим, что корни at и <х2 уравнения (6) равны, что невозможно в силу неприводимости многочлена F (х).

Для завершения нашего изложения остаётся привести конкретный пример уравнения степени п ^5 с симметрической группой.

Для этой цели отметим некоторые факты из теории групп подстановок, не вдаваясь в детали.

Пусть G— некоторая группа подстановок /г-й степени. Возможны два случая: 1) в группе G существуют подстановки, переводящие число 1 в любое заданное число k(k=l, 2, ... , /г); 2) подстановки группы G перемещают 1 не во всякое заданное число k.

В первом случае группа G называется транзитивной, а во втором случае — интранзитивной.

Роль транзитивной группы в теории алгебраических уравнений видна из следующей теоремы:

Теорема 40. Если уравнение п-й степени F (х) = А0х*г -f- А^~1 -\- ... -\- Ап = 0 {Ai — комплексные числа) неприводимо над своей областью рациональности А, то группа такого уравнения транзитивна.

Доказательство. Если многочлен F(x) неприводим над полем А, то по теореме 32 в группе уравнения наверное найдутся подстановки, переводящие корень аг в любой другой корень ak уравнения F(x) = 0y чем транзитивность группы и обнаруживается.

Мы воспользуемся следующим свойством транзитивной группы: транзитивная группа простой степени р, содержащая транспозицию, является симметрической группой.

Примечание. Транспозицией называется подстановка, перемещающая только два числа, т. е. подстановка вида

Обычно транспозиция, перемещающая числа iy J, обозначается сокращённо символом (/, /).

Пользуясь этим свойством транзитивной группы, мы сейчас докажем такую теорему:

Теорема 41. Всякое уравнение простой степени р^Ъ с рациональными коэффициентами, неприводимое над полем рациональных чисел и имеющее лишь одну пару чисто комплексных корней, неразрешимо в радикалах.

Доказательство. По теореме 40 группа такого уравнения F(x) — 0 есть транзитивная группа. Она к тому же является группой простой (/7-й) степени.

Пусть а^ — аА^-Ы и а2 = а — Ы — чисто комплексные корни уравнения; остальные корни ос3, <х4, ... , ар согласно условиям теоремы должны быть действительными.

Рассмотрим какое-нибудь рациональное соотношение

(7)

между корнями 04, а2, ... , ар над полем рациональных чисел. Это соотношение можно даже считать относительно alf ... , ап целым рациональным. Подставляя в левую часть равенства (7) вместо ах и а2 соответственно а-\-Ы и а — Ы и собирая отдельно действительные и мнимые члены, получаем:

r(alt а2, ... , ap) = P-\-iQ = 0 (Р, Q — действительные числа), откуда P=Q = 0. Применим теперь к r(alt <х2, ... , ар) транспозицию (12). В силу сопряжённости корней at и а2 это равносильно перемене знаков мнимых частей выражения r(al9 a2, ... , ар):

r(a2, al9 ... , ap)—-P — lQ.

Но по доказанному выше P = Q = 0. Следовательно,

r(a2, a„ ... , ap) = 0.

Таким образом, транспозиция (12) не нарушила соотношения (7). Это означает, что транспозиция (12) содержится в группе G уравнения. Отсюда согласно вышеупомянутому свойству транзитивной группы вытекает, что группа G является симметрической: G = Sn. Значит, по теореме 39 уравнение F(x) = 0 неразрешимо в радикалах.

Из этой теоремы сразу получается, что уравнения пятой степени вида

x* — q'1x — q = 0, (8)

где q — простое число, неразрешимы в радикалах.

В самом деле, неприводимость уравнения (8) сразу обнаруживается с помощью критерия Эйзенштейна. Пользуясь теоремой Штурма1), можно установить, что уравнение (8) имеет всего три действительных корня. Таким образом, уравнение (8) удовлетворяет всем условиям теоремы 41 и потому не может быть решено в радикалах.

Изучение свойств алгебраических расширений с помощью аппарата теории групп является основной задачей теории Галуа. Рассмотренный здесь вопрос о разрешимости алгебраических уравнений в радикалах есть одно из приложений этой теории. В работах советских математиков (С. О. Шатуновский, Н. Г. Чеботарёв, Б. Н. Делоне и др.) теория Галуа получила дальнейшее обобщение и развитие2). Н. Г. Чеботарёв посвятил ей две свои монографии: «Основы теории Галуа», ч. 1 (ГТТИ, 1934) и ч. 2 (ОНТИ, 1937)

1) См. стр. 324, А. П. Доморяд, Численные и графические методы решения уравнений.

2) Более подробные сведения можно найти в сборнике «Математика в СССР за 30 лет» (Гостехиздат, 1948).

и «Теория Галуа» (ОНТИ, 1936). Им же получены фундаментальные результаты, относящиеся к одному из разделов теории Галуа, так называемой «Проблеме резольвент». За свои исследования в этой области (основные результаты этих исследований опубликованы в статье «Проблема резольвент», Юбилейный сборник АН СССР, 1947) Н. Г. Чеботарёв удостоен Сталинской премии первой степени. Б. Н. Делоне разработал оригинальную геометрическую теорию, представляющую собой обобщение теории Галуа. Б. Н. Делоне и Д. К. Фаддеев применили геометрические методы к решению наиболее трудных задач теории Галуа.

§ 19. О разрешимости алгебраических уравнений в квадратных радикалах

Существует целый ряд геометрических задач на построение, сводящихся к нахождению корней некоторого алгебраического уравнения я-й степени

а^-\-а^-\-... + ап = 0. (I)

К таким задачам относятся, например, задача удвоения куба, задача трисекции угла.

В курсе теории геометрических построений доказывается, что некоторое выражение а тогда и только тогда может быть построено с помощью циркуля и линейки, когда оно получается в результате решения уравнений не выше второй степени. Например, выражение

можно построить с помощью циркуля и линейки, так как оно получается в результате решения ряда уравнений не выше второй степени. А именно, 04=1/2 есть корень квадратного уравнения x2 — 2 = 0, и мы можем построить /2 с помощью циркуля и линейки. Далее, а2=1 -J- ]/ 2 является корнем уравнения первой степени x — (1-|-а1) = 0, и мы можем 1-f-|/2 также построить с помощью циркуля и линейки — придётся складывать отрезки, соответствующие 1 и j/2. Затем a3=j/a2 является корнем квадратного уравнения лг2 — <х2 = 0, и, поскольку <х2 было уже заранее построено, мы этот корень без труда построим с помощью циркуля и линейки. Наконец, а=|/<х3 есть корень квадратного уравнения, х- — а3 = 0, a так как а3 уже построено, то мы построим с помощью циркуля и линейки и а = у а8.

Таким образом, возникает следующий естественный вопрос — при каких условиях, необходимых и достаточных, уравнение (I) решается в квадратных радикалах?

Введём предварительно важное понятие конечного расширения. Пусть Д и 2— два каких-нибудь числовых поля, причём пусть 2 является расширением Д. Мы будем часто пользоваться обозначением Дси2, выражающим, что А есть подполе 2 (а Ö есть расширение А). Назовём систему k элементов а19..., ак из Q линейно зависимой относительно А, если в А можно выбрать такие числа си..., ck> не все равные нулю, чтобы

(1)

В противном случае, когда равенство (1) имеет место только при с1 = с2 = ... = сл = 0, система элементов аг,ak называется линейно независимой.

Понятие конечного расширения мы теперь определим следующим образом.

Назовём расширение 2 поля А конечным относительно А, если в S существует такая линейно независимая система элементов Ш|,. •., cu5, что всякий элемент а из Q является линейной комбинацией cot,...,

где at — элементы из А.

Систему элементов с^,..., со5 мы будем называть базисом конечного расширения 2. Вообще мы назовём базисом всякую линейно независимую систему элементов из 2, через которую линейно выражается любой элемент расширения.

Отметим следующие основные свойства конечного расширения.

1°. Количество элементов базиса конечного расширения 2 не зависит от выбора базиса.

Мы будем это количество элементов базиса называть степенью конечного расширения 2 относительно А и будем обозначать через (2 : А).

2°. Если (2: Д) = s, то всякая система s -f-1 элементов конечного расширения 2 линейно зависима (относительно А).

3°. Если (2: А) = 5, то каждый элемент а конечного расширения 2 является алгебраическим относительно А, а именно является корнем многочлена над А не выше s-й степени.

Свойство 3° легко вытекает из свойства 2°. В самом деле, в силу свойства 2° система s-\-\ элементов а°=1, а, а2,..., as должна быть линейно зависима (относительно А), т. е.

(2)

где С| — элементы А, причём среди ct по меньшей мере один эле-

мент отличен от нуля. Но равенство (2) как раз свидетельствует о том, что а есть корень многочлена

/ (x) = с0 + сгх +... -f csxs

над А не выше s-Pi степени.

Приведём примеры конечных расширений.

Пример 1. Легко видеть, что поле К комплексных чисел является конечным расширением поля D действительных чисел и притом второй степени относительно D.

В самом деле, 1 и /=j/^7 образуют линейно независимую систему относительно Д так как равенство с • 1 -\-d • 1 = 0, где с и d — действительные числа, имеет место лишь при c = d = 0. Кроме того, всякое комплексное число, как известно, выражается в виде а-\-Ы, где a, b — действительные числа. Следовательно, 1, I является базисом К.

Так как базис 1, I состоит из двух элементов, то степень (K:D) равна двум.

Пример 2. Алгебраическое расширение Р(0), получающееся путём присоединения к полю Р корня 6 многочлена р (x) k-ft степени, неприводимого в Р, является конечным расширением k-ft степени поля Р.

Действительно, 1, 0, Ö2,6fe_1 образуют линейно независимую систему: если бы имело место равенство

со + сгЬ + +... + с^б*-' = О,

где С| — числа из Р, не равные одновременно нулю, то 6 было бы корнем уравнения ниже k-Pi степени с коэффициентами из Р, что в силу неприводимости р (х) невозможно.

Затем, как известно, всякий элемент алгебраического расширения Р(6) следующим образом выражается через 6:

а = а0-\-а1Ь-\-а2№ + + <*Jk_10*~1 (я* — числа из Р).

Мы видим отсюда, что Р(9) есть конечное расширение Р с базисом 1, 0, б2,..., б*""1. Очевидно, что степень (Р(9): Р) равна k, так как базис 1, 9, б2,..., 6й"1 состоит из k элементов.

В теории конечных расширений основную роль играют следующие две теоремы:

Теорема 42. Если Qt — конечное расширение поля А, а 22 — конечное расширение Qt, то Q2 есть конечное расширение А и (92:А) = (92:91)(91:Д).

Теорема 431). Пусть Q — конечное расширение поля Д. Тогда всякое расширение S поля А, содержащееся в Q, будет

1) Доказательство теорем 42 и 43, а также выводы других свойств конечных расширений можно найти в книге: Л. Я. Окунев, Высшая алгебра, глава одиннадцатая (см. § 53—56 в издании 1944 г. или § 52—55 в издании 1949 г.).

конечным расширением Д. Степень (L : А) будет при этом делителем степени (Ô: А).

Из теоремы 42 вытекает, что всякое расширение Р (0, ..., 6П), получающееся в результате присоединения к Р элементов 6ц ..., 6Л, алгебраических относительно Р, является конечным расширением поля Р. Отсюда, в частности, следует, что нормальное поле 2 = = А («|,..., ап) многочлена /(х) = a^xf1 -f- ихх^~1 -(-... + ап Л'й степени является конечным расширением области рациональности А многочлена f(x).

Теперь мы в состоянии дать ответ на вопрос, поставленный в начале параграфа. А именно, можно высказать следующую теорему:

Теорема о разрешимости алгебраического уравнения в квадратных радикалах1). Пусть f(х) — многочлен п-й степени, А — область рациональности и Q — нормальное поле многочлена f (х). Для того чтобы уравнение f (х) = О было разрешимо в квадратных радикалах:, необходимо и достаточно, чтобы (Q:A) = 2m.

Неразрешимость уравнения f(x) = 0 в квадратных радикалах не исключает, однако, того обстоятельства, что некоторые корни уравнения всё же могут выражаться через квадратные радикалы. Но если многочлен f(x) неприводим в своей области рациональности А, то справедлива следующая

Теорема 44. Если многочлен f(x) степени п^ 2 неприводим в своей области рациональности А и какой-нибудь его корень выражается через квадратные радикалы, то и все остальные корни многочлена выражаются через квадратные радикалы.

Доказательство. Пусть корень а многочлена f(x) выражается через квадратные радикалы pt= j^ÄlJ р2= jA42, р3 = = ]/Л3,pk = j/Ak, где Ах — элемент А, А2 — элемент A(pi), Аъ — элемент Д^, р2),...> Ак — элемент Д(р1э р2,..., р^).

Первый радикал можно рассматривать как корень многочлена

ft (*)=**—^

над Д. Этот многочлен qp, (лг), кроме р19 имеет корнем другой квадратный радикал pj= — pv

Так как Л2 — элемент поля A(pj), то A2 = a-{-bplf где a, b — элементы Д. Отсюда следует, что второй радикал р2 можно рассматривать как корень многочлена

<р2 (х) = (х~ — a — b9l) (x* — a + bp1)=xi — 2ах2 + (а2 + b*At)

над Д. Этот многочлен, кроме р2, имеет своими корнями квадратные радикалы р2 = — р2, p2=]/û — bpu р'{ = — р2 •

1) Доказательство этой теоремы см. в кн.: Л. Окунев, Высшая алгебра, § 55, издания 1944 г. или § 54 издания 1949 г.

Затем, так как Аъ — элемент поля А(р1э р2), то Az = c-\-dp2, причём си d — элементы Д^), т. е. c = m-\-npt и d = m1-\-n1p1, где т, п, т1 и nt — элементы А. Отсюда следует, что радикал р3 можно рассматривать как корень многочлена над А

Фз С*) = (х2 — с — dp2) (х* — с + dp2) (х* —7— d р2) (х2 — с -f- d р2),

где _

с = т — яр!, d = mx — nxpXi р2=|/а — bpv

Многочлен 9з(лг), кроме р3, будет иметь в качестве корней и другие квадратные радикалы.

Аналогичным образом можно убедиться, что р4 будет корнем многочлена 94(лг) над А, имеющего, кроме р4, в качестве корней и другие квадратные радикалы, и т. д.

Составим теперь многочлен

F(x) = cpl(x)cp2(x)... <pk(x)

над Д. Присоединяя корни многочлена F(x) к А, получим для F(x) нормальное поле 2. В этом поле, очевидно, будет лежать и корень а данного многочлена /(лг). Так как многочлен f(x) неприводим в А, то по известному свойству нормального поля (см. теорему 28) все корни f(x) должны лежать в 2. Тем самым все корни многочлена f(x) выражаются через корни F{x)t т. е. через квадратные радикалы, что и требовалось доказать.

§ 20. О разрешимости в квадратных радикалах уравнений 3-й и 4-й степеней

В теории геометрических построений чаще всего приходится иметь дело с задачами, сводящимися к алгебраическим уравнениям не выше четвёртой степени. Так как корни квадратного уравнения, очевидно, выражаются через квадратные радикалы, то остаётся рассмотреть случаи уравнений третьей и четвёртой степеней.

Относительно уравнения третьей степени имеет место

Теорема 45. Уравнение третьей степени

f(x) = а0х* -f atx2 + а2лг + аъ = 0 (1)

тогда и только тогда разрешимо в квадратных радикалах, когда многочлен f(x) = a0xd-{- atx2а2х-\-аг приводим в своей области рациональности Д.

Доказательство. Пусть многочлен f(x) неприводим в Д. Тогда, присоединяя к Д какой-нибудь корень 6 уравнения (1), мы получим конечное расширение £ = Д(8) третьей степени относительно А. Это £, очевидно, будет содержаться в нормальном поле 2 многочлена f(x). По теореме 43 степень (2 : А) должна делиться на степень (£:Д) = 3. Поэтому степень (2: А) не может равняться

2m, откуда следует, что уравнение (1) не может быть решено в квадратных радикалах.

Обратно, если многочлен f(x) приводим в А, то

f(x) = (x-a)(x*+px + ql

где а, р и q — числа из А. Мы видим отсюда, что уравнение (1) распадается на уравнения первой и второй степени и тем самым решается в квадратных радикалах.

На основании теоремы 44 мы можем утверждать, что если многочлен /(х) = а0хъ -f- ахх2 -f- а2х -f" аъ третьей степени неприводим в своей области рациональности А, то ни один из его корней не выражается в квадратных радикалах.

Отметим одно следствие, вытекающее из теоремы 45.

Следствие. Уравнение третьей степени с рациональными коэффициентами тогда и только тогда разрешимо в квадратных радикалах, когда оно имеет по меньшей мере один рациональный корень.

В самом деле, в этом случае область рациональности А многочлена f (х) = а0х*-\-ахх2-\-а2х-\-аг будет совпадать с полем рациональных чисел. Затем, как известно, многочлен третьей степени с рациональными коэффициентами тогда и только тогда неприводим в поле рациональных чисел, когда этот многочлен не имеет рациональных корней. Отсюда следствие становится очевидным.

Впрочем, в справедливости следствия можно убедиться и независимо от теоремы 45. Приводим здесь соответствующие рассуждения.

Доказательство. Без ограничения общности выводов можно предположить, что старший коэффициент уравнения третьей степени с рациональными коэффициентами равен единице:

f(x) = x* + ax2 + Ьх + с = 0. (Г)

Если уравнение (Г) имеет рациональный корень, то оно, очевидно, разрешимо в квадратных радикалах.

Обратно, пусть уравнение (Г) разрешимо в квадратных радикалах. Допустим, что при этом уравнение (Г) не имеет рациональных корней. Возьмём какой-нибудь из корней хх уравнения или, что то же, многочлена f(x). Пусть хх выражается через квадратные радикалы: р1 = |/А1, р2 = "/А,,..., рА=У~Л^ где k^l, Ах — элемент поля А рациональных чисел, А2 — элемент поля A(p«J и т.д. Мы вправе предположить, что радикал ?k не лежит в А (р1,..., р^); в противном случае он был бы лишним; в частности, ни один из радикалов не должен лежать в поле рациональных чисел. Кроме того, мы имеем право допустить, что хх не лежит в

поле Â(p],..., pfeel); если бы это было не так, то радикал pk снова был бы лишним. Таким образом, мы можем написать, что

где р, q— элементы поля Д(р1э..., pk_x) и q ф 0.

Несложный подсчёт показывает, что х2=р— qpk также является корнем многочлена f(x). А именно, подставляя значение хх в уравнение (Г), после очевидных преобразований получаем:

где

Очевидно, что Р и Q являются элементами поля A(pi, pk-\)-

Теперь, если допустить, что Q 7^ 0, то pk =--q- и радикал

pk лежал бы в А (рх..., pfe_i), что невозможно. Следовательно, Q = 0 и тем самым Р=0.

Подставляя в многочлен /(лг) вместо х число х%=р — qpk, получаем после аналогичных преобразований, что

Но P = Q = 0. Значит, /(л;2) = 0, т. е. лг2 также является корнем многочлена f(x). Отметим, что х% ф xlt так как q 7^ 0.

Обозначим, далее, через хъ третий корень многочлена f(x). Тогда по формулам Вьета

откуда

или, подставляя значения хх и лг2:

Мы видим отсюда, что хъ лежит в поле А (р19..., pÄ-1), так как аир лежат в A (Pl,..., р^)1).

1) Применяя подобные рассуждения к уравнению 3-й степепи с произвольными (не обязательно рациональными) коэффициентами, мы получим также другое доказательство теоремы 45.

Повторим для корня хъ те же рассуждения, что и для xt. Так как лг3 выражается через радикалы р^..., pk_lt то мы получим, что х{ и Хо лежат в А (р1,..., pft_2). Но это невозможно, так как Х\ не лежит уже в А(р1эр^).

Применим изложенное к следующим задачам на геометрические построения.

Задача об удвоении куба, как известно, сводится к уравнению третьей степени

f(x)=xz — 2 = 0 (2)

с рациональными коэффициентами. Это уравнение, однако, не имеет рациональных корней. Следовательно, уравнение (2) нельзя решить в квадратных радикалах, и потому задача об удвоении куба неразрешима с помощью циркуля и линейки.

Обратимся теперь к знаменитой задаче о трисекции угла. Она заключается в следующем. Пусть дан угол а; требуется его разделить на три равные части.

Посмотрим, к какому алгебраическому уравнению можно свести эту задачу.

Обозначим искомый угол через ср. Тогда

Поскольку угол а дан, мы можем считать его косинус также заданным. Поэтому полагаем cos а = у, а cos ср обозначаем через x

-2". Таким образом,

или окончательно:

Возьмем, например, а = ^. В этом случае b=l, и мы получаем уравнение

с рациональными коэффициентами. Легко убедиться, что это уравнение не имеет рациональных корней. Стало быть, угол а = -^- нельзя разделить на три равные части с помощью циркуля и линейки.

Относительно уравнений четвёртой степени справедлива следующая

Теорема 46. Пусть

(3)

—уравнение четвёртой степени. Если кубическая резольвента

этого уравнения имеет в Д хотя бы один корень, то корни уравнения (3) выражаются через квадратные радикалы. Обратно, если корни уравнения (3) выражаются через квадратные радикалы, то резольвента имеет по меньшей мере один корень в Д.

Доказательство. Пусть кубическая резольвента уравнения (3) имеет в Д корень у0. Тогда на основании известных преобразований (см. § 5) получаем

где

Таким образом, корни уравнения (3) будут выражаться через квадратные радикалы, возникающие при решении квадратных уравнений

(4) (5)

Обратно, пусть корни уравнения (3) выражаются через квадратные радикалы. Тогда, обозначая через х1У х2 корни уравнения (4) и через лг3, xk — корни уравнения (5), получаем:

хххг =у0-\-В, xzxk =у0 — В. Отсюда находим, что

Но корни уравнения (3) все выражаются через квадратные радикалы. Следовательно, у0 также выражается через квадратные радикалы. Таким образом, если

(6)

— кубическая резольвента уравнения (3), то в силу произвольности у0 все её корни выражаются через квадратные радикалы.

Итак, кубическая резольвента (6) разрешима в квадратных радикалах, а потому она по теореме 45 должна иметь по меньшей мере один корень в Д.

Следствие. Уравнение четвёртой степени с рациональными коэффициентами тогда и только тогда разрешимо в квадратных радикалах, когда его кубическая резольвента имеет по меньшей мере один рациональный корень.

Теорему 46 можно дополнить следующим предложением.

Теорема 47. Если многочлен четвёртой степени

не имеет корней в своей области рациональности А и один из корней а многочлена f (х) выражается через квадратные радикалы, то и все остальные корни многочлена выражаются через квадратные радикалы.

Доказательство. Если многочлен f(x) приводим в своей области рациональности А, то он должен разлагаться в произведение двух квадратных многочленов с коэффициентами из А:

f{x) = (x1 + px + q) (x' + Plx + Çl),

так как по условию f(x) не имеет в А корней. Таким образом, корни f(x) найдутся из квадратных уравнений

X* -\-px-\-q = 0, x2JrPiX + <Ii=0i

т. е. будут выражаться через квадратные радикалы.

Если многочлен f(x) неприводим в своей области рациональности, то по теореме 44 все его корни должны выражаться через квадратные радикалы.

Пример. Через точку А(2, 1) плоскости Р провести на этой плоскости прямую g так, чтобы оси Ох и Oy прямоугольной системы координат Оху на плоскости Р отсекали на прямой g отрезок с длиною, равной пяти единицам выбранного масштаба.

Уравнение искомой прямой можно написать в следующем виде:

Так как прямая g проходит через точку А (2, 1), то

Отсюда

Таким образом, подставляя это выражение v в уравнение

получаем после некоторых преобразований:

(7)

Уравнение (7) не имеет рациональных корней; следовательно, по теореме 47 возможно лишь одно из двух: либо все корни уравнения (7) выражаются через квадратные радикалы, либо ни один из корней уравнения не выражается через квадратные радикалы. Резольвентою уравнения (7) является

Нетрудно убедиться, что резольвента не имеет рациональных корней. Принимая во внимание теорему 46, мы заключаем отсюда, что ни один из корней уравнения (7) не выражается через квадратные радикалы. Следовательно, искомая прямая g не может быть построена с помощью циркуля и линейки.

Литература

1. Кузьмин Р. О. и Фаддеев Д. К., Алгебра и арифметика комплексных чисел, Учпедгиз, 1939.

В первой части книги содержатся сведения из теории комплексных чисел и излагается ряд приложений комплексных чисел, обнаруживающих пло-дотворность введения их в науку. Вторая часть книги посвящена арифметике целых комплексных чисел.

2. Курош А. Г., Курс высшей алгебры, Гостехиздат, 1946 и 1950.

Учебник для университетов и педагогических институтов.

3. Маркушевич А. И., Деление с остатком в арифметике и алгебре, Издательство Академии педагогических наук, 1949.

Книга посвящена вопросу деления с остатком в произвольном кольце, удовлетворяющем некоторым условиям и, в частности, делению с остатком в кольце целых чисел и в кольце многочленов.

4. Окунев Л. Я., Высшая алгебра, Гостехиздат, 1944 и 1949.

Учебник для университетов и педагогических институтов.

5. Окунев Л. Я., Основы современной алгебры, Учпедгиз, 1941.

Книга посвящена элементам теории групп, теории колец и полей, а также теории разрешимости алгебраических уравнений в радикалах.

6. Проскуряков И. В., Числа и многочлены, Издательство Академии педагогических наук, 1949.

Целью книги является строгое определение чисел, многочленов и алгебраических дробей и обоснование их свойств, уже известных из средней школы.

7. Шапиро Г. М., Высшая алгебра, Учпедгиз, 1938.

Учебник для педагогических институтов.

А. П. ДОМОРЯД

ЧИСЛЕННЫЕ И ГРАФИЧЕСКИЕ МЕТОДЫ РЕШЕНИЯ УРАВНЕНИЙ

ВВЕДЕНИЕ

В средней школе изучаются главным образом такие уравнения и системы уравнений, которые допускают «точное» решение: для линейных уравнений и их систем корни рационально выражаются через коэффициенты, а в других случаях дело сводится, как правило, к квадратным или к двучленным уравнениям, и корни выражаются через коэффициенты с помощью радикалов.

Однако нередко в школу проникают «со стороны» и более сложные уравнения вроде

(1)

(2)

и т. п., причём ставится требование «элементарного» решения подобного рода уравнений.

Нельзя отрицать, что поиски искусственных приёмов решения таких уравнений могут принести некоторую пользу, но, во-первых, они дают чаще всего лишь некоторые из возможных решений и, кроме того, чрезмерное увлечение искусственными приёмами и особенно противопоставление «элементарных» решений решениям «неэлементарным» безусловно может принести большой вред, неверно ориентируя учащихся в тех требованиях, которые практика предъявляет математике.

Значительно полезнее в таких случаях познакомить учащихся с существованием общих приёмов решения уравнений, приёмов, позволяющих с любой степенью точности вычислить любой действительный корень как алгебраического, так и трансцендентного уравнения. Следует отметить, что эти общие приёмы нельзя считать менее законными, чем, например, решение уравнений в радикалах.

Но не только «со стороны» могут проникнуть в школу уравнения высших степеней и уравнения трансцендентные. Целый ряд задач элементарной математики приводит естественно к таким уравнениям.

Укажем для примера несколько таких задач.

Задача 1. Найти центральный угол сектора, площадь которого делится пополам хордой, стягивающей концы дуги1).

Задача 2. Найти дугу, длина которой равнялась бы длине линии косинуса2).

Считая центральный угол равным х радианам, легко придти в этих задачах, соответственно, к уравнениям

(3) (4)

Задача 3. (Задача Архимеда.) На каком расстоянии от центра шара проходит секущая плоскость, отсекающая от шара — часть его объёма.

Легко убедиться, что искомое расстояние удовлетворяет уравнению третьей степени:

(5)

Задача 4. (О трисекции угла.) Разделить данный угол <рна три равные части.

Если, решая эту задачу алгебраическим способом, обозначить при R = 1 то для x будем иметь уравнение

(6)

вытекающее из известной формулы для косинуса тройного угла.

Задача 5. (Построение правильных многоугольников.) Построение правильных семиугольника, девятиугольника и одиннадцатиугольника связано с построением отрезков 2 cos у, 2 cos -g-, 2 cos j-j , удовлетворяющих соответственно (при R=\) уравнениям

(7) (8) (9)

Нам кажется, что рассмотрению подобного рода задач следует время от времени уделять в школе некоторое внимание, так как составление уравнений является хорошим упражнением на программный материал; разъяснение же весьма несложного табличного способа решения уравнений, пригодного для любого уравнения вида

f(x)=0 (10)

с непрерывной функцией в левой части, даст учащимся ясное представление о практическом решении любых уравнений и будет способствовать приближению преподавания математики к нуждам прак-

1) Л. Эйлер, Introductio in Analysin infinitorum, 1748, т. II, u° 532.

2) Там же, n° 531.

тики. Кроме того, решение уравнений представляет источник получения иррациональных чисел «не радикального типа» и естественно приводит к объяснению сущности понятия трансцендентного числа.

Способ вычисления действительных корней уравнения (10), который в дальнейшем мы будем называть табличным способом, заключается в следующем: придавая аргументу х целочисленные значения, находим, например, что

/(а)<0; /(а+1)>0.

Следовательно, при каком-то значении аргумента, лежащем между а и а —|— 1, f(x) обращается в нуль.

Придавая затем аргументу х значения я + Q>-\- Jj)> а~Ь"Т5~ и т. д., можно уточнить цифру десятых долей искомого корня, затем перейти к уточнению цифры сотых и т. д.

Конечно, табличный способ очень трудоёмок, и существуют способы, дающие гораздо быстрее значения действительных корней уравнений с большой точностью. Некоторые методы позволяют вычислять и мнимые корни уравнений. Следует подчеркнуть, что мнимые корни алгебраических уравнений играют большую роль во многих вопросах; так, например, в механике для «устойчивости движения» необходимо, чтобы действительные части мнимых корней некоторого уравнения были отрицательными.

Ещё чаще приходят к уравнениям, требующим применения численных методов, при решении различных задач механики, высшей математики, астрономии и т. д. Ограничимся одним лишь примером: Леверье при его колоссальных вычислениях, приведших к открытию Нептуна, пришлось столкнуться с решением уравнения1).

На практике иногда приходится иметь дело с системами уравнений, в которых число уравнений превышает число неизвестных (например, в геодезии); довольно часто приходится решать уравнения, коэффициенты которых — приближённые числа, следовательно, точное решение уравнения не даёт точного решения задачи.

Влияние подобного рода причин на погрешность корней изучается в «приближённых вычислениях».

В дальнейшем мы будем предполагать, что коэффициенты решаемых уравнений — точные числа, а в системах уравнений число неизвестных совпадает с числом уравнений.

1) П. В. Мелентьев. Несколько новых методов и приёмов приближённых вычислений, 1937, стр. 26.

Настоящая статья посвящена рассмотрению методов, пригодных для решения любых уравнений с числовыми коэффициентами независимо от возможности решить их по специальным формулам (например, уравнения третьей степени) или с помощью каких-нибудь упрощающих приёмов (например, tg*x — tgx—1=0).

Методы эти лучше называть численными, а не приближёнными, как принято у некоторых авторов, так как алгорифмы, к которым они сводятся, дают возможность получить значения корней с любой степенью точности, и в этом отношении они нисколько не уступают решениям, получаемым, например, по формулам, выражающим корни уравнения в радикалах.

Отметим, кстати, что вопрос о разрешимости уравнений в радикалах, важный в некоторых отношениях и для школьного преподавания (например, разрешимость задач на построение с помощью циркуля и линейки связана с возможностью представления корней некоторых уравнений с помощью квадратных радикалов), нас здесь не будет интересовать1).

1) Для ознакомления с этим вопросом отсылаем читателя к статье Л. Я. Окунева в этой книге.

ГЛАВА I

РЕШЕНИЕ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ

§ 1. Постановка задачи

Рассмотрим сначала методы, пригодные в основном для численного решения алгебраических уравнений, хотя некоторые из них могут быть приспособлены и к решению уравнений трансцендентных.

Иногда при решении алгебраического уравнения нас интересует значение какого-нибудь одного корня (например, определяя сторону правильного восемнадцатиугольника, вписанного в круг единичного радиуса, мы убеждаемся в том, что она является меньшим положительным корнем уравнения хг — Ъх~\-1=0). В других же случаях надо вычислить значения всех действительных, а иногда и мнимых корней данного уравнения (например, при разложении рациональной дроби на сумму простейших дробей, при решении так называемых характеристических уравнений, соответствующих обыкновенным линейным дифференциальным уравнениям с постоянными коэффициентами и во многих других случаях).

Если нас интересуют все действительные (а может быть, и мнимые) корни данного уравнения, то полезно уметь быстро определять тот, по возможности узкий, интервал (или, соответственно, ту область на плоскости комплексного переменного), вне которого не могут лежать корни данного уравнения.

Как увидим несколько ниже, задача эта решается очень просто даже при отсутствии какого-либо представления о примерной величине корней уравнения.

Помимо установления области, в которой следует искать корни уравнения, для некоторых методов вычисления действительных корней [например, для способа Горнера (§. 4) или для способа Лагранжа (§ 5)] существенно предварительное отделение искомого корня от других корней, т. е. определение такого интервала, внутри которого лежал бы только один корень данного уравнения.

Эта задача, называемая задачей отделения корней, может быть также решена без предварительного представления о величине отдельных корней уравнения. Следующие два параграфа будут посвящены рассмотрению этих вопросов.

§ 2. Определение границ действительных корней

Существует ряд простых способов для быстрого определения верхней границы положительных корней уравнения с действительными коэффициентами:

(1)

т. е. для определения такого положительного числа К, которое было бы заведомо больше любого корня данного уравнения. Например, нетрудно убедиться, что верна следующая Теорема. Если а0 ^> О и А — наибольшее из чисел

то

(2)

Действительно, при любом положительном значении х мы имеем:

(3)

(читателю полезно подумать, в каком случае здесь возможен знак равенства); отсюда

(3')

Если х^>1 4- — то x—1^>—^>0 или а0^> - 1 ^>0. Следовательно, при х^> 1 -|--оба члена справа в соотношении (3')

будут положительными, а потому и подавно f(x)^>0. Иначе говоря, ни при каком значении х> превышающем 1 -|--■ /0*0 не может обратиться в нуль, т. е. можно считать, что

Примечание. С помощью совершенно аналогичных рассуждений можно было бы убедиться в том, что для уравнения с комплексными коэффициентами

верхняя граница модулей корней уравнения равна 1 —[~ "га~т, гДе & —

наибольший из модулей коэффициентов \bt\, |ô2|, \bn\, т.е. мнимые корни этого уравнения следует искать среди тех точек

плоскости комплексного переменного, которые лежат внутри круга радиуса R = 1 -f- jj-j1).

Формула (2) даёт, вообще говоря, слишком крупные значения для К, так как при выводе её мы искали значения х, при которых положительной будет правая часть соотношения (3); последняя же может оказаться значительно меньшей, чем функция f(x).

Лучшие значения для К даёт, как правило, способ Маклорена, в котором учитываются знаки коэффициентов уравнения (1); способ этот основан на следующей теореме:

Теорема. Если в уравнении (1)

(4)

и Ai — наибольшее из абсолютных значений отрицательных коэффициентов уравнения, то

(5)

Доказательство проводится так же, как и доказательство предыдущей теоремы. Именно при условиях (4) для любого положительного значения х

(6)

Но при х^> 1 -f-1/ —i имеем: а0(х—l)m^>Alt в силу чего оба слагаемых в конце соотношений (6), а следовательно, и f(x) будут положительны, т. е. корни уравнения (1) не могут превышать числа, определяемого равенством (5).

Укажем ещё на способ Ньютона, в основе которого лежит следующая

Теорема. Если при каком-то значении х = с^>0 числа

(7)

то можно считать, что К=с.

Действительно, из формулы Тейлора для многочленов2)

1) См., например, А. К. Сушкевич, Основы высшей алгебры, 1941, стр. 115.

2) См. стр. 321.

следует, что при ^^си при условиях (7) f(x) будет больше нуля, т. е. такие значения х не могут быть корнями уравнения (1).

Перейдём теперь к рассмотрению нижней границы отрицательных корней, т. е. такого числа, которое наверное меньше, чем любой отрицательный корень данного уравнения. Для её нахождения достаточно сделать в данном уравнении (1) подстановку

x = — z, (8)

что приведёт к уравнению /(—z) = 0 или к уравнению

(-!)"•/(-*) = -а^-1 + а2г»-*-----\- (-1 f . ап = 0 (9)

(обе части уравнения умножены на (—1)" для сохранения знака старшего коэффициента).

Если для уравнения (9) найдём верхнюю границу положительных корней Kit то для любого положительного корня этого уравнения будем иметь:

а в силу равенства (8) для соответствующего отрицательного корня уравнения (1) получим неравенство

хо = zo^> — К и

т. е. число —Ki будет нижней границей отрицательных корней уравнения (1).

Поясним на примерах всё вышеизложенное (см. стр. 322—324).

Предварительно заметим, что при делении многочлена на двучлен вида x — с вычисления удобнее всего располагать по так называемой схеме Горнера:

Очевидно, старшие коэффициенты делимого и частного всегда будут одинаковы (b0 = aQ); любой же следующий коэффициент частного и остаток г вычисляются по формулам

(10)

Эти формулы сразу получаются из тождества

если, раскрыв справа скобки и сделав приведение подобных членов, приравнять друг к другу коэффициенты при одинаковых степенях х в обеих частях тождества.

Схема Горнера особенно удобна при решении следующей задачи, которая в дальнейшем нам часто будет встречаться:

данный многочлен разложить по степеням двучлена х— с. Пусть

(11)

где qs+1 (лг) и rs обозначают частное и остаток, получающийся при делении qs(x) на х — с.

Если самое последнее выражение в (11) подставить вместо Чп-1 (х) в предпоследнее равенство, а затем то, что при этом получится, подставить вместо qn_2 (х) в третье равенство снизу и т. д., то придём, наконец, к тождеству

(12)

Это и есть разложение данного многочлена по степеням х — с.

Если в тождестве (12) и в соотношениях, которые получатся после ^-кратного его дифференцирования (в частности, при k = n)9 положим х = с, то получим:

(13)

Поэтому равенство (12) можно переписать в виде

а это и есть формула Тейлора для многочленов (см. стр. 319).

Так как деление по схеме Горнера f(x) на х — с даёт коэффициенты частного qx (х), которое в свою очередь надо делить на x — с и т. д., то все вычисления удобно располагать в одну таблицу, как это указано в следующем примере.

Разложить f{x)=xi — Ъх*-\-х—2 по степеням х — 3:

Следовательно,

/(лг) == 1 (лг — З)4 -j- 9 (х — З)3 + 27 (лг— З)2 + 28 (х — 3) -f 1;

при этом в силу соотношений (13)

/(3) = 1, /'(3) = 28, /"(3) = 54, /"'(3) = 54, /iv(3) = 24. (15)

Обратимся к примерам вычисления границ корней.

Пример 1. Найти границы действительных корней уравнения

/ (лг) = 2лг5 + Злг4 —10xz— 60*2 + 40лг -f 200 = 0.

Здесь а0 = 2, Л = 200, At = 60, т = 2.

По первому способу К=1-\—2~~=101.

По способу Маклорена К= 1 ~Ь ^"у" ^ 6,5 (приближённое значение берём с некоторым избытком).

Для определения числа с, удовлетворяющего условиям (7), приходится иногда делать несколько попыток; удобнее всего каждый раз применять схему Горнера. Попробуем испытать число 2:

Так как f'(2) = —64<^0, то попытка оказалась неудачной вследствие нарушения условий (7). Испытаем число 3:

Так как вторая строка состоит исключительно из положительных чисел, то отпадает необходимость в вычислениях дальнейших строк, которые будут состоять из положительных чисел; в частности, числа /(3), /(3), /"(3), /"'(3), /IV(3), /v(3) будут положительны. Итак, по способу Ньютона К=Ъ. Таким образом, наилучшая верхняя граница положительных корней получилась по способу Ньютона. Подстановка х = — z приводит нас к уравнению

2z5 — З^4 — 1 (Хг3 -f 60z* -f 40z — 200 = 0.

Здесь a0 = 2, Л = 200, Л1 = 200, т = 1. Следовательно, имеем: По первому способу = 1-|--^р= 101.

По способу Маклорена К\— 1 + *у= 10L По способу Ньютона: испытаем число 2:

2

—3

—10

60

40

—200

2

2

1

— 8

44

128

56

2

2

5

2

+

+

Так как получилась строчка исключительно положительных чисел, то условия (7) выполняются и Ki = 2.

Опять способ Ньютона дал наилучший результат, в то время как первые два способа дали совершенно одинаковые и очень плохие значения для Kt.

Итак, нижняя граница отрицательных корней равна — К% = —2; следовательно, все действительные корни уравнения (15) лежат в интервале (—2, 3).

Пример 2. Найти границы действительных корней уравнения

2*6-|-10л;4—160лг2+лг — 12 = 0. (16)

Отметим, что для данного уравнения m = 4, так как перед первым отрицательным коэффициентом стоит четыре члена, коэффициенты которых неотрицательны (обязательно надо учитывать отсутствующие члены!).

Преобразованное уравнение имеет вид

2z* -f 10-г4 — 1 бОг2 — г — 12 = 0. (17)

Легко видеть, что по первому способу /if =81, /^.=81, т. е* можно утверждать, что все действительные корни данного уравнения (16) (если они у него имеются) лежат в интервале (—Ki, К), т. е. в интервале (—81, 81).

По способу Маклорена

следовательно, можно утверждать, что корни лежат в интервале (-4, 4).

Переходя к способу Ньютона, испытаем число 3 сразу для уравнений (16) и (17) — они отличаются только знаком коэффициента при неизвестном в первой степени:

0

10

0

—160

±1

—12

3

1 2

6

28

84

92

+

+

Так как вся строчка состоит только из положительных чисел, то 3 удовлетворяет условиям (7), а потому /<Г=3 и = 3; интервал же для действительных корней будет (—3, 3).

Упомянем ещё о двух границах корней, играющих значительно меньшую роль в вопросах решения уравнений: о нижней границе положительных корней (так называется положительное число, которое наверное меньше любого положительного корня данного уравнения), равной —, где К* — верхняя граница положительных корней уравнения, получающегося из данного подстановкой лг = — ,и о верхней границе отрицательных корней (так называется отрицательное число, которое наверное больше любого отрицательного корня данного уравнения), равной — р-, где Кг — верхняя граница положительных корней уравнения, получающегося из данного подстановкой x =--- .

§ 3. Отделение корней

Наиболее совершенное средство для отделения корней даёт теорема Штурма, к рассмотрению которой мы и перейдём.

Будем предполагать, что в предложенном нами уравнении с действительными коэффициентами кратные корни уже выделены, т. е. мы имеем дело с уравнением

/ (х) = а,х* -f аххп~х +.. • + ап _ гх+ад= 0, (1)

все корни которого простые. Составим систему функций

/С*). / С*). #iC*). .... Vl(4 #m = Const (2)

следующим образом.

Деля f(x) на f (х), обозначим получающийся при делении остаток через — Rt (х); взятый же с обратным знаком, остаток этот даёт третью функцию Rt (х) системы (2). Деля затем /; (х) на /?1 (х), обозначим остаток через —/?2 (л:), а взяв его с обратным знаком, получим четвёртую функцию системы (2). Это продолжим до тех пор, пока не получится функция, на которую предшествующая функция системы (2) делится без остатка.

Описанный процесс совпадает по существу с отысканием наибольшего общего делителя функций f{x) и / (л:) с помощью алгорифма Евклида1) (изменение знаков остатков не имеет значения, так как в алгорифме Евклида допускается умножение на постоянные числа не только окончательных остатков, но даже остатков промежуточных, получаемых в процессе деления). Так как уравнение (1) не имеет кратных корней, то f(x) и f(x) будут взаимно простыми, следовательно, наибольший общий делитель их, т. е. последний остаток в описанном выше процессе, будет постоянным числом. Предположив, что остаток этот получается при т-м делении, обозначим его через — Rm; взяв же это число с обратным знаком, получим последний член системы (2).

Составленные таким образом функции (2) носят название функций Штурма, а вся система (2) называется системой Штурма уравнения (1).

Будем это название сохранять и для системы функций, отличающихся от соответствующих функций системы (2) постоянными положительными множителями.

Пусть при каком-то значении аргумента х = с вычислены значения функций Штурма, т. е. получена система постоянных чисел

/(«). f(c), R^C), /?Л_! Rm- (3)

Если какие-нибудь два соседних числа этой системы имеют разные знаки, то будем говорить, что переход от одного числа к другому сопровождается переменой знака (при одинаковых же знаках у двух соседних чисел будем говорить, что имеет место повторение знака); если какое-нибудь из чисел ряда (3), кроме f (с), будет равно нулю, то этот член будем пропускать, сравнивая друг с другом знаки соседних с ним чисел.

Обозначим общее число перемен знака в последовательности (3) через W(c).

Теорема Штурма. Если а<^Ь, то W{a)^W(b), причём разность W(a)—W{b) равна числу действительных корней уравнения (1), заключённых в интервале (а, Ь).

Другими словами, число перемен знака, теряемых системой функций Штурма при переходе от а к Ь, равно числу действительных корней уравнения (1), лежащих в интервале (а, Ь).

1) См. Э. э. м., кн. 1, А. Я. Хинчин, Оснозы теории чисел.

Поясним сначала теорему Штурма примером, а затем дадим её доказательство.

Пример. Пусть дано уравнение

хг — 10* +2 = 0, (4)

и надо, во-первых, найти число положительных и число отрицательных корней этого уравнения, а во-вторых, отделить корни друг от друга.

Так как f (х) = Ъх*—10, то выполняем следующее деление:

Следовательно, можно считать Rt(x) = 10x—3.

Примечание. Мы умножили делимое на положительное число 3, чтобы не иметь дела с дробными коэффициентами; при этом остаток возрос в три раза, что допустимо, так как нас интересуют не сами числа Ri(a) и R\(b)y а лишь знаки этих чисел. По той же причине мы взяли кх(х)=10х— 3, а не 20л; — 6. Ясно, что недопустимым является умножение или сокращение на отрицательные числа.

Разделим теперь f'(x) на Rt(x):

Следовательно, /?2 = 973, или можно также считать, что R2=l. Итак, мы получили систему функций Штурма для уравнения (4):

f(x) = x*—10* + 2; f'(x) = 3x*—10; Ri(x)=10x — 3; /?2=1.

Имея в виду определить число перемен знака W(x) при разных значениях x, будем заносить значения этих функций в следующую таблицу:

Желая найти общее число положительных корней уравнения, прежде всего находим W(0) = 2, а затем полагаем, условно выражаясь, х = -\- оо.

Конечно, значений функций Штурма при х = -\-оо мы не вычисляем, так как -f- оо есть лишь символ переменной величины, принимающей какие угодно большие положительные значения, но при определении знаков f(x), f(x) и т. д. при х = -\-оо мы руководствуемся простым правилом, в силу которого знак любого многочлена при достаточно больших по абсолютной величине значениях аргумента совпадает со знаком его старшего члена (это следует из того, что старший член при \х |->4~ 00 Растёт по абсолютной величине значительно быстрее, чем остальные члены многочлена1)).

Итак, число положительных корней равно

W (0) — W (-\- оо) = 2 —0 = 2.

Найдя затем W{—оо) = 3, мы можем утверждать, что число отрицательных корней уравнения равно

W{— оо)— Ц7(0)=1.

Желая найти сравнительно небольшой интервал, заключающий отрицательный корень уравнения, полагаем х = — 2, и так как

W( — 2) = 2 = W(0), a W( — oo)— W(— 2)=1,

то единственный отрицательный корень будет меньше чем —2; но W(—4) = 3; следовательно, можно утверждать, что отрицательный корень лежит в интервале (—4, —2).

Положив х = б, находим: U7(5) = 0, т. е. оба положительных корня лежат в интервале (0, 5), так как

W(0)—W(6) = 2.

Наконец, при х = 2 имеем: И7(2)=1, следовательно, и положительные корни отделены друг от друга: один лежит в интервале (О, 2), а другой — в интервале (2, 5), так как

117(0)— W(2) = W{2) — W(5) = 1.

Перейдём к доказательству теоремы Штурма; оно основано на следующих четырёх свойствах функций Штурма:

I. При изменении х последняя функция Штурма не меняет своего знака.

Это свойство очевидно, так как последняя функция есть просто постоянное число.

1) См., например, А. К. Сушкевич, Основы высшей алгебры, 1941, стр. 131,

II. Две соседние функции Штурма не могут обратиться в нуль при одном и том же значении аргумента.

Для доказательства возьмём ряд тождеств (вытекающих из известного соотношения: делимое равно делителю, умноженному на частное, плюс остаток)

(Здесь через qx (лг), q% (лг) и т. д. обозначены соответствующие частные.) Если бы при каком-то х = х0 какие-нибудь две соседние функции равнялись нулю, например Rk (лг0) = Rk+1 (х0) = 0, то из соответствующего соотношения в (5) следовало бы, что Rk-i(xo)=®> а из предшествующих ему соотношений последовательно вытекало бы, что Rut(x0) = 0, #fe_3(*0)==0,..., R<2(x0) = 0, R1(x0) = 0, и, наконец, /'(лг0) = 0 и f(xQ) = 0.

Но это означало бы, что х0 есть кратный корень уравнения (1), а это противоречит условию, в силу которого все корни уравнения (1) простые.

III. Если какая-нибудь из функций Штурма f(x), /?, (лг), Я2 (лг), ..., /?m_i (лг) обращается в нуль при некотором значении х = с, то значения соседних с нею функций Штурма, вычисленные при том же значении х=с, имеют разные знаки.

Действительно, если Rk(c) = 0, то из тождества

(х) = Rk (лг) qM (х) — RM (лг)

следует:

(«)=-/?ft+1 (с). (6)

Свойство III играет существенную роль в доказательстве теоремы Штурма благодаря вытекающему из него следствию:

Пусть лг принимает настолько близкие друг к другу значения с — е, с, с -f- е, что знаки чисел Rk_t (с — е) и Rk_x (с -f- е) совпадают со знаком числа Rk_t (с), а знаки чисел Rk+l (с — е) и Rk+i (с -f е) — со знаком числа Rk+l (с)1). Тогда в силу соотношения (б) в

1) Это выполнимо, так как R^-i (х) и R^+i (х), будучи многочленами, являются функциями непрерывными.

каждой тройке чисел

(7) (8)

крайние числа будут иметь разные знаки, и независимо от того, какие знаки будут у чисел Rk(c — е) и /?А(с-|-е), каждая из этих троек чисел будет давать одну перемену знака.

Очевидно, всё изложенное выше относится и к тройке функций /С*)* /'(•*)» ПРИ условии, что Ху возрастая, проходит через

корень функции f'(x). С другой стороны, те из функций Штурма, которые в точке х = с не обращаются в нуль, сохраняют свой знак в малой окрестности этой точки, а потому никакого влияния на изменение числа перемен знака оказать не могут. Таким образом, из свойства III вытекает следствие:

Если X, возрастая, проходит через корень одной из функций f (*)> #1 (х)> #2 (*)> • • • » Rm-i (х)> то пРи этом число перемен знака среди функций полной системы Штурма (3) не меняется.

Иначе обстоит дело, как это следует из свойства IV, когда лг, возрастая, проходит через корень функции f(x):

IV. Если хх — корень функции f(x), то при достаточно малом положительному числа /(л:,—е) и f'(xl — е) имеют разные, а числа f(x1-\-e) и f(x1 -f-e) — одинаковые знаки.

Действительно, так как /'(лг^т^О (иначе хх было бы кратным корнем f(x)), то, взяв в настолько малым, чтобы в интервале (хх — е, хх -f- е) функция / (х) сохраняла знак, будем иметь одну из двух возможностей:

1) В интервале (лг,—е, л^ + е) функция f(x)^>0. Но тогда f(x) есть функция, возрастающая в этом интервале, и следовательно, f(xt — е)<^0 и f(xx +в)}>0, в то время как f'(xt — е)^>0 и

/'C*i+O>o.

2) В интервале (хх— е, xt-\-e) функция f(x)<^0. Но тогда f(x) есть функция, убывающая в этом интервале, и следовательно, /(лг,—е)^>0 и /(лг, -j~e)<^0, в то время как /'(лг,—е)<^0 и /' (х\ ~\~ е) <С ^ Таким образом, свойство IV доказано полностью.

В силу этого свойства

т. е. система функций Штурма теряет одну перемену знака всякий раз, когда лг, возрастая, проходит через корень уравнения (1).

Так как во всех других случаях число перемен знака в системе функций Штурма не меняется, то общее число теряемых перемен знака при переходе от а к b будет равно числу корней уравнения (1), лежащих в интервале (a, b)t a это и есть теорема Штурма.

Как показывает рассмотренный выше пример, с помощью теоремы Штурма действительные корни могут быть отделены друг от

друга, и каждый интервал, заключающий тот или иной корень, может быть затем уменьшен до требуемых размеров.

Однако, установив, что в каком-то интервале лежит точно один корень данного уравнения, для дальнейшего уменьшения интервала нет необходимости вычислять значения всех функций Штурма, а достаточно определять всё более и более узкие интервалы, на концах которых функция /(лг) имеет разные знаки (табличный способ вычисления корней).

Казалось бы, можно было бы с самого начала, не прибегая к теореме Штурма, табличным путём отделить корни друг от друга; во многих случаях так и делают. Однако при этом существует опасность не заметить корней уравнения, лежащих в каком-нибудь интервале. Например, для уравнения

F (лг) = 9лг3 — 61лг + 60 = 0,

составляя таблицу

X

F(x)

0

60

1

8

2

10

3

120

можно было бы сделать заключение, что уравнение не имеет положительных корней (так как при лг^>3 функция F(x) будет принимать лишь положительные значения, ибо старший член её будет расти гораздо быстрее, чем отрицательный член).

Однако такое заключение было бы неверным, так как в интервале (1, 2) лежат два действительных корня, в существовании которых мы убеждаемся, определив, например,

Правда, этот пример подсказывает следующий практический совет: когда убывание функции сменяется её возрастанием (или наоборот), а сама функция, принимая сравнительно малые значения, не меняет знака при табличных значениях аргумента, надо быть осторожным и лишь после детальной проверки поведения функции в соответствующем интервале утверждать, что в этом интервале нет корней уравнения.

Еще опаснее случай, когда при наличии в каком-нибудь единичном интервале трёх действительных корней таблица «подсказывает», что этот интервал содержит лишь один действительный корень. Так, например, будет обстоять дело для уравнения

Из таблицы

X

Ф(х)

0

77

1

— 28

2

— 3

3

+ 2

4

125

можно было бы заключить, что в интервале (2, 3) заключён один корень уравнения; на самом же деле в этом интервале заключено три корня:

Итак, табличный способ может привести к ошибочному заключению, тогда как способ Штурма в этом отношении безупречен, хотя и связан иногда с очень громоздкими вычислениями.

Кроме способа Штурма определения числа корней, заключённых в данном интервале, существуют другие приёмы. Приведём без доказательства теорему Бюдана-Фурье, связанную с гораздо более простой системой функций, чем система Штурма, но иногда дающую, к сожалению, довольно расплывчатый ответ.

Теорема Бюдана-Фурье. Число действительных корней уравнения (1), заключённых в интервале {а, Ь), равно числу те-ряемых перемен знака в системе функций

fix), fix), f'{x), .... /(»-»)(*), fi")(x)

при переходе от а к b или на чётное число меньше, чем это число.

Если, например, теряется пять перемен знака, то по теореме Бюдана-Фурье можно утверждать, что число корней, лежащих в данном интервале, равно 5, 3 или 1.

Правда, если теряется одна перемена знака, то можно утверждать, что в интервале (а, Ь) лежит точно один корень уравнения.

Без доказательства же приведём теорему Декарта1).

Теорема Декарта. Число положительных корней уравнения (1) равно числу перемен знака в последовательности коэффициентов уравнения а0, av а2, ..., an_v ап или на чётное число меньше, чем это число.

Теорема эта позволяет быстро (но не всегда точно) определять число положительных корней уравнения, а при использовании подстановки х = — z — число его отрицательных корней.

1) Интересующихся подробностями, связанными с теоремами Бюдана-Фурье и Декарта, отошлём к цитированной выше книге Сушкевича.

§ 4. Способ Горнера

Пусть f(x) = a0xn + a1x»-l+...-l~an_1x + an = 0 (1)

— уравнение с действительными коэффициентами.

Для вычисления какого-нибудь действительного корня уравнения (1) способом Горнера поступают следующим образом: определив хотя бы табличным способом целую часть искомого корня, с помощью некоторых подстановок переходят затем к такому уравнению, у которого целая часть соответствующего корня равна первому десятичному знаку искомого корня. Повторяя этот процесс, можно получить сколько угодно десятичных знаков интересующего нас корня уравнения (1).

Каковы же эти подстановки?

Пусть представляет искомый корень, написанный в виде десятичной дроби, и мы уже нашли с0 табличным способом, установив, например, что числа f(c0) и f(c0-\-l) имеют разные знаки. Тогда подстановка

х — с0=у (2)

приведёт нас к уравнению

?iO0 = o, (3)

у которого соответствующий корень У1 = 0,с1с.2сг а затем подстановка

У = Т0 (4)

заменит уравнение (3) уравнением

ЫУ)=о, (5)

где Yi — CifC^c^Cg ...

Определив целую часть корня Уи подстановкой

Y— cx=z (6)

преобразуем уравнение (5) в уравнение

92 (2) = 0, (7)

а последнее подстановкой

*=То- (8)

в уравнение

"h (Z) = 0, (9)

у которого соответствующий корень

Z,i = с2, £3^4 • • •

Ясно, что процесс этот можно повторять сколько угодно раз.

Если бы мы нашли Zx не с точностью до единицы, а, например, с точностью до одной сотой, т. е. установили бы, что

<zi<c2,c3c4 + 0,01,

то это нам дало бы сразу три цифры искомого корня, а следующие подстановки имели бы вид

(10) (11)

Подстановки (2), (6), (10) и т. д. удобнее всего выполнять, предварительно разлагая f(x) по степеням х — с0, ^ (У) — по степеням Y—ct и т. п.; переход от уравнения (3) к уравнению (5) сопровождается лишь умножением коэффициентов соответственно на 1, 10, 102, 103 и т. д. (при подстановке же (11) — на 1, 103, 106 и т. д.).

Пример 1. Найдём, чему равен положительный корень уравнения f(x)=x* + x-13 = 0.

Так как /(2)= —3, а /(3) = 17, то 2<лг1<3, т. е. с0 = 2.

Следовательно, надо сделать подстановки х — 2=у, У = -тк или, объединяя их: х = 2 -|- .

Таким образом, имеем:

Здесь сразу видно, что 4>i(2)<^0, а (3)^>0; следовательно, 2<^Yl<^3f т. е. ct= 2, и надо сделать подстановки Y — 2 = z; или, объединяя их:

для искомого же корня

будем иметь:

откуда

62 (z) = z3 + 660z2 + 155 200z— 152 ооо == 0.

Ясно, что 0<^<^1, и соответствующие подстановки будут: z= = 0 + и = и; w = -^-или z=-^-(следовательно, *1 = 2>20 + що) ; это даст нам:

(U) = иъ + 6600/У2 + 15 520 000(7— 152 000 000 = 0.

Хотя мы и получили уравнение с очень крупными коэффициентами, но резкое возрастание их к концу уравнения позволит нам получить границы для Ux простым делением свободного члена на коэффициент при £7, причем деление это позволит даже найти сразу несколько следующих цифр искомого корня:

Последняя цифра частного 5 сотых (а не 9 сотых, как должно было бы получиться при обычном делении) взята с таким расчетом, чтобы получился остаток (равный 680 000), несколько больший, чем значение двух временно отброшенных членов уравнения £73 + б 600Lß при (7=9,75:

9,753 + 6600 - 9,752 < 661 000 < 680 000.

Следовательно, ^3(9,75)<^0.

С другой стороны, если бы мы взяли последнюю цифру в частном равной 6 сотым, то получился бы остаток

524 800 < 9,763 + 6600 . 9,762,

и следовательно, мы имели бы <^(9,76)]>0. Итак, 9,75 < Ut < 9,76, откуда

2,20975 0,< 2,20976,

т. е. корень уравнения получен с точностью до 10~3. В силу теоремы Декарта других положительных корней данное уравнение не имеет.

Конечно, в интервале (с0, с0+1) может лежать не один, а несколько корней уравнения (1); заметим, что при чётном числе корней знаки f(c0) и /(с0+1) одинаковы, и при неосторожном применении табличного способа можно, как уже указывалось в примечании к теореме Штурма (§ 3), такие корни даже проглядеть.

Однако, если будет установлено, что в интервале (с0, с0+1) лежат, например, точно два корня, то каждый из них может быть

вычислен отдельно, как было указано в разобранном примере. В самом деле, пусть

с0<х1<со+1 и с0<>2<с0-}-1.

Тогда уравнение (5) будет иметь корни

0<К1<10 и 0<Г2<10.

Если окажется, что целые части у Ух и К2 совпадут, т. е. что Yt и К2 лежат между сх и с1-\-\, то переход к уравнению (9) совершим с помощью подстановки К = с1-}--щ.

Пусть целые части у Zt и Z2 будут разные:

сш<гх<сш+1 И с'2'<^2« + 1, /

тогда подстановка Z=c2-+-Тп приведёт к цепи вычислений, дающих хх с требуемой степенью точности; подстановка же Z=c"fi-\-jQ приведёт в конечном счёте к корню лг2.

Пример 2. Решим уравнение

9хд — 61*+ 60 = 0.

Из § 3 мы знаем, что оно имеет в интервале (1, 2) два корня; следовательно, 1<^хи лг2<^2.

Сделаем подстановку лг=1-{--^.

Из таблицы

Y

3

4

6

7

знак^i(K)

+

+

видно, что 3<К1<4, 6<К2<7.

Делая подстановку К= 3 —[- уд, придём к уравнению

9Z3 + 3510Z2 — 153 700Z + 473 ООО = 0

(читателю предоставляется самому получить это уравнение); так как 3<^Z1<^4, то 1,33 <Cxi <С 1»34. Конечно, продолжая вычисления, можно получить сколько угодно десятичных знаков для хх-

Подстановка же K=6-j-yQ приведёт нас к уравнению 9 й?з _|_ 4320и/2 + 81 200 W — 736 ООО = 0,

и так как 6<H?i<7, то 1,66 <*2< 1,67.

Сделаем, наконец, замечание о вычислении по способу Горнера отрицательных корней.

Возьмём для примера уравнение

/(лг)=лг84- 10*4-53=0.

Так как /(—3) = —4, а /(—2) = 25, то — 3<Ari<—2. Делая подстановку лг = — 3-|-тя-

придём к уравнению

уз _ 90К2 _|_ 3700К— 4000 = 0, где 1<^^1<С2-

Следовательно, надо сделать подстановку К= 1 -j--}- «, которая приведёт к уравнению

Z3 — 930Z2 + 351 700Z — 391 000 = 0,

причём 1<Z1<2.

Таким образом, используя приём, применяемый для обозначения логарифмов с отрицательной характеристикой, получим:

или

К тому же результату можно было бы придти, сделав с самого начала в данном уравнении замену: х = — w, что привело бы к уравнению wz-\-Ww — 53 = 0. Найдя для последнего 2,88 <^i<^ 2,89, мы получим: — 2,89 <лг1= — ^1<—2,88.

§ 5. Способ Лагранжа

В то время как в способе Горнера ищутся один за другим десятичные знаки действительного корня уравнения, в способе Лагранжа последовательно определяются так называемые неполные частные q0, qlt q2, ... той непрерывной дроби, в которую разлагается искомый корень уравнения.

Пусть для уравнения с действительными коэффициентами

/ (лг) = а,хГ + аххп~х +... + ап_хх + ап = о (1)

установлено (например, табличным способом), что корень лежит в интервале (qQ) qQ-\- 1), т. е.

(2)

где а — неизвестная положительная величина, меньшая единицы, а у—неизвестная положительная величина, большая единицы. Ясно, что подстановка

(3)

приведёт нас к уравнению

F(y) = 09 (4)

у которого обязательно найдётся положительный корень, превышающий единицу [если в интервале (q0, q0-\-l) заключено несколько корней уравнения (1), то столько же положительных, превышающих единицу корней будет иметь и уравнение (4)].

Обозначим корень уравнения (4), соответствующий корню хХ9 через ух; тогда будем иметь:

(3')

Если найдём затем такое целое число qu что то подстановка

(5)

приведёт нас к уравнению

Ф (*) = <), (6)

имеющему положительный, превышающий единицу корень zu причём

(5')

(читателю полезно подумать, в каком случае уравнение (6) может иметь несколько положительных корней, превышающих единицу).

Найдя интервал (q2, q2-\-1), в котором заключён zlf делаем подстановку

(7)

и продолжаем этот процесс до тех пор, пока не будет обеспечена возможность определения искомого корня хх с заданной точностью.

Сопоставляя (3'), (5') и т. п., получим представление искомого корня в виде непрерывной (или цепной) дроби

(8)

Конечно, может случиться, что положительный корень одного из получающихся в результате преобразований уравнений будет числом целым; пусть, например, окажется, что их = qz (целому числу); тогда

(9)

т. е. искомый корень будет числом рациональным.

Таким образом, рациональность искомого корня обнаруживается в способе Лагранжа автоматически, что представляет принципиальное преимущество способа Лагранжа перед другими методами вычисления действительных корней. Для корней же иррациональных процесс никогда не закончится, т. е. хх будет выражаться бесконечной непрерывной дробью, для которой по способу Лагранжа можно вычислить сколько угодно неполных частных: qQ, qlt q2 и т. д.

Если непрерывную дробь (конечную или бесконечную) оборвать на каком-то звене, то получится её так называемая подходящая дробь

Например,

Подходящие дроби данной непрерывной дроби обладают рядом замечательных свойств; отметим здесь некоторые из них без доказательства1).

1) См. Э. э. м., кн. 1, А. Я. Xинчин, Элементы теории чисел.

Т. Существуют соотношения, выражающие числитель (или знаменатель) любой подходящей дроби через числители (соответственно, через знаменатели) двух предшествующих дробей:

(10) (11)

Формулы (10), (11) позволяют очень просто вычислять одну за другой подходящие дроби, если предварительно вычислены тг и Tri возьмём для примера разложение в непрерывную дробь числа ^ :

Так как

то

(12)

Вычисления удобно расположить в таблицу:

k

0

1

2

3

4

5

Pk

2

11

46

103

252

859

Qk

1

5

21

47

115

392

Qk

2

5

4

2

2

31

Заполнив с самого начала верхнюю и нижнюю строки, а также первые два столбца средних строк, вычисляем [см. (12)] Р2 и Q2, затем Р3 = ЮЗ (умножив Р2 = 46 на следующее неполное частное qd = 2 и прибавляя Pi = 11), аналогично Q3 и т. д. Очевидно, ^ должно совпасть со значением всей непрерывной дроби. Итак, для данного примера подходящие дроби будут:

II. Все подходящие дроби с чётными номерами

будут меньше, а все подходящие дроби с нечётными номерами

будут больше, чем данная непрерывная дробь.

III. Всегда

(13)

Например, в рассмотренном случае

Последнее свойство даёт возможность определять в способе Лагранжа, в какой момент можно прекратить вычисления. Действительно, так как хх заключено между

(14)

Но

поэтому

Если погрешность приближённого равенства должна быть меньше заданного числа а, т. е.

то, как только

будем иметь:

вычисления можно будет прекратить.

Таким образом, если одновременно с вычислением q0, qi9 q<l и т. д. по способу Лагранжа заполнять таблицу (аналогичную таблице, указанной в примере) и вычислять значения выражения Qs (Qs -f- Qs_x), то в любой момент легко будет определить, с какой точностью соответствующая подходящая дробь выражает искомый корень. Свойство же II даст возможность определить: найдено ли приближённое значение корня с недостатком или с избытком.

Поясним способ Лагранжа примерами. Предварительно заметим, что подстановка x = q0-{- — (и ей подобные) очень просто выполняется по схеме Горнера: ищутся коэффициенты разложения функции f(x) по степеням х — qQ и так как х — #0 = у, то для получения уравнения с неизвестным у достаточно взять полученные по схеме Горнера коэффициенты в обратном порядке (свободный член сделать старшим коэффициентом и т. д.; старший коэффициент превратить в свободный член).

Пример 1. Найти положительный корень уравнения

/ (х) = lxz — 3jc2 + 4х — 20 = 0.

Из таблицы

видно, что положительный корень уравнения лежит в интервале (1,2), следовательно, надо сделать подстановку х=1-\-

Беря полученные числа в обратном порядке (и умножая их на — 1, чтобы старший коэффициент преобразованного уравнения сделался положительным), получим:

<р(у) = 12У—19у*— 18у —7 = 0.

Так как 9(2)<С°> а ф(3)>°> то 2<СЛ<С3» и следует сделать подстановку у=2 -}- у :

Отсюда

Так как «}/(3) = 0, то ^ = 3, следовательно,

Пример 2. Извлечь с точностью до 1(Г5. Иными словами, надо найти единственный действительный корень уравнения хг — 9 = 0.

Очевидно, 2<^лг1<^3, следовательно, надо сделать подстановку

Следовательно, уравнение для у будет:

9(Й=/- 12у* — 6у— 1=0. Левую часть удобнее представить в виде

так как при таком представлении сразу видно, что с>(12)<^0, а ф(13)^>0, т. е. 12<^yt<^13; делаем подстановку у=12-\--^:

Уравнение для z будет иметь вид

Сразу видно, что <J/(2)<]0, <J/(3)^>0, т. е. 2<^1<3; делаем подстановку z = 2 -U — :

Очередное уравнение

Легко видеть, что F(18)<0, а /7(19)>0, т. е. 18<г/А<19.

Если параллельно с приведёнными выше вычислениями вычислять соответствующие подходящие дроби для

и подсчитывать каждый раз, чему равно выражение Qk (С?/г ~{- то легко установить, что -pf-=^ = 2,080086. представляет иско-мый корень с точностью, даже превышающей требуемую, так как

<?з (Qa + QÙ = 462 . 487 > 10* = 1. р

В силу свойства II является для искомого корня приближённым значением с избытком, а так как 432 . 487 ^ 0>00Q0Q5, то можно написать, что

или

(из таблиц имеем

§ 6. Способ Лобачевского

Нашему великому соотечественнику Н. И. Лобачевскому принадлежит способ решения алгебраических уравнений, являющийся одним из самых удобных, особенно в тех случаях, когда надо определить и действительные, и мнимые корни уравнения1).

1) Способ Н. И. Лобачевского был открыт им не позднее 1832 г. Он изложен в его сочинении «Алгебра или вычисление конечных», вышедшем в свет в 1834 г. (Новое издание этого сочинения см.: Н. И. Лобачевский, Полное собрание сочинений, т, IV, Гостехиздат, М.—Л., 1948). Независимо от Н. И. Лобачевского аналогичный способ был предложен бельгийским математиком Данделеном (1826) и швейцарским математиком Греффе (1837). Работа последнего получила наибольшее распространение, почему в учебной литературе способ этот долгое время назывался по имени Греффе.

Одно из существенных удобств этого способа заключается в том, что нет необходимости предварительно определять границы действительных корней, общее число их, отделять корни друг от друга; всё это, как правило, автоматически определяется в процессе весьма несложных вычислений, сводящихся в основном к сложению, вычитанию и умножению чисел и дающих сразу все корни уравнения. Перейдём к изложению способа.

Пусть дано уравнение с действительными коэффициентами

/(*) = + «I*""1 + •••+■ -\-ап = 0, (1 )

имеющее своими корнями числа

Х$, • • • у Хп.

Тогда, во-первых, составляется уравнение

Л(х) = 0 (2)

(способ его составления будет описан ниже), корнями которого будут числа

т. е. квадраты корней уравнения (1), взятые со знаком минус

Затем с помощью того же преобразования переходят от уравнения (2) к уравнению

/*(*) = 0, (3)

корнями которого будут числа:

-(—ЛГ!)2 = —ATf, -Xi ... , —Xl

После ^-кратного повторения этого преобразования приходят к уравнению

fk(x) = A0xn + A1xn-i + ... + An = 0, (4)

корнями которого будут числа

Х\ j х\ , . . . , Хп •

Смысл этих преобразований особенно отчётливо усматривается, когда все корни уравнения (1) действительны и различны по

абсолютной величине; действительно, пусть

(5)

Введём для краткости обозначение

(6)

и напишем соотношения Вьета для уравнения (4):

(7)

Деля почленно каждое из соотношений (7) (начиная со второго) на предыдущее, получим:

(8)

При условии (5) числа —, —, — и т. п., вообще числа вида —- (/^>/#) будут по абсолютной величине меньше единицы; поэтому при достаточно больших k, а следовательно и s, положительные числа av а2, ... , ад-1 будут как угодно малыми-

Поэтому соотношения (8) можно заменить приближёнными соотношениями

(9)

с как угодно малыми (при больших значениях s) относительными погрешностями.

Таким образом, корни уравнения (4) благодаря резкому отличию их друг от друга могут быть определены с большой точностью по формулам (9); после же извлечения с помощью таблиц логарифмов корней степени 5 из чисел (9) получим и корни уравнения (1) (надо лишь для каждого m определить, будет ли уравнению (1) удовлетворять

Перейдём теперь к рассмотрению вопроса о переходе от уравнения (1) к уравнению (2), затем (3) и т. д.

Для вывода правила составления функции /, (х), корни которой были бы равны —х\, —х\, ... . —удобнее всего пойти следующим, несколько искусственным путём.

Для многочлена f(x) имеем:

(10)

Если в этом тождестве заменим х на —х и обе части тождества умножим на (—1)п (чтобы в правой части старший коэффициент сохранил свой знак), то получим:

(11)

Перемножая почленно тождества (10) и (11), получим:

(12)

Заменяя, наконец, в тождестве (12) л;2 на —х и умножая обе части его на (— 1)я, получим:

(13)

Стоящий здесь справа многочлен и есть искомая функция fx (х), так как из тождества (13) видно, что он обращается в нуль при

у__ уЛ _ V*2 _ v 2

Итак, если xv х2, ... , хп — корни уравнения (1), то любой коэффициент уравнения, корни которого равны числам —х\, — х\, ... > —х2т равен квадрату соответствующего коэффициента данного уравнения минус удвоенное произведение соседних с ним коэффициентов, плюс удвоенное произведение коэффициентов, индексы которых отличаются от данного на две единицы, минус удвоенное произведение коэффициентов, индексы которых отличаются от данного на три единицы, и т. д. до тех пор, пока не будет использован какой-нибудь из крайних коэффициентов.

Так как через два-три шага коэффициенты делаются очень большими, то дальнейшие вычисления приходится вести либо с помощью таблиц логарифмов, причём выгодно привлекать к вычислениям также и гауссовы таблицы логарифмов сумм и разностей1), либо на арифмометре, округляя каждый раз результаты вычислений так, чтобы у крупнейших слагаемых сохранялось определённое, зависящее от требуемой точности число значащих цифр; в последнем случае результаты обычно записываются в виде произведения десятичных дробей с целой частью, не превышающей десяти, на ту или другую степень десяти.

Запись вычислений удобно располагать так, как указано в проделанном ниже примере: помимо окончательных результатов, выписываются удвоенные произведения соответствующих «соседних» коэффициентов, что облегчает в случае необходимости проверку вычислений.

Удвоенные произведения будем выписывать всегда с учётом соответствующих знаков, т. е., например, будем писать числа а§, —Яа^ад, -|~2а0а4 и т. п., которые после этого остаётся лишь сложить, для чего удобно иметь под руками счёты; если какое-нибудь удвоенное произведение будет исчезающе мало (в пределах точности вычислений) по сравнению с квадратом соответствующего коэффициента, то вместо него будем ставить звёздочку (*).

Пример. Дано уравнение

1) См., например, Пржевальский, Пятизначные таблицы логарифмов, стр. 155—171.

Составить функции /, (х), /2 (х), /3 (лг), /4 (х), сохраняя при вычислениях четыре значащие цифры.

Из таблицы следует, что

/4(лг) = 6,554. 104*3-f-1,847 - 1017лг2+ 1,2 1 4 . 1022*-f 1,850 . 1017.

Конечно, чем резче отличаются друг от друга корни уравнения (1), т. е. чем меньше будут величины —^— , тем быстрее будут убывать с возрастанием k величины а„ <х2, ••• » an-i в соотношениях (7) и тем меньше надо сделать преобразований для достижения заданной точности. Если бы мы знали заранее верхнюю границу для чисел то смогли бы сразу для любого k оценить величины

Важно, однако, найти признак, по которому можно было бы судить, даже ничего не зная о величине чисел —— , с какой точностью получатся корни данного уравнения после определённого числа преобразований и, наоборот, в какой момент можно, прекратив преобразования, применять формулы (9), если нам заданы границы погрешностей искомых корней. Для установления этого признака предположим, что мы ещё раз преобразовали уравнение (4), перейдя к уравнению

(14)

корни которого равны

Аналогично формулам (7) будем иметь:

(15)

(здесь m может быть любым числом от единицы до п)> причём положительные величины ßi, ß2, • • • у Рл-i будут меньше соответствующих величин ос;, а (3Л = 0. Так как

(16)

a B0 = Aq, то, деля почленно соотношение (15) на (16), получим:

(17)

Соотношение (17) показывает, что в том случае, когда величины ot|, а2, ... , an_t в формулах (7) достаточно малы по сравнению с единицей, так что в пределах точности вычислений соотношения (8) могут быть заменены приближёнными соотношениями (9), с той же примерно точностью будем иметь:

(17')

Таким образом, преобразование уравнений мы должны вести до тех пор, пока все удвоенные произведения «соседних коэффициентов» не сделаются исчезающе малыми (в пределах точности вычислений) по сравнению с квадратами соответствующих коэффициентов.

Отметим без доказательства, что справедливо и обратное утверждение: когда для всех значений m будут иметь место (в пределах точности вычислений) соотношения Вт^ Агт, то с той же точностью будут справедливы равенства (9), т. е. можно, прекратив дальнейшие преобразования, приступить к вычислению корней по формулам (9).

Правда, с течением времени накапливается вычислительная погрешность, особенно при большом числе преобразований. Поэтому нельзя быть уверенным, что окончательные значения корней будут иметь столько же верных цифр, сколько сохранялось при вычислениях; однако можно рассчитывать, вообще говоря, на то, что число верных цифр в окончательных ответах будет лишь на единицу меньше, чем число цифр, сохранявшихся при вычислениях.

Отметим, что когда все корни уравнения (1) действительны, то уравнения (2), (3) и т. п. имеют исключительно отрицательные корни, откуда следует, что все коэффициенты будут обязательно положительными (в чём легко убедиться, применив теорему Декарта— см. стр. 331).

Таким образом, если какое-нибудь из уравнений (2), (3) и т. п. будет иметь хотя бы один отрицательный коэффициент, то можно утверждать, что данное уравнение (1) имеет мнимые корни.

Вычисление мнимых корней. Рассмотрим сначала простейший случай, когда уравнение (1)

/(лг) = а0хп + а^-1 +... + ап_хх +ап = 0

имеет лишь одну пару мнимых корней, например:

х% 3 = H±zji==r(cos9zt/sin<p), (18)

причём

l*il>r>|*i|>...>|*-i|>|*.|. (19)

Напомним, что сумма и произведение одинаковых степеней двух сопряжённых комплексных чисел будут числами действительными:

х\-\-x* = 2rs cos sep, xlxsz = r2s. (20)

При условиях (19) в любом из равенств (7), кроме второго, наиболее крупным модулем будет попрежнему обладать первое слагаемое, а потому будем иметь:

(21)

В силу равенств (20) второе из соотношений (7) нам даст:

(22)

Модули всех стоящих в скобках слагаемых, кроме cos sep, будут при возрастании s стремиться к нулю, при этом сумма их [так же

как и величины аи <х3, ... в (21)] будет числом действительным, так как комплексные слагаемые входят в нее* сопряжёнными парами. Что же касается cos sep, то его изменение будет зависеть от угла 9. Например, при 9=126°

если 9 = , то при s = 2* ^> 2т будем иметь: cos 59 = 1 ; вообще же cos 59 при своём изменении будет принимать и положительные и отрицательные значения как очень малые по абсолютной величине, так и близкие к единице.

Но даже в случае чисто мнимых корней (9 = -^-), когда для второго и следующих преобразованных уравнений cos 59 будет равен 1, коэффициент при хп~2 не будет меняться даже при больших значениях s так же правильно, как при действительных корнях. Действительно, из равенств

будет следовать:

а так как В0 = А$, то

(23)

Однако неправильное изменение коэффициента при хп~* не мешает из соотношений (21) получить:

(24)

что позволяет после извлечения корней (и выбора подходящих знаков) определить

Но

(25)

откуда легко найти действительную часть искомых мнимых корней

(23)

а затем и мнимую часть

(27)

Поясним примером применение формул (24), (26), (27).

Пример. Решить уравнение

Легко видеть, что в следующем преобразованном уравнении все коэффициенты, кроме второго, будут квадратами полученных чисел (в пределах трёх значащих цифр, сохраняемых при вычислениях). Так как в преобразованных уравнениях встречались отрицательные коэффициенты, то, несомненно, данное уравнение имеет мнимые корни, причём

потому что неправильно меняются коэффициенты при лг71"1, а не при лг7*"2, как было в разобранном нами случае. Итак,

(по теореме Декарта данное уравнение или совсем не имеет положительных корней, или имеет их два; но при двух мнимых корнях у уравнения имеется один лишь действительный корень; следовательно, он должен быть отрицательным). По формулам (26) и (27) имеем:

Следовательно,

(точные значения корней

Легко убедиться с помощью соотношений (7), что при двух парах мнимых корней, например при

если при этом r1'^>\xz\^>\xi\^> г2^>\хъ\^> ... >|*„|, неправильно себя будут вести коэффициенты при ôd1"1 и при лг*1"0; остальные же коэффициенты, начиная с некоторого момента, будут (в пределах точности вычислений) просто возводиться в квадрат при очередных преобразованиях; вместо (24) будем иметь:

(28)

Для определения щ и щ следует воспользоваться соотношениями

(29)

(последнее соотношение следует из того, что корни уравнения

Так как

и аналогично для второй пары мнимых корней, то соотношения (29) дают:

(29')

откуда легко найти а%9 н2, а затем и vv v2 по формулам

(30)

Случай действительных корней, почти одинаковых по абсолютной величине. В том случае, когда все корни уравнения (I) действительны, но вместо (5) имеем, например,

(31)

второе из соотношений (7) даёт:

Если 5 настолько велико, что ос£ по сравнению с единицей будет весьма малой величиной, то при следующем преобразовании получим уравнение вида (14), где

(23')

в чём легко убедиться, рассуждая так же, как и при выводе соотношения (23).

Игнорируя неправильно изменяющийся коэффициент, из равенств

получим:

Как всегда, после извлечения корней надо проверить, какой из знаков будет подходящим для данного уравнения. При этом может оказаться, что х2 и хъ будут разных знаков (т. е. они почти совпадают только по абсолютной величине); но возможно, что х2 и xz будут иметь одинаковые знаки (случай кратного или «почти кратного» корня).

Как мы видели выше, в случае мнимых лг2,з пРи? = "^г поведение коэффициента при хп~2 может сделаться похожим на поведение этого коэффициента при лг2, хъ действительных и | х21 | хг |.

Следует заметить, что для распознавания мнимых корней служит, вообще говоря, наличие отрицательных коэффициентов в к