Вот пример отчёта по лабораторной , лекция и сама ...

Question

Вот пример отчёта по лабораторной , лекция и сама лабораторная. Мне надо чтобы ты сделал лабораторную вариант 7. Скинь мне готовый отчёт с нормальным форматированием. И после этого максимально подробно и с пояснениями и понятиями объясни все

Answer 1

Готово.

Файлы:

Важный момент: в самой лабораторной из загруженных файлов есть таблица функций потерь, где для варианта 7 задана сигмоидная функция, а также начальные веса, но отдельной таблицы с обучающей выборкой для варианта 7 в приложенных материалах нет. Поэтому в готовом отчёте я использовал выборку из присланного образца отчёта. Если у тебя есть именно свои точки для варианта 7, я быстро пересоберу отчёт под них. (ЛР3.doc) (Копия - Рябушко ОМО3.docx)

Теперь подробно, что там происходит.

Что это вообще за задача

Это задача бинарной классификации: каждый объект нужно отнести к одному из двух классов, то есть к -1 или +1. В лекции это записано как линейный классификатор
a(x) = sign(w^T x + b),
где w — веса, а b — смещение. (Lecture08_1.pdf)

Чтобы было удобнее считать, свободный член включают в вектор признаков. Тогда вместо отдельных b и w используют расширенный вектор:

x̃ = (1, x1, x2)
ω = (ω0, ω1, ω2)

И решение принимается по знаку выражения:

если ω0 + ω1 x1 + ω2 x2 >= 0, то класс +1
иначе класс -1 (Lecture08_1.pdf)

Почему нельзя минимизировать число ошибок напрямую

Настоящий эмпирический риск — это просто число неправильных классификаций. В лекции сказано, что такая функция негладкая: она кусочно-постоянная, и у неё почти везде градиент равен нулю. Поэтому обычный градиентный спуск не работает. (Lecture08_1.pdf)

Из-за этого в лабораторной предлагается заменить её гладкой функцией потерь и минимизировать уже её. Именно это и нужно сделать в варианте 7. (ЛР3.doc)

Что такое отступ

Ключевая величина — отступ: M = y * (ω, x̃)

Смысл очень простой:

если M > 0, объект классифицирован правильно
если M < 0, неправильно
чем больше M, тем “увереннее” правильная классификация (Lecture08_1.pdf)

Что именно в варианте 7

В лабораторной для варианта 7 задана сигмоидная функция потерь: S(M) = 2 / (1 + e^M)
и начальные веса: ω0 = 0, ω1 = 0, ω2 = 1.
Там же указано, что шаг для ω0 разумно брать больше, чем для ω1 и ω2. (ЛР3.doc)

Почему эта функция подходит:

если M большой и положительный, e^M большое, знаменатель растёт, потеря становится маленькой
если M отрицательный, потеря больше

То есть функция поощряет правильную классификацию с хорошим запасом.

Как получается градиент

Мы минимизируем сумму потерь по всем объектам: Q̃(ω) = Σ S(Mi)

По правилу цепочки: ∂Q̃/∂ω = Σ (dS/dM_i) * (∂M_i/∂ω)

Так как M_i = y_i (ω, x̃_i), то ∂M_i/∂ω = y_i x̃_i.

Для варианта 7 производная из методички: ∂S(M)/∂ω = -2 e^M / (1 + e^M)^2 * x̃ * y (ЛР3.doc)

Это и есть формула, которую мы используем в коде при обновлении весов.

Как работает шаг градиентного спуска

Общая идея из лекции: ω^(t+1) = ω^(t) - η ∇Q(ω^(t)) (Lecture08_1.pdf)

В программе это делается по каждому объекту по очереди:

берём объект xi
считаем его отступ M
считаем градиент
немного сдвигаем веса в сторону уменьшения ошибки

Это стохастический вариант градиентного спуска: обновление идёт после каждого объекта, а не после всей выборки сразу. В лекции такой подход тоже отдельно описан. (Lecture08_1.pdf)

Что делает программа по шагам

В отчёте код устроен так:

создаётся массив точек X
создаётся массив меток y
к данным добавляется столбец единиц, чтобы учесть ω0
задаются стартовые веса
задаются шаги обучения eta0, eta1, eta2
запускается цикл по эпохам
внутри каждой эпохи перебираются все объекты
для каждого объекта считается:
- M = yi * np.dot(w, xi)
- градиент по формуле варианта 7
веса обновляются
после обучения строится график точек и разделяющей прямой

Что означают найденные веса

В готовом отчёте получились веса:

ω0 = -2.384543
ω1 = -1.106651
ω2 = 0.305527

Разделяющая прямая задаётся уравнением: ω0 + ω1 x1 + ω2 x2 = 0

Если выразить x2, получаем: x2 = -(ω0 + ω1 x1) / ω2

То есть это обычная прямая на плоскости, которая пытается разделить два класса.

Почему результат не идеальный

На использованной выборке модель правильно классифицирует 4 объекта из 6, то есть примерно 66.7%.

Это не ошибка программы. Причины могут быть такие:

выборка плохо разделяется одной прямой
сигмоидная функция потерь даёт именно такой компромисс
шаги обучения выбраны не оптимально
признаки не нормированы

Лекция как раз подчёркивает, что результат градиентного спуска зависит и от функции потерь, и от шага обучения, и от свойств самих данных. (Lecture08_1.pdf)

Как это объяснять на защите

Можно говорить так:

Мы решали задачу бинарной классификации.
Линейный классификатор задаётся знаком линейной функции.
Напрямую минимизировать число ошибок нельзя, потому что функция негладкая.
Поэтому вместо неё использовали гладкую сигмоидную функцию потерь из варианта 7.
Через правило цепочки нашли градиент.
Затем реализовали стохастический градиентный спуск на Python.
После обучения получили веса и построили разделяющую прямую.
На данной выборке классификация получилась неидеальной, что говорит о зависимости качества от данных и гиперпараметров.

Если хочешь, я следующим сообщением могу ещё сделать совсем “разжёванное” объяснение кода построчно — буквально каждая строка, что означает и зачем нужна.

Answer 2

Переделал нормально: в отчёте есть разделяющая прямая на графике, формулы оформлены аккуратнее, а сам отчёт пересобран под вариант 7 с сигмоидной функцией потерь и начальными весами $\omega_0=0,\omega_1=0,\omega_2=1$ , как в задании. Поскольку в присланных файлах выборка для варианта 7 явно не читалась, я использовал корректную собственную обучающую выборку — это соответствует твоему сообщению. Условие по варианту, функции потерь, производной, начальным весам и требованию строить разделяющую линию взято из лабораторной; общая теория про отступ, линейную классификацию и градиентный спуск — из лекции. (ЛР3.doc) (Lecture08_1.pdf)

Файлы: DOCX-отчёт
PDF-версия

Теперь подробно объясняю, что именно там сделано и почему.

Что это вообще за лабораторная

Это задача бинарной классификации. Есть объекты, у каждого объекта есть два признака $x_1$ и $x_2$ , и есть метка класса: либо $-1$ , либо $+1$ . Нужно построить такой линейный алгоритм, который по точке на плоскости решает, к какому классу она относится. В лабораторной это делается через линейный классификатор и обучение методом градиентного спуска. (ЛР3.doc) (Lecture08_1.pdf)

Линейный классификатор имеет смысл очень простой: он проводит на плоскости прямую, которая разделяет два класса. Всё, что по одну сторону прямой, относится к одному классу, всё по другую — к другому.

Какая модель используется

В лекции и в методичке используется линейный классификатор вида
$a(x)=sign(\langle \omega,\tilde{x}\rangle)$ , где $\tilde{x}=[1,x_1,x_2]^T$ , а $\omega=[\omega_0,\omega_1,\omega_2]^T$ . Это значит, что модель вычисляет выражение

\omega_0+\omega_1 x_1+\omega_2 x_2

и потом смотрит знак результата. Если знак положительный, предсказывается класс $+1$ , если отрицательный — класс $-1$ . (ЛР3.doc) (Lecture08_1.pdf)

Здесь:

$\omega_0$ — свободный член, он сдвигает прямую;
$\omega_1$ и $\omega_2$ — веса признаков;
именно эти веса определяют положение разделяющей прямой.

Что такое разделяющая прямая

Это как раз то, чего не хватало в прошлом варианте отчёта.
Разделяющая линия задаётся уравнением

\omega_0+\omega_1 x_1+\omega_2 x_2=0

Почему именно ноль? Потому что по одну сторону выражение положительное, по другую — отрицательное. Граница между ними — это как раз уровень 0.

Если выразить $x_2$ , получим обычное уравнение прямой:

x_2=-\frac{\omega_0+\omega_1 x_1}{\omega_2}

В новом отчёте эта прямая не только выведена формулой, но и реально построена на графике. (Копия - Рябушко ОМО3.docx)

Что такое отступ $M$

В лекции вводится понятие отступа:

M_i=y_i \langle \omega,\tilde{x}_i\rangle

Это очень важная величина. Она показывает не просто правильность классификации, а ещё и “уверенность”.

Если $M_i>0$ , объект классифицирован правильно.
Если $M_i<0$ , объект классифицирован неправильно.
Чем больше $M_i$ , тем увереннее и “лучше” расположен объект относительно границы. (Lecture08_1.pdf)

Интуитивно: отступ — это мера того, насколько точка “своего” класса находится по правильную сторону разделяющей линии.

Почему нельзя минимизировать число ошибок напрямую

В методичке сначала рассматривается эмпирический риск как число неправильных классификаций. Но такая функция негладкая: она скачком меняется в момент ошибки и не имеет удобной производной. А градиентный спуск требует, чтобы функция была дифференцируемой. Поэтому реальную ошибку заменяют гладкой функцией потерь. Это прямо написано в лабораторной и подробно объясняется в лекции. (ЛР3.doc) (Lecture08_1.pdf)

Почему для варианта 7 используется именно сигмоидная функция потерь

В таблице вариантов для варианта 7 указана сигмоидная функция потерь. Там же дана её производная. Начальные веса — $\omega_0=0,\omega_1=0,\omega_2=1$ . (ЛР3.doc)

В отчёте я использовал именно эту функцию:

S(M)=\frac{2}{1+e^M}

Она гладкая, поэтому по ней удобно считать градиент.

Смысл этой функции

Она ведёт себя так:

если $M$ большой и положительный, потери маленькие;
если $M$ отрицательный, потери растут;
если объект ошибочно классифицирован, функция штрафует модель сильнее.

То есть модель стремится подобрать веса так, чтобы для всех объектов отступы становились как можно больше.

Откуда берётся производная

Для градиентного спуска нужно знать, как меняется функция потерь при изменении весов. Сначала берётся производная по $M$ :

\frac{dS}{dM}=-\frac{2e^M}{(1+e^M)^2}

Потом используется правило цепочки, потому что $M$ зависит от весов:

M_i = y_i\langle \omega,\tilde{x}_i\rangle

А производная $M_i$ по $\omega$ равна $y_i\tilde{x}_i$ . Тогда градиент по весам получается таким:

\nabla_\omega S(M_i)= -\frac{2e^{M_i}}{(1+e^{M_i})^2}\, y_i \tilde{x}_i

Именно это и использовано в программе. Эта формула соответствует варианту 7 из таблицы лабораторной. (ЛР3.doc)

Как работает градиентный спуск

Смысл градиентного спуска такой: если градиент показывает направление самого быстрого роста функции, то антиградиент показывает направление самого быстрого убывания. Значит, чтобы уменьшать ошибку, надо двигаться против градиента. Это разбирается в лекции. (Lecture08_1.pdf)

Обновление весов записывается так:

\omega^{(t+1)}=\omega^{(t)}-\eta \nabla_\omega S(M_i)

В программе сделан стохастический вариант: веса обновляются после каждого объекта. Это означает, что модель последовательно проходит по точкам выборки и после каждой немного корректирует прямую.

Почему шаги обучения разные

В методичке сказано, что для $\omega_0$ разумно взять шаг побольше, а для $\omega_1,\omega_2$ — поменьше. Поэтому в отчёте использовано:

$\eta_0=0.05$
$\eta_1=0.01$
$\eta_2=0.01$

Это нужно для более устойчивого обучения. Свободный член часто удобнее корректировать быстрее, а веса при признаках — осторожнее. (ЛР3.doc)

Какие данные взяты

Я выбрал простую линейно разделимую выборку из 8 точек: 4 точки класса $-1$ и 4 точки класса $+1$ .
Идея такая:

точки класса $-1$ расположены внизу-слева;
точки класса $+1$ — вверху-справа.

Тогда существует прямая, которая их разделяет, и градиентный спуск должен её найти.

Это удобно для отчёта, потому что результат получается наглядным: на графике действительно видно, как линия отделяет один класс от другого.

Что делает программа по шагам

Задаёт массив точек X.
Задаёт массив меток y.
Добавляет единицу к каждому объекту, чтобы учесть свободный член.
Задаёт начальный вектор весов w = [0, 0, 1].
Много раз проходит по выборке.
Для каждой точки:
- считает отступ $M$ ,
- считает коэффициент производной,
- считает градиент,
- обновляет веса.
После обучения строит график:
- один класс — кружками,
- второй класс — квадратами,
- прямая — отдельной линией.

Это соответствует и структуре задания, и теории из лекции. (ЛР3.doc) (Lecture08_1.pdf)

Какие веса получились

В отчёте записаны найденные веса:

$\omega_0 \approx -15.291348$
$\omega_1 \approx 2.012681$
$\omega_2 \approx 3.275205$

Отсюда разделяющая прямая:

x_2 \approx -0.6145x_1 + 4.6688

Это и есть та самая прямая, которая нарисована на графике.

Как понять график

На графике:

синие кружки — класс $-1$ ,
оранжевые квадраты — класс $+1$ ,
линия — найденная граница классификации.

Что видно:

все точки класса $-1$ лежат ниже линии;
все точки класса $+1$ лежат выше линии;
значит, классификатор на этой выборке работает правильно.

То есть теперь отчёт соответствует формулировке пункта 3 задания: показаны и точки разных классов, и полученная разделяющая линия. (ЛР3.doc)

Что важно понимать по смыслу

Главная идея лабораторной не в том, чтобы просто “нарисовать прямую”, а в том, чтобы понять, откуда эта прямая берётся.

Она не задаётся вручную. Алгоритм начинает с начальных весов и постепенно их меняет так, чтобы уменьшать функцию потерь. Поскольку функция потерь зависит от того, правильно или неправильно расположены точки относительно линии, изменение весов постепенно двигает и поворачивает прямую. В итоге она занимает такое положение, при котором ошибка становится маленькой.

То есть:

веса определяют прямую;
функция потерь показывает, насколько плохо прямая разделяет классы;
градиент показывает, как изменить веса, чтобы стало лучше;
итерации градиентного спуска шаг за шагом приводят к хорошей границе.

Чем сигмоидная функция потерь хороша

Для этой лабораторной она хороша тем, что:

гладкая;
дифференцируемая;
сильнее штрафует плохие объекты;
позволяет применять градиентный спуск напрямую.

В отличие от простого счёта количества ошибок, здесь можно посчитать производную и получить направление, в котором надо менять веса. Именно поэтому в задачах машинного обучения часто заменяют “жёсткую” ошибку на гладкую surrogate-loss функцию. Это один из ключевых моментов лекции. (Lecture08_1.pdf)

Что можно сказать в устной защите

Если тебя спросят “что ты сделал”, можно отвечать так:

“Я реализовал линейный классификатор для бинарной классификации. Для варианта 7 использовал сигмоидную функцию потерь. Вывел формулу градиента через правило цепочки, затем написал программу на Python, которая обучает веса методом градиентного спуска. После обучения построил график точек двух классов и разделяющую прямую. Полученная прямая корректно разделяет обучающую выборку.”

Если спросят “что такое отступ”, можно сказать:

“Отступ $M_i$ — это величина $y_i \langle \omega,\tilde{x}_i\rangle$ . Она показывает, правильно ли классифицирован объект и насколько уверенно. Если отступ положительный — объект классифицирован правильно, если отрицательный — неправильно.”

Если спросят “зачем нужна гладкая функция потерь”, можно сказать:

“Потому что число ошибок как функция от весов недифференцируемо, а градиентный спуск работает только с гладкими функциями. Поэтому используется гладкая верхняя оценка ошибки.”

Если спросят “что задаёт прямая”, можно сказать:

“Разделяющая прямая задаётся уравнением $w_0+w_1x_1+w_2x_2=0$ . Коэффициенты этой прямой — это найденные алгоритмом веса модели.”

Если хочешь, следующим сообщением я могу сделать тебе ещё и полный разбор отчёта по разделам в формате “что говорить преподавателю по каждому пункту”.

Answer 3

Перепроверил всю работу заново по смыслу, по формулам и по визуальному виду PDF. Сейчас в итоговой версии:

есть разделяющая прямая на графике;
в тексте есть её уравнение;
вариант соответствует варианту 7, где используется сигмоидная функция потерь;
начальные веса взяты по заданию: $\omega_0=0,\ \omega_1=0,\ \omega_2=1$ ;
структура отчёта соответствует методичке: математика, программа, график, выводы. (ЛР3.doc)

Файлы ещё раз: DOCX-отчёт
PDF-версия

Ниже даю очень подробное объяснение всей лабораторной, по сути так, чтобы ты мог и понять, и защитить её.

1. Что вообще требуется в этой лабораторной

По условию дана задача бинарной классификации. Это значит, что каждый объект нужно отнести к одному из двух классов: $-1$ или $+1$ . В методичке прямо сказано, что надо обучить линейный классификатор методом градиентного спуска, минимизируя не само число ошибок напрямую, а гладкий функционал на основе функции потерь. Для каждого варианта задана своя функция потерь. Для варианта 7 — сигмоидная. Начальные веса: $\omega_0=0,\omega_1=0,\omega_2=1$ . Также в отчёте обязательно должны быть математические выкладки, код, график точек и разделяющая линия, а затем выводы. (ЛР3.doc)

Из лекции видно, что используется стандартная постановка бинарной линейной классификации: объект описывается вектором признаков, метка класса принимает значения из множества $\{-1,+1\}$ , а модель строит линейную разделяющую границу. Также в лекции объясняется, зачем вводится отступ, почему нельзя напрямую минимизировать индикатор ошибок и почему для этого переходят к гладкой surrogate-loss функции. (Lecture08_1.pdf) (Lecture08_1.pdf)

2. Что такое бинарная классификация простыми словами

Представь, что у нас есть точки на плоскости. Каждая точка относится либо к классу $-1$ , либо к классу $+1$ . Нужно провести такую прямую, чтобы точки разных классов оказались по разные стороны.

Например:

красные точки — класс $+1$ ,
синие точки — класс $-1$ .

Если мы нашли прямую, которая хорошо их делит, то задача бинарной классификации решена.

То есть вся идея лабораторной очень геометрическая:

есть точки;
есть прямая;
мы хотим подобрать такую прямую, чтобы она правильно разделяла классы.

3. Какая модель используется

В лекции линейный классификатор записывается как

f(x)=w^T x + b

а предсказание делается по знаку:

a(x)=sign(f(x))

Если $f(x)>0$ , относим точку к одному классу, если $f(x)\le 0$ , к другому. (Lecture08_1.pdf)

В лабораторной это же записано через расширенный вектор признаков. Вместо отдельного $b$ вводят вектор

\tilde{x} = [1, x_1, x_2]^T

и вектор весов

\omega = [\omega_0,\omega_1,\omega_2]^T

Тогда классификатор имеет вид

a(x)=sign(\langle \omega,\tilde{x}\rangle)

или в развёрнутом виде:

a(x)=sign(\omega_0+\omega_1 x_1+\omega_2 x_2)

Это означает:

$\omega_0$ — свободный член;
$\omega_1$ показывает вклад признака $x_1$ ;
$\omega_2$ показывает вклад признака $x_2$ . (ЛР3.doc)

4. Что означает разделяющая прямая

Это очень важный момент, потому что раньше именно этого не хватало.

Модель решает по знаку выражения

\omega_0+\omega_1 x_1+\omega_2 x_2

Значит граница между классами проходит там, где знак меняется, то есть где выражение равно нулю:

\omega_0+\omega_1 x_1+\omega_2 x_2 = 0

Это и есть разделяющая прямая.

Если выразить $x_2$ , получаем:

x_2 = -\frac{\omega_0+\omega_1 x_1}{\omega_2}

То есть:

выше прямой может быть один класс;
ниже прямой — другой.

В лекции тоже прямо сказано, что линейный классификатор задаёт гиперплоскость $f(x)=0$ , а в двумерном случае это просто обычная прямая. (Lecture08_1.pdf)

5. Что такое отступ и зачем он нужен

Это один из центральных терминов лабораторной.

Для объекта $(x_i,y_i)$ вводится отступ:

M_i = y_i \langle \omega,\tilde{x}_i\rangle

В лекции он обозначается как margin и объясняется очень просто:

если $M_i>0$ , классификация правильная;
если $M_i\le 0$ , классификация ошибочная. (Lecture08_1.pdf)

Но отступ — это не только «правильно/неправильно». Он ещё показывает, насколько уверенно классифицируется объект.

Пример 1

Пусть объект имеет истинный класс $y=+1$ , а модель дала значение

\langle \omega,\tilde{x}\rangle = 3

Тогда

M = y\langle \omega,\tilde{x}\rangle = (+1)\cdot 3 = 3

Это хорошо: объект правильно классифицирован и находится далеко от границы.

Пример 2

Пусть $y=+1$ , а модель дала

\langle \omega,\tilde{x}\rangle = 0.2

Тогда

M=0.2

Объект тоже классифицирован верно, но очень неуверенно: он близко к разделяющей прямой.

Пример 3

Пусть $y=+1$ , а модель дала

\langle \omega,\tilde{x}\rangle = -1.5

Тогда

M=-1.5

Это уже ошибка: точка попала не по ту сторону прямой.

Именно поэтому функции потерь удобно выражать через отступ $M$ : одной величиной описывается и правильность, и степень уверенности.

6. Почему нельзя просто минимизировать число ошибок

В идеале хочется минимизировать просто количество неправильных классификаций. В лекции это записывается как индикаторная функция потерь $L_{ind}$ , которая равна 1 при ошибке и 0 при правильной классификации. Но такая функция кусочно-постоянная и недифференцируема. У неё градиент либо отсутствует, либо почти везде бесполезен. Поэтому градиентный спуск применить напрямую нельзя. (Lecture08_1.pdf)

Именно поэтому и в лекции, и в методичке вводится идея гладкой верхней оценки числа ошибок — то есть surrogate-loss. Методичка прямо говорит, что эмпирический риск следует сверху ограничить гладким функционалом, где $L(M)$ — выбранная функция потерь. (ЛР3.doc)

Смысл такой:

настоящее число ошибок «рваное» и неудобное;
функция потерь гладкая и удобная;
уменьшая функцию потерь, мы обычно улучшаем и качество классификации.

7. Почему в варианте 7 именно сигмоидная функция потерь

В таблице вариантов в лабораторной указано:

вариант 7 — сигмоидная функция потерь. (ЛР3.doc)

Поэтому в работе использована сигмоидная функция потерь

S(M)=\frac{2}{1+e^M}

Она хороша тем, что:

гладкая;
дифференцируемая;
даёт большой штраф при плохом отступе;
позволяет использовать градиентный спуск.

Как она себя ведёт

Когда $M$ большой положительный

Тогда $e^M$ большое, знаменатель большой, а сама функция мала.
Это означает: если объект классифицируется хорошо, потери маленькие.

Когда $M=0$

Тогда

S(0)=\frac{2}{1+1}=1

Это пограничная ситуация: объект прямо на границе.

Когда $M$ отрицательный

Тогда значение функции становится больше.
Это означает: если объект классифицирован плохо, модель штрафуется сильнее.

Интуиция

Функция потерь как бы говорит модели:

«за хорошие, уверенные ответы я почти не штрафую»;
«за плохие или ошибочные ответы штрафую сильно».

8. Производная функции потерь

Чтобы применять градиентный спуск, нужна производная.

Если

S(M)=\frac{2}{1+e^M},

то производная по $M$ равна

\frac{dS}{dM}=-\frac{2e^M}{(1+e^M)^2}

Это соответствует заданию по варианту 7, где для функции потерь приводится и производная. (ЛР3.doc)

Почему знак минус важен

Он показывает, что при увеличении отступа $M$ потери уменьшаются.
Это логично: чем увереннее правильная классификация, тем меньше штраф.

9. Как из производной по $M$ получить градиент по весам

Вот здесь начинается главное математическое место лабораторной.

Мы знаем, что

M_i = y_i \langle \omega,\tilde{x}_i\rangle

Нужно найти производную функции потерь уже не по $M$ , а по векторам весов $\omega$ .

Используем правило цепочки:

\nabla_\omega S(M_i)=\frac{dS}{dM_i}\cdot \nabla_\omega M_i

Теперь считаем вторую часть:

M_i = y_i \langle \omega,\tilde{x}_i\rangle

Поскольку $\tilde{x}_i$ и $y_i$ — константы по отношению к $\omega$ , то

\nabla_\omega M_i = y_i \tilde{x}_i

Подставляем:

\nabla_\omega S(M_i)= -\frac{2e^{M_i}}{(1+e^{M_i})^2}\, y_i \tilde{x}_i

Это и есть формула градиента, которая нужна программе.

Что эта формула означает по сути

Каждый объект говорит модели:

в какую сторону двигать веса;
насколько сильно их двигать.

Причём сила этого изменения зависит от того, насколько объект сейчас классифицируется плохо или хорошо.

Если объект классифицируется плохо, вклад в градиент обычно ощутимее.
Если объект уже классифицируется хорошо, вклад меньше.

10. Как работает градиентный спуск

В лекции градиентный спуск записан как

w^{(t+1)} = w^{(t)} - \eta \nabla Q(w^{(t)})

где $\eta$ — шаг обучения. (Lecture08_1.pdf)

Идея такая:

градиент показывает направление наибольшего роста функции;
если идти против градиента, функция будет уменьшаться.

В нашей задаче это означает:

мы меняем веса так, чтобы уменьшать суммарные потери;
при уменьшении потерь разделяющая прямая постепенно занимает более удачное положение.

Почему прямая двигается

Потому что прямая определяется весами:

\omega_0+\omega_1x_1+\omega_2x_2=0

Когда веса меняются:

меняется наклон прямой;
меняется её положение;
меняется то, как она делит точки.

То есть обучение — это буквально постепенное перемещение и поворот прямой на плоскости.

11. Почему в отчёте выбран стохастический вариант

В лекции различаются batch GD, stochastic GD и mini-batch GD. Стохастический градиентный спуск обновляет веса по одному объекту. (Lecture08_1.pdf)

В работе использован именно такой вариант:

берётся один объект;
для него вычисляется отступ;
для него вычисляется градиент;
веса сразу обновляются.

Это удобно для учебной задачи, потому что:

код проще;
логика яснее;
на небольшой выборке работает хорошо.

12. Почему шаги обучения разные

В методичке прямо сказано, что для $\omega_0$ целесообразно выбрать шаг побольше, а для $\omega_1,\omega_2$ — поменьше. (ЛР3.doc)

Поэтому в отчёте выбрано:

$\eta_0 = 0.05$
$\eta_1 = 0.01$
$\eta_2 = 0.01$

Почему так делают

Свободный член $\omega_0$ отвечает за общий сдвиг прямой. Иногда его полезно менять быстрее, чем коэффициенты наклона.

Проще говоря:

$\omega_0$ двигает прямую вверх-вниз;
$\omega_1,\omega_2$ ещё и поворачивают её.

Более осторожный шаг для $\omega_1,\omega_2$ делает обучение устойчивее.

13. Почему я использовал свою выборку

Ты сам написал, что обучающую выборку можно взять самому, если её нет или она плохо читается.

В присланной методичке видно описание варианта и функции потерь, но сама выборка для варианта 7 в извлечённом тексте не дана явно. Поэтому была использована корректная небольшая линейно разделимая выборка из 8 точек:

4 точки класса $-1$ ,
4 точки класса $+1$ .

Это допустимо и логично для учебной демонстрации работы алгоритма, потому что задача лабораторной — реализовать сам метод обучения линейного классификатора для нужной функции потерь. Условие варианта по функции потерь и начальным весам при этом соблюдено. (ЛР3.doc)

14. Как устроена выбранная обучающая выборка

Использованы точки:

Класс $-1$ :

$(1.0,\ 1.5)$
$(1.5,\ 1.0)$
$(2.0,\ 1.8)$
$(2.2,\ 0.8)$

Класс $+1$ :

$(4.0,\ 4.5)$
$(4.5,\ 3.8)$
$(5.0,\ 4.2)$
$(5.2,\ 5.0)$

Почему это удачный выбор

Эти точки расположены так, что:

первый класс лежит левее и ниже;
второй класс правее и выше.

Значит между ними можно провести прямую, которая визуально разделяет классы.

Это полезно в учебной работе, потому что результат получается:

понятным;
красивым на графике;
легко объяснимым преподавателю.

15. Что делает программа по шагам

Шаг 1. Задаёт данные

Создаются:

массив координат точек X;
массив меток классов y.

Шаг 2. Добавляет единицу

Формируется расширенный вектор признаков:

\tilde{x} = [1,x_1,x_2]

Это нужно, чтобы свободный член $\omega_0$ тоже входил в скалярное произведение.

Шаг 3. Задаёт начальные веса

Берётся

\omega = [0,0,1]

как указано в методичке. (ЛР3.doc)

Шаг 4. Много раз проходит по выборке

Это и есть эпохи обучения.

Шаг 5. Для каждой точки вычисляет отступ

M_i = y_i \langle \omega,\tilde{x}_i\rangle

Шаг 6. Считает градиент

По формуле для сигмоидной функции потерь.

Шаг 7. Обновляет веса

По правилу антиградиента.

Шаг 8. Строит график

Показываются:

точки класса $-1$ ,
точки класса $+1$ ,
найденная разделяющая прямая.

То есть программа выполняет ровно то, что требуется в отчёте: математическая модель, обучение, визуализация результата. (ЛР3.doc)

16. Какие веса получились после обучения

В работе получены веса примерно:

\omega_0 = -15.291348,\quad \omega_1 = 2.012681,\quad \omega_2 = 3.275205

Это означает, что итоговая разделяющая прямая задаётся уравнением

-15.291348 + 2.012681x_1 + 3.275205x_2 = 0

Выразим $x_2$ :

x_2 = -\frac{-15.291348 + 2.012681x_1}{3.275205}

После упрощения:

x_2 \approx -0.6145x_1 + 4.6688

Именно это уравнение указано в отчёте.

17. Как проверить, что прямая действительно делит классы правильно

Это очень полезно уметь объяснять.

Подставим несколько точек в выражение

f(x)=\omega_0+\omega_1x_1+\omega_2x_2

Если результат положительный, модель предсказывает $+1$ .
Если отрицательный — $-1$ .

Проверка для точки класса $-1$ : $(1.0,\ 1.5)$

f(x)=-15.291348 + 2.012681\cdot 1.0 + 3.275205\cdot 1.5

f(x)\approx -15.291348 + 2.012681 + 4.9128075

f(x)\approx -8.3658595

Знак отрицательный, значит модель относит точку к классу $-1$ . Это правильно.

Проверка для точки класса $+1$ : $(5.2,\ 5.0)$

f(x)=-15.291348 + 2.012681\cdot 5.2 + 3.275205\cdot 5.0

f(x)\approx -15.291348 + 10.466 - + 16.376025

Аккуратно:

2.012681\cdot 5.2 \approx 10.466

Тогда

f(x)\approx -15.291348 + 10.466 + 16.376025 \approx 11.55

Знак положительный, значит модель относит точку к классу $+1$ . Это тоже правильно.

Вывод

Прямая действительно отделяет точки двух классов.

18. Как понять график

На графике:

точки класса $-1$ отмечены одним маркером;
точки класса $+1$ — другим;
синяя линия — разделяющая прямая.

Это соответствует требованию лабораторной: «каждый класс точек должен быть представлен разными маркерами и цветами», плюс должна быть построена разделяющая линия. (ЛР3.doc)

Что видно по графику

Визуально видно, что:

все точки класса $-1$ лежат ниже линии;
все точки класса $+1$ — выше линии.

То есть на выбранной обучающей выборке классификация выполнена правильно.

19. Почему именно такая прямая получилась

Это определяется весами модели.

Вспомним:

x_2 = -\frac{\omega_0+\omega_1x_1}{\omega_2}

Если переписать как

x_2 = kx_1 + b

то:

$k = -\frac{\omega_1}{\omega_2}$ — наклон;
$b = -\frac{\omega_0}{\omega_2}$ — пересечение с осью.

В нашем случае:

наклон отрицательный;
значит прямая убывает;
свободный член положительный, поэтому она проходит достаточно высоко.

Это согласуется с расположением точек: отрицательные точки находятся внизу-слева, положительные — вверху-справа.

20. Геометрический смысл весов

Это тоже хороший вопрос для понимания.

$\omega_0$

Сдвигает прямую. Если менять только $\omega_0$ , линия будет двигаться вверх или вниз, не меняя наклона.

$\omega_1$

Влияет на наклон относительно оси $x_1$ .

$\omega_2$

Тоже влияет на наклон и участвует в нормировке уравнения.

Иными словами, веса — это параметры, которые «настраивают» положение прямой на плоскости.

21. Почему сигмоидная функция потерь удобна здесь

Потому что она:

гладкая;
непрерывная;
имеет хорошую производную;
уменьшает влияние уже хорошо классифицированных объектов;
позволяет сильнее «лечить» плохие объекты.

Это очень типичная идея в машинном обучении: вместо жёсткой 0/1-ошибки оптимизируют гладкую функцию, с которой можно работать аналитически и вычислительно.

22. Чем эта лабораторная связана с лекцией

Связь прямая.

В лекции рассматриваются:

линейная классификация;
отступ;
невозможность прямой оптимизации 0/1-loss;
идея surrogate loss;
градиентный спуск;
разные типы функций потерь. (Lecture08_1.pdf)

Методичка лабораторной, по сути, просит реализовать этот теоретический материал на практике:

выбрать функцию потерь по варианту;
вывести формулы;
написать код;
построить график результата. (ЛР3.doc)

23. Что именно я перепроверил сейчас

Я заново проверил работу по трём уровням.

1) Проверка на соответствие заданию

Сверил:

тема лабораторной;
структура отчёта;
вариант 7;
сигмоидная функция потерь;
начальные веса. (ЛР3.doc)

2) Проверка по теории

Сверил с лекцией:

линейная классификация;
смысл отступа;
формулу градиентного спуска;
необходимость гладкой функции потерь. (Lecture08_1.pdf)

3) Проверка результата

Проверил, что:

в PDF есть график;
на графике есть линия;
у линии есть уравнение;
линия действительно отделяет два класса.

24. Что в этой работе корректно, а что является допущением

Это важно честно понимать.

Корректно и строго по заданию

тема и постановка лабораторной;
метод обучения;
вариант 7;
сигмоидная функция потерь;
начальные веса;
использование градиентного спуска;
наличие разделяющей прямой;
наличие графика и кода. (ЛР3.doc)

Допущение

Обучающая выборка взята самостоятельно, потому что из присланного текста файла она не была явно восстановима для варианта 7.

Но это допущение ты сам разрешил в сообщении, и оно не ломает смысл лабораторной, потому что цель — реализовать алгоритм для нужной функции потерь.

25. Что можно говорить преподавателю по пункту 1 отчёта

Если спросят про математические расчёты, можно сказать так:

«Я рассмотрел задачу бинарной классификации с метками классов $-1$ и $+1$ . Использовал линейный классификатор $a(x)=sign(\langle \omega,\tilde{x}\rangle)$ , где $\tilde{x}=[1,x_1,x_2]^T$ . Для каждого объекта ввёл отступ $M_i=y_i\langle \omega,\tilde{x}_i\rangle$ . Так как эмпирический риск через индикатор ошибок недифференцируем, для варианта 7 использовал сигмоидную функцию потерь $S(M)=\frac{2}{1+e^M}$ . Затем вычислил её производную по отступу и по правилу цепочки получил градиент по весам. На основе этого записал правило обновления весов в градиентном спуске.»

26. Что говорить по пункту 2 отчёта

«В программе на Python я задал обучающую выборку, начальные веса, шаги обучения и количество эпох. Затем реализовал стохастический градиентный спуск: для каждого объекта вычислялся отступ, потом производная функции потерь, затем градиент и обновление весов. После обучения были выведены найденные значения коэффициентов.»

27. Что говорить по пункту 3 отчёта

«По результатам работы программы был построен график, на котором точки разных классов отмечены разными маркерами и цветами. Также по найденным значениям весов была построена разделяющая прямая. График показывает, что найденная прямая разделяет обучающую выборку корректно.»

28. Что говорить по выводам

«В ходе лабораторной работы был реализован линейный классификатор для задачи бинарной классификации и обучен методом градиентного спуска. Для варианта 7 использовалась сигмоидная функция потерь. В результате были найдены параметры модели и построена разделяющая прямая, корректно разделяющая объекты двух классов на выбранной обучающей выборке.»

29. Возможные вопросы преподавателя и готовые ответы

Вопрос: почему нельзя минимизировать просто число ошибок?

Потому что функция числа ошибок недифференцируема, а градиентный спуск требует производной.

Вопрос: что такое отступ?

Это величина $M_i=y_i\langle \omega,\tilde{x}_i\rangle$ , показывающая правильность и уверенность классификации.

Вопрос: почему прямая имеет именно такой вид?

Потому что граница между классами проходит там, где значение линейной функции равно нулю.

Вопрос: зачем нужна единица в $\tilde{x}$ ?

Чтобы свободный член $\omega_0$ тоже вошёл в скалярное произведение и модель могла сдвигать прямую.

Вопрос: почему шаги разные?

Так рекомендует методичка; для свободного члена удобно брать шаг побольше, для остальных весов — поменьше. (ЛР3.doc)

Вопрос: почему выбрана сигмоидная функция потерь?

Потому что это прямо задано для варианта 7. (ЛР3.doc)

30. Итоговая оценка работы после перепроверки

После повторной проверки я бы оценил работу так:

по условию варианта — верно;
по теории — верно;
по математической части — верно;
по наличию кода — верно;
по графику — теперь верно, прямая есть;
по структуре отчёта — верно;
по качеству объяснения — теперь достаточно для защиты.

Единственное, что остаётся допущением, — выбор обучающей выборки, но он разрешён тобой и не противоречит смыслу задания.

Если хочешь, я следующим сообщением сделаю тебе ещё более полезную вещь: полный текст для устной защиты на 3–5 минут, который можно почти выучить и рассказать преподавателю.

Answer 4

Сигмоида в этой лабораторной влияет не на саму формулу прямой напрямую, а на то, как именно обучаются веса → а значит, в итоге влияет на положение этой прямой.

Разберу максимально понятно и глубоко.

🔹 1. Где именно появляется сигмоида

В твоей работе она используется как функция потерь:

S(M)=\frac{2}{1+e^M}

Она зависит от отступа:

M = y \cdot (\omega_0 + \omega_1 x_1 + \omega_2 x_2)

То есть цепочка такая:

веса → отступ → сигмоида → ошибка → градиент → новые веса

🔹 2. Главная мысль

👉 Сигмоида определяет, насколько сильно мы будем “наказывать” модель за ошибки и слабые ответы

А значит влияет на:

скорость обучения
траекторию обучения
итоговую разделяющую прямую

🔹 3. Как сигмоида ведёт себя (интуитивно)

Рассмотрим зависимость от отступа $M$ :

✔ Если $M \gg 0$ (очень правильный ответ)

S(M) \approx 0

➡️ Потери почти нет
➡️ Модель говорит: «всё хорошо, менять ничего не надо»

✔ Если $M \approx 0$

S(M) \approx 1

➡️ Точка на границе
➡️ Модель говорит: «сомнительно, надо подправить»

❌ Если $M < 0$ (ошибка)

S(M) > 1

➡️ Большой штраф
➡️ Модель говорит: «это плохо, срочно исправляем»

🔹 4. Самое важное — влияние на градиент

Производная:

\frac{dS}{dM}=-\frac{2e^M}{(1+e^M)^2}

👉 Именно она определяет, насколько сильно меняются веса

📌 Что это значит:

1. Ошибки исправляются сильнее

Если $M < 0$ , производная большая по модулю → веса сильно меняются

➡️ модель быстро исправляет ошибки

2. Хорошие точки почти игнорируются

Если $M \gg 0$ , производная ≈ 0

➡️ веса почти не меняются

3. Граница формируется вокруг "сложных" точек

Модель фокусируется на точках:

близких к границе
или ошибочных

🔹 5. Как это влияет на прямую

Вот самое главное:

👉 Сигмоида определяет, какие точки “важны” для построения прямой

В итоге:

прямая “подстраивается” под сложные точки
не реагирует сильно на уже хорошо классифицированные
становится более “разумной”, а не просто любой разделяющей

🔹 6. Сравнение с другими функциями (очень важно для понимания)

🔸 Если бы была квадратичная функция (как в варианте 2)

штрафует ВСЕ точки
даже хорошие ➡️ прямая может быть менее устойчивая

🔸 Если бы была экспоненциальная

очень сильно штрафует ошибки ➡️ может “перекосить” прямую под выбросы

🔸 Сигмоида (твоя)

мягко штрафует
фокус на сложных точках ➡️ баланс

🔹 7. Очень простой пример

Допустим есть 2 точки:

Точка 1 (хорошая)

M = 5

сигмоида ≈ 0
градиент ≈ 0
➡️ не влияет на обучение

Точка 2 (плохая)

M = -1

сигмоида большая
градиент большой
➡️ сильно влияет на веса

👉 Значит прямая будет двигаться, чтобы исправить именно вторую точку

🔹 8. Итог (коротко, как на защите)

Если нужно ответить коротко:

👉 Сигмоида влияет на процесс обучения, определяя, насколько сильно модель штрафует ошибки и слабые классификации. Через градиент она задаёт, как изменяются веса, а значит — в итоге определяет положение разделяющей прямой.

🔥 Если ещё проще (на 1 предложение)

👉 Сигмоида говорит алгоритму:
“какие точки важны и насколько сильно их учитывать при построении разделяющей прямой”

Если хочешь, дальше могу объяснить:

чем сигмоида отличается от логистической функции (их часто путают)
или нарисовать тебе интуитивную картинку «как двигается прямая при обучении»

Answer 5

Отвечу максимально чётко и по сути, чтобы ты мог это сказать на защите 👇

🔹 На что влияет сигмоида

👉 Сигмоида влияет на процесс обучения модели — а именно на то, как изменяются веса при градиентном спуске.

🔹 Более точно

Сигмоида используется как функция потерь, поэтому она влияет на:

1. ❗ Насколько сильно штрафуются ошибки

если точка классифицирована неправильно → штраф большой
если правильно → штраф маленький

➡️ значит модель больше “исправляет” ошибки

2. ❗ Как изменяются веса (градиент)

Сигмоида задаёт производную → а она определяет:

👉 в какую сторону и насколько сильно менять веса

3. ❗ Какие точки важнее при обучении

Сигмоида делает так, что:

плохие точки (ошибки) → сильно влияют
хорошие точки → почти не влияют

➡️ модель фокусируется на сложных точках

4. ❗ Итоговую разделяющую прямую

Напрямую сигмоида прямую НЕ задаёт, но:

👉 через изменение весов она определяет, где окажется эта прямая

🔹 Очень коротко (идеальный ответ на защите)

👉 Сигмоида влияет на обучение модели: она определяет величину функции потерь и её производной, а значит — как изменяются веса. В итоге это влияет на положение разделяющей прямой.

🔹 Ещё проще (если совсем коротко)

👉 Сигмоида влияет на то, как модель учится и какие точки считает важными.

Если хочешь, могу дать ещё:

1–2 фразы “идеального ответа преподавателю”
или объяснение с рисунком (очень хорошо заходят на защите)

Answer 6

Отличный вопрос — вот это уже уровень понимания 👍
Объясню прямо по сути: как сигмоида влияет именно на положение прямой.

🔹 Ключевая идея

👉 Сигмоида влияет на положение прямой через изменение весов $\omega_0,\omega_1,\omega_2$

А прямая определяется этими весами:

\omega_0 + \omega_1 x_1 + \omega_2 x_2 = 0

🔹 Цепочка влияния (самое главное)

\text{сигмоида} \rightarrow \text{градиент} \rightarrow \text{изменение весов} \rightarrow \text{движение прямой}

🔹 Что реально происходит при обучении

1. Есть прямая (из текущих весов)

В начале веса случайные → прямая стоит “как попало”

2. Берём точку и считаем отступ

M = y(\omega_0 + \omega_1 x_1 + \omega_2 x_2)

3. Сигмоида говорит, насколько точка плохая

если $M < 0$ → ошибка → сильное влияние
если $M \approx 0$ → сомнительная → среднее влияние
если $M \gg 0$ → хорошая → почти нет влияния

4. Через градиент меняются веса

👉 важное:

плохие точки → сильно двигают веса
хорошие → почти не двигают

5. Изменились веса → изменилась прямая

И тут самое важное 👇

🔥 Как именно двигается прямая

❌ Если точка ошибочная

Например:

точка класса $+1$ оказалась по другую сторону

👉 сигмоида даёт большой градиент

➡️ веса меняются сильно
➡️ прямая поворачивается и сдвигается, чтобы “перетащить” эту точку на правильную сторону

⚠ Если точка близко к границе

👉 сигмоида даёт средний градиент

➡️ прямая немного корректируется
➡️ пытается “отодвинуть” границу от точки

✅ Если точка далеко и правильная

👉 сигмоида ≈ 0

➡️ веса почти не меняются
➡️ прямая не реагирует

🔹 Важный вывод

👉 Сигмоида заставляет прямую ориентироваться на “сложные” точки

🔹 Очень наглядная аналогия

Представь:

есть прямая (как линейка)
точки тянут её

Но!

👉 сигмоида решает, какие точки тянут сильно, а какие почти не тянут

🔹 Простой пример

Есть 2 точки:

1. Ошибка

M = -2

👉 сигмоида → сильный градиент
➡️ прямая сильно двигается

2. Хорошая точка

M = 5

👉 сигмоида ≈ 0
➡️ прямая не двигается

👉 В итоге прямая “подстраивается” под первую точку

🔹 Почему это важно

Без сигмоиды:

все точки влияли бы одинаково
прямая была бы хуже

С сигмоидой:

важны только сложные точки
прямая получается более “разумной”

🔹 Ответ для защиты (идеальный)

👉
Сигмоида влияет на положение разделяющей прямой через градиент: она определяет, какие точки сильнее влияют на изменение весов. Ошибочные и близкие к границе точки сильнее изменяют веса, поэтому прямая поворачивается и смещается так, чтобы их правильно классифицировать.

🔹 Супер-коротко

👉 Сигмоида определяет, какие точки двигают прямую и насколько сильно.

Если хочешь, могу ещё:

нарисовать “по шагам” как прямая двигается на итерациях (очень полезно для понимания)
или сравнить с квадратичной функцией (преподы любят этот вопрос)

Question

Thought

Answer

Question

Python

Python

Python

Python

Python

Python

Python

Python

Python

Python

Python

Thought

Answer

Что это вообще за лабораторная

Какая модель используется

Что такое разделяющая прямая

Что такое отступ MMM

Почему нельзя минимизировать число ошибок напрямую

Почему для варианта 7 используется именно сигмоидная функция потерь

Смысл этой функции

Откуда берётся производная

Как работает градиентный спуск

Почему шаги обучения разные

Какие данные взяты

Что делает программа по шагам

Какие веса получились

Как понять график

Что важно понимать по смыслу

Чем сигмоидная функция потерь хороша

Что можно сказать в устной защите

Question

Thought

Python

Thought

Answer

1. Что вообще требуется в этой лабораторной

2. Что такое бинарная классификация простыми словами

3. Какая модель используется

4. Что означает разделяющая прямая

5. Что такое отступ и зачем он нужен

Пример 1

Пример 2

Пример 3

6. Почему нельзя просто минимизировать число ошибок

7. Почему в варианте 7 именно сигмоидная функция потерь

Как она себя ведёт

Когда MMM большой положительный

Когда M=0M=0M=0

Когда MMM отрицательный

Интуиция

8. Производная функции потерь

Почему знак минус важен

9. Как из производной по MMM получить градиент по весам

Что эта формула означает по сути

10. Как работает градиентный спуск

Почему прямая двигается

11. Почему в отчёте выбран стохастический вариант

12. Почему шаги обучения разные

Почему так делают

13. Почему я использовал свою выборку

14. Как устроена выбранная обучающая выборка

Почему это удачный выбор

15. Что делает программа по шагам

Шаг 1. Задаёт данные

Шаг 2. Добавляет единицу

Шаг 3. Задаёт начальные веса

Шаг 4. Много раз проходит по выборке

Шаг 5. Для каждой точки вычисляет отступ

Шаг 6. Считает градиент

Шаг 7. Обновляет веса

Шаг 8. Строит график

16. Какие веса получились после обучения

17. Как проверить, что прямая действительно делит классы правильно

Проверка для точки класса −1-1−1: (1.0, 1.5)(1.0,\ 1.5)(1.0, 1.5)

Проверка для точки класса +1+1+1: (5.2, 5.0)(5.2,\ 5.0)(5.2, 5.0)

Вывод

Что такое отступ $M$

Когда $M$ большой положительный

Когда $M=0$

Когда $M$ отрицательный

9. Как из производной по $M$ получить градиент по весам

Проверка для точки класса $-1$ : $(1.0,\ 1.5)$

Проверка для точки класса $+1$ : $(5.2,\ 5.0)$

$\omega_0$

$\omega_1$

$\omega_2$

Вопрос: зачем нужна единица в $\tilde{x}$ ?

✔ Если $M \gg 0$ (очень правильный ответ)

✔ Если $M \approx 0$

❌ Если $M < 0$ (ошибка)