I need to solve for the gradient of Q(M), which seems to be (1−M)2. At M=1, the loss is 0. The derivative Q′(M) is −2(1−M), and at M=1, it's 0. Since the user asks for the gradient at a point, I’ll compute the gradient value at M=0, yielding −2.
Thought for 29s
Réponse
Решение:
Значение потерь при M=1
Q(M)=(1−M)2
Подставим M=1:
Q(1)=(1−1)2=0
Ответ:0
Производная Q′(M) при M=1
Q(M)=(1−M)2
Производная:
Q′(M)=2(1−M)(−1)=−2(1−M)=2(M−1)
Теперь подставим M=1:
Q′(1)=2(1−1)=0
Ответ:0
Какую проблему решает SGD по сравнению с полным градиентным спуском?
Стохастический градиентный спуск использует не весь датасет сразу, а отдельные объекты или маленькие батчи.
Он решает проблему:
слишком дорогого вычисления полного градиента на больших данных;
медленной работы обычного градиентного спуска;
больших затрат памяти.
Ответ: SGD ускоряет обучение на больших выборках, потому что не считает градиент по всем данным сразу.
Градиент функции
f(x,y,z)=xyz+21(x2+y2+z2)
Находим частные производные:
∂x∂f=yz+x∂y∂f=xz+y∂z∂f=xy+z
Значит,
∇f(x,y,z)=(yz+x,xz+y,xy+z)
Ответ:
∇f(x,y,z)=(yz+x,xz+y,xy+z)
Найдите градиент ∇Q(M), если
M=−(w0+w1x1+w2x2)(x1,x2)=(1,0),w=(1,−1,2)
Сначала найдём M:
M=−(1+(−1)⋅1+2⋅0)=−(1−1+0)=0
Тогда
Q′(M)=2(M−1)Q′(0)=2(0−1)=−2
Если нужен именно градиент по M, то:
Ответ:−2
Если же преподаватель имел в виду градиент по весам (w0,w1,w2), тогда: