Rispondi alle domande presenti nel file

Di seguito trovi risposte sintetiche ma complete – in italiano – a tutti i quesiti elencati nel PDF. Ho mantenuto la stessa struttura per facilitare lo studio.

1. Project

Quesito	Risposta
Scelte di implementazione di progetto	In un progetto di Deep Learning le scelte chiave riguardano: architettura generale (modello, data-pipeline, training loop), gestione dell’hardware (GPU/TPU), strategia di logging/monitoraggio (TensorBoard, Weights & Biases), protocolli di versionamento (Git + DVC), criteri di validazione e di early-stopping, oltre a definire chiaramente metriche e obiettivi di business.
Dove trovare nel codice una funzione “teorica”	Normalmente si cerca la corrispondenza teoria ↔ codice partendo dal nome simbolico: es. la formula teorica `softmax(z)=exp(z)/∑exp(z)` diventa la funzione `torch.nn.Softmax`. Nella code-base puoi: 1) fare un grep del nome teorico, 2) seguire i docstring che citano la definizione matematica, 3) consultare i test unitari che spesso linkano alla sezione di teoria.
Differenza RNN vs LSTM	RNN ha una singola cella con stato `h_t`; soffre di vanishing/exploding gradients su sequenze lunghe. LSTM introduce porte (`input`, `forget`, `output`) e una cell-state `c_t` che trasporta informazioni a lungo termine, mitigando il problema dei gradienti e migliorando la capacità di memorizzazione.
Estrarre le prime due colonne di una matrice 3 × 3	`matrix[:, :2]` (NumPy slice).

2. Pre-Test

Quesito	Risposta breve
Residual Connection	$y = f(x) + x$
Supervised vs Unsupervised	Supervised: dati etichettati $(x,y)$ ; obiettivo minimizzare la perdita fra predizione e $y$ . Unsupervised: solo $x$ ; il modello scopre struttura latente (cluster, densità, rappresentazioni).
Overfitting	Il modello impara il rumore del training set e generalizza male su dati non visti.
Convoluzione (DL)	Operatore che applica un kernel localmente producendo feature map; permette condivisione di pesi e estrazione di pattern spaziali (traslazione-equivarianza).
Perché il validation set	Misura la generalizzazione durante l’addestramento, guida early-stopping e selezione di iperparametri.
Regression vs Classification	Regression: target continuo; metriche MSE/MAE. Classification: target discreto; metriche accuracy, F1, CE-loss.
Binary Cross-Entropy	$\mathcal{L}=-(y\log p + (1-y)\log(1-p))$
ReLU in codice	`torch.nn.functional.relu(x)` oppure `np.maximum(0, x)`.

3. Theory

3.1 Shallow & Deep NN

Forma analitica SNS: $\hat{y}= \sigma(W_2\,\sigma(W_1x + b_1)+b_2)$ (una hidden-layer).
Teorema di Approssimazione Universale: una rete feed-forward con un singolo hidden-layer e funzioni di attivazione non lineari può approssimare a precisione arbitraria qualsiasi funzione continua su un compatto.

3.2 Fitting & Backprop

SGD update: $\theta_{t+1}= \theta_t - \eta \,\nabla_\theta \mathcal{L}(\theta_t; x_i,y_i)$ con batch di taglia 1.
GD vs SGD: GD usa l’intero dataset (gradiente esatto); SGD usa sample (o mini-batch) ⇒ rumore stocastico, iterazioni più frequenti, maggiore capacità di escape da minimi locali.
Esempio parametri MLP: per layer densamente connesso $W\in\mathbb{R}^{m\times n}$ ⇒ #param = mn + m; gradiente w.r.t. peso $w_{ij}$ : $\partial\mathcal{L}/\partial w_{ij}= \delta_i\,h_j$ dove $\delta_i$ è l’errore back-propagato, $h_j$ l’output neurone precedente.

3.3 Performance & Regularization

Regularizzazione DL: riduce varianza del modello. Metodi: penalità $L_1/L_2$ ; dropout; data augmentation; early-stopping; weight decay; batch/layer norm.
Cos’è l’overfitting: vedi §2.
Leaky ReLU: $\text{LeakyReLU}(x)=\max(\alpha x,x)$ con $0<\alpha\ll1$ ; evita neuroni “morti” (derivata ≠ 0 per $x<0$ ).

3.4 CNNs & ResNets

Convoluzione: si veda §2.
Padding valid/same: valid = nessun padding → output più piccolo; same = padding tale da mantenere stessa dimensione.
Usi/proprietà CNN: classificazione immagini, segmentazione, visione medicale; condividono pesi, sfruttano località e traslazione-equivarianza.
Residual Block: output $y = F(x,\{W_i\}) + x$ dove $F$ è la trasformazione (conv-BN-ReLU).
Layer Normalization: normalizza attivazioni per feature nello stesso batch; stabilizza il training. Altre: Batch Norm, Instance Norm, Group Norm, RMS Norm.

3.5 Self-Supervised Learning

Dataset SSL: soli campioni $x_i$ ; le etichette pseudo-generate (p.e. in-painting, masking).
Siamese NN: due rami che condividono pesi, apprendono embedding confrontando coppie positive/negative.
Contrastive Learning: massimizza similarità fra viste della stessa istanza, minimizza fra istanze diverse; usato anche in metric-learning e retrieval.
Loss contrastiva (InfoNCE): $\mathcal{L}=-\log \frac{\exp(\text{sim}(q,k^+)/\tau)}{\sum_{j}\exp(\text{sim}(q,k_j)/\tau)}$ .
Triplet Loss: $\max\{0, d(a,p)-d(a,n)+m\}$ .
BYOL: la Target Network non fa backprop; i suoi pesi sono media esponenziale di quelli dell’Online Network.

3.6 Transformers

Ottimizzazione in RNN: Backpropagation Through Time (BPTT).
Costo di BPTT: elevato su sequenze lunghe (memoria & tempo).
Rischi: gradienti vanishing/exploding.
Seq2Seq con CNN: sì; si usa padding o masked conv per lunghezze variabili.
Attenzione (overview): meccanismo che calcola pesi $\alpha_{ij}$ di rilevanza fra token.
Variabili Self-Attention: Query (Q), Key (K), Value (V).
Significato $Q\cdot K^T$ : misura di similarità fra query e key.
Uso di Q, K, V: per generare weighted sum dei valori; nomi derivano da analogia con database (query una chiave su valori).

3.7 Generative AI Foundations

GAN: due reti (Generator G, Discriminator D) in min-max $\min_G\max_D V(D,G)$ ; perdita log-like; equilibrio di Nash quando né G né D migliorano.
Perché Wasserstein-GAN: usa distanza di Wasserstein → gradiente informativo anche quando supporti non si sovrappongono.
Problema GAN & soluzione: mode collapse; rimedi: WGAN, gradient penalty, minibatch-std, spectral norm.
VAE architettura: Encoder $q_\phi(z|x)$ , campionamento $z$ , Decoder $p_\theta(x|z)$ .
Encoder con 𝜙 diverso: separa parametri encoder/decoder.
Ruolo 𝜖 (trick di riparametrizzazione): $z=\mu+\sigma\odot\epsilon,\; \epsilon\sim\mathcal{N}(0,1)$ rende il campionamento differenziabile.

3.8 Graph Neural Networks

Edge Classification: predire etichetta su un arco (link-type, relazione).
Inductive vs Transductive: vedi testo; inductive generalizza a nuovi grafi.
Update rule GNN (message passing): $h_v^{(k+1)} = \gamma^{(k)}\Big(h_v^{(k)},\,\square_{u\in\mathcal{N}(v)}\!\! \phi^{(k)}\!\big(h_v^{(k)},h_u^{(k)},e_{uv}\big)\Big)$ .
Funzioni di aggregazione: media, somma, max-pool, attention, diag-enhancement, Kipf (norm-sum).
Attention in GCN: coefficiente $\alpha_{vu}= \text{softmax}_u\big(\text{LeakyReLU}(a^\top[h_v||h_u])\big)$ .
Svantaggio approccio spettrale: dipendenza dalla struttura del grafo (eigenbasis) ⇒ non generalizza tra grafi diversi.
GCN definizione: learning sui grafi con operatori convoluzionali basati su Laplaciano.
Message Passing: vedi update rule.

3.9 Geometric Deep Learning

Definizione: DL che rispetta simmetrie/spazi non Euclidei (grafi, manifolds).
Esempio trasformazione: traslazione-equivariante in CNN: $T_\tau f (x)=f(x-\tau)$ ; la convoluzione mantiene l’equivarianza.

3.10 Model Compression

Overview: pruning, quantization, distillation, low-rank factorization, weight sharing per ridurre memoria/latenza mantenendo accuracy.
Lottery Ticket Hypothesis: in una rete random-init esistono sub-reti “vincenti” che, con i pesi iniziali originali, raggiungono la stessa accuracy del modello completo.

3.11 Meta-Learning

Cos’è: “imparare a imparare” da molte task; rapida adattabilità con pochi dati.
Algoritmo-esempio (MAML): aggiorna parametri di base $\theta$ ottimizzando la performance post-fine-tuning su task: $\theta \leftarrow \theta - \beta\nabla_\theta \sum_{\mathcal{T}}\mathcal{L}_{\mathcal{T}}(\theta - \alpha\nabla_\theta \mathcal{L}_{\mathcal{T}})$ .
Tecnica metric-based (Prototypical Networks): embedding in spazio euclideo; classifica in base alla distanza dal prototipo (media degli support).

3.12 Seminars

Noisy Labels lecture: si studiano algoritmi robusti a etichette corrotte (loss simmetriche, bootstrapping, Co-teaching, confident learning). Modalità di rilevazione: rischio condizionato, auditing manuale assistito, confident learning.
Retrieval Augmented Generation (RAG): framework che combina un modulo di retrieval differenziabile con un generatore (p.es. seq2seq) per incorporare informazioni esterne in tempo reale e ridurre l’hallucination.

Buono studio!

Rispondi alle domande presenti nel file

Domanda

Immagine

Risposta

Domanda

Pensiero

Providing answers in Italian

Crafting the answers

Risposta

1. Project

2. Pre-Test

3. Theory

3.1 Shallow & Deep NN

3.2 Fitting & Backprop

3.3 Performance & Regularization

3.4 CNNs & ResNets

3.5 Self-Supervised Learning

3.6 Transformers

3.7 Generative AI Foundations

3.8 Graph Neural Networks

3.9 Geometric Deep Learning

3.10 Model Compression

3.11 Meta-Learning

3.12 Seminars

Condividi questa Q&A