Rispondi alle domande presenti nel file

Creato il: 29 maggio 2025

Risposto usando GPT-4o Draw da Chat01

Domanda

Possible Theory Questions.pdf

Rispondi alle domande presenti nel file

Immagine

{"prompt":"Answering questions on a computer screen with a document and pen nearby","size":"500x300"}

user-kFC5qivT9pBi6NXDmrqTk1au__4a4dc72e-cde9-4591-a551-f7bddeac3b06/ce0d54c2-a4e9-40a6-95f6-758e194830e4.png

Risposta

Here is the image based on your request.

Domanda

Possible Theory Questions.pdf

Genera le risposte agli esercizi presenti nel file

Pensiero

Providing answers in Italian

I should craft answers in Italian since that’s the user’s language. The answers need to be clear and comprehensive, especially when citing the file. I’ll add citations, probably at the end of each response. No need to look up external info — I’ll rely on my current knowledge. However, I'll explain things like differences and include formulas when necessary. I'll work on organizing the content, perhaps in bullet points by section (e.g., Project, Pre-test). Lastly, I’ll make sure the final output is in plain text.

Crafting the answers

I’ll need to address various areas, starting with the implementation choices. For some questions like “What about project implementation choices?” I’ll clarify that it depends on the project, offering common examples like architecture patterns, libraries, and dependencies. I’ll also explain the difference between RNN and LSTM, while confirming answers about numpy arrays and pre-test formulas. For theory, I’ll include the Universal Approximation Theorem and updates for SGD. I’ll provide answers across all the requested sections in concise bullet points, adding formulas where needed.

Thought for 20 seconds

Risposta

Di seguito trovi risposte sintetiche ma complete – in italiano – a tutti i quesiti elencati nel PDF. Ho mantenuto la stessa struttura per facilitare lo studio. 


1. Project

QuesitoRisposta
Scelte di implementazione di progettoIn un progetto di Deep Learning le scelte chiave riguardano: architettura generale (modello, data-pipeline, training loop), gestione dell’hardware (GPU/TPU), strategia di logging/monitoraggio (TensorBoard, Weights & Biases), protocolli di versionamento (Git + DVC), criteri di validazione e di early-stopping, oltre a definire chiaramente metriche e obiettivi di business.
Dove trovare nel codice una funzione “teorica”Normalmente si cerca la corrispondenza teoria ↔ codice partendo dal nome simbolico: es. la formula teorica softmax(z)=exp(z)/∑exp(z) diventa la funzione torch.nn.Softmax. Nella code-base puoi: 1) fare un grep del nome teorico, 2) seguire i docstring che citano la definizione matematica, 3) consultare i test unitari che spesso linkano alla sezione di teoria.
Differenza RNN vs LSTMRNN ha una singola cella con stato h_t; soffre di vanishing/exploding gradients su sequenze lunghe. LSTM introduce porte (input, forget, output) e una cell-state c_t che trasporta informazioni a lungo termine, mitigando il problema dei gradienti e migliorando la capacità di memorizzazione.
Estrarre le prime due colonne di una matrice 3 × 3matrix[:, :2] (NumPy slice).

2. Pre-Test

QuesitoRisposta breve
Residual Connectiony=f(x)+xy = f(x) + x
Supervised vs UnsupervisedSupervised: dati etichettati (x,y)(x,y); obiettivo minimizzare la perdita fra predizione e yy. Unsupervised: solo xx; il modello scopre struttura latente (cluster, densità, rappresentazioni).
OverfittingIl modello impara il rumore del training set e generalizza male su dati non visti.
Convoluzione (DL)Operatore che applica un kernel localmente producendo feature map; permette condivisione di pesi e estrazione di pattern spaziali (traslazione-equivarianza).
Perché il validation setMisura la generalizzazione durante l’addestramento, guida early-stopping e selezione di iperparametri.
Regression vs ClassificationRegression: target continuo; metriche MSE/MAE. Classification: target discreto; metriche accuracy, F1, CE-loss.
Binary Cross-EntropyL=(ylogp+(1y)log(1p))\mathcal{L}=-(y\log p + (1-y)\log(1-p))
ReLU in codicetorch.nn.functional.relu(x) oppure np.maximum(0, x).

3. Theory

3.1 Shallow & Deep NN

  • Forma analitica SNS: y^=σ(W2σ(W1x+b1)+b2)\hat{y}= \sigma(W_2\,\sigma(W_1x + b_1)+b_2) (una hidden-layer).
  • Teorema di Approssimazione Universale: una rete feed-forward con un singolo hidden-layer e funzioni di attivazione non lineari può approssimare a precisione arbitraria qualsiasi funzione continua su un compatto.

3.2 Fitting & Backprop

  • SGD update: θt+1=θtηθL(θt;xi,yi)\theta_{t+1}= \theta_t - \eta \,\nabla_\theta \mathcal{L}(\theta_t; x_i,y_i) con batch di taglia 1.
  • GD vs SGD: GD usa l’intero dataset (gradiente esatto); SGD usa sample (o mini-batch) ⇒ rumore stocastico, iterazioni più frequenti, maggiore capacità di escape da minimi locali.
  • Esempio parametri MLP: per layer densamente connesso WRm×nW\in\mathbb{R}^{m\times n} ⇒ #param = mn + m; gradiente w.r.t. peso wijw_{ij}: L/wij=δihj\partial\mathcal{L}/\partial w_{ij}= \delta_i\,h_j dove δi\delta_i è l’errore back-propagato, hjh_j l’output neurone precedente.

3.3 Performance & Regularization

  • Regularizzazione DL: riduce varianza del modello. Metodi: penalità L1/L2L_1/L_2; dropout; data augmentation; early-stopping; weight decay; batch/layer norm.
  • Cos’è l’overfitting: vedi §2.
  • Leaky ReLU: LeakyReLU(x)=max(αx,x) \text{LeakyReLU}(x)=\max(\alpha x,x) con 0<α10<\alpha\ll1; evita neuroni “morti” (derivata ≠ 0 per x<0x<0).

3.4 CNNs & ResNets

  • Convoluzione: si veda §2.
  • Padding valid/same: valid = nessun padding → output più piccolo; same = padding tale da mantenere stessa dimensione.
  • Usi/proprietà CNN: classificazione immagini, segmentazione, visione medicale; condividono pesi, sfruttano località e traslazione-equivarianza.
  • Residual Block: output y=F(x,{Wi})+xy = F(x,\{W_i\}) + x dove FF è la trasformazione (conv-BN-ReLU).
  • Layer Normalization: normalizza attivazioni per feature nello stesso batch; stabilizza il training. Altre: Batch Norm, Instance Norm, Group Norm, RMS Norm.

3.5 Self-Supervised Learning

  • Dataset SSL: soli campioni xix_i; le etichette pseudo-generate (p.e. in-painting, masking).
  • Siamese NN: due rami che condividono pesi, apprendono embedding confrontando coppie positive/negative.
  • Contrastive Learning: massimizza similarità fra viste della stessa istanza, minimizza fra istanze diverse; usato anche in metric-learning e retrieval.
  • Loss contrastiva (InfoNCE): L=logexp(sim(q,k+)/τ)jexp(sim(q,kj)/τ)\mathcal{L}=-\log \frac{\exp(\text{sim}(q,k^+)/\tau)}{\sum_{j}\exp(\text{sim}(q,k_j)/\tau)}.
  • Triplet Loss: max{0,d(a,p)d(a,n)+m}\max\{0, d(a,p)-d(a,n)+m\}.
  • BYOL: la Target Network non fa backprop; i suoi pesi sono media esponenziale di quelli dell’Online Network.

3.6 Transformers

  • Ottimizzazione in RNN: Backpropagation Through Time (BPTT).
  • Costo di BPTT: elevato su sequenze lunghe (memoria & tempo).
  • Rischi: gradienti vanishing/exploding.
  • Seq2Seq con CNN: sì; si usa padding o masked conv per lunghezze variabili.
  • Attenzione (overview): meccanismo che calcola pesi αij\alpha_{ij} di rilevanza fra token.
  • Variabili Self-Attention: Query (Q), Key (K), Value (V).
  • Significato QKTQ\cdot K^T: misura di similarità fra query e key.
  • Uso di Q, K, V: per generare weighted sum dei valori; nomi derivano da analogia con database (query una chiave su valori).

3.7 Generative AI Foundations

  • GAN: due reti (Generator G, Discriminator D) in min-max minGmaxDV(D,G)\min_G\max_D V(D,G); perdita log-like; equilibrio di Nash quando né G né D migliorano.
  • Perché Wasserstein-GAN: usa distanza di Wasserstein → gradiente informativo anche quando supporti non si sovrappongono.
  • Problema GAN & soluzione: mode collapse; rimedi: WGAN, gradient penalty, minibatch-std, spectral norm.
  • VAE architettura: Encoder qϕ(zx)q_\phi(z|x), campionamento zz, Decoder pθ(xz)p_\theta(x|z).
  • Encoder con 𝜙 diverso: separa parametri encoder/decoder.
  • Ruolo 𝜖 (trick di riparametrizzazione): z=μ+σϵ,  ϵN(0,1)z=\mu+\sigma\odot\epsilon,\; \epsilon\sim\mathcal{N}(0,1) rende il campionamento differenziabile.

3.8 Graph Neural Networks

  • Edge Classification: predire etichetta su un arco (link-type, relazione).
  • Inductive vs Transductive: vedi testo; inductive generalizza a nuovi grafi.
  • Update rule GNN (message passing): hv(k+1)=γ(k)(hv(k),uN(v) ⁣ ⁣ϕ(k) ⁣(hv(k),hu(k),euv))h_v^{(k+1)} = \gamma^{(k)}\Big(h_v^{(k)},\,\square_{u\in\mathcal{N}(v)}\!\! \phi^{(k)}\!\big(h_v^{(k)},h_u^{(k)},e_{uv}\big)\Big).
  • Funzioni di aggregazione: media, somma, max-pool, attention, diag-enhancement, Kipf (norm-sum).
  • Attention in GCN: coefficiente αvu=softmaxu(LeakyReLU(a[hvhu])) \alpha_{vu}= \text{softmax}_u\big(\text{LeakyReLU}(a^\top[h_v||h_u])\big).
  • Svantaggio approccio spettrale: dipendenza dalla struttura del grafo (eigenbasis) ⇒ non generalizza tra grafi diversi.
  • GCN definizione: learning sui grafi con operatori convoluzionali basati su Laplaciano.
  • Message Passing: vedi update rule.

3.9 Geometric Deep Learning

  • Definizione: DL che rispetta simmetrie/spazi non Euclidei (grafi, manifolds).
  • Esempio trasformazione: traslazione-equivariante in CNN: Tτf(x)=f(xτ)T_\tau f (x)=f(x-\tau); la convoluzione mantiene l’equivarianza.

3.10 Model Compression

  • Overview: pruning, quantization, distillation, low-rank factorization, weight sharing per ridurre memoria/latenza mantenendo accuracy.
  • Lottery Ticket Hypothesis: in una rete random-init esistono sub-reti “vincenti” che, con i pesi iniziali originali, raggiungono la stessa accuracy del modello completo.

3.11 Meta-Learning

  • Cos’è: “imparare a imparare” da molte task; rapida adattabilità con pochi dati.
  • Algoritmo-esempio (MAML): aggiorna parametri di base θ\theta ottimizzando la performance post-fine-tuning su task: θθβθTLT(θαθLT)\theta \leftarrow \theta - \beta\nabla_\theta \sum_{\mathcal{T}}\mathcal{L}_{\mathcal{T}}(\theta - \alpha\nabla_\theta \mathcal{L}_{\mathcal{T}}).
  • Tecnica metric-based (Prototypical Networks): embedding in spazio euclideo; classifica in base alla distanza dal prototipo (media degli support).

3.12 Seminars

  • Noisy Labels lecture: si studiano algoritmi robusti a etichette corrotte (loss simmetriche, bootstrapping, Co-teaching, confident learning). Modalità di rilevazione: rischio condizionato, auditing manuale assistito, confident learning.
  • Retrieval Augmented Generation (RAG): framework che combina un modulo di retrieval differenziabile con un generatore (p.es. seq2seq) per incorporare informazioni esterne in tempo reale e ridurre l’hallucination.

Buono studio!

Condividi questa Q&A