Negli acciai cementati, la durezza superficiale e la profondità dello strato cementato rappresentano due parametri chiave per garantire le prestazioni meccaniche dei componenti in esercizio. Queste proprietà influenzano non solo la resistenza all’usura e alla fatica, ma anche la lavorabilità dei pezzi, in particolare durante le fasi di rettifica, dove difetti e alterazioni superficiali possono compromettere l’integrità del componente. Disporre di strumenti affidabili per valutarle consente quindi di ottimizzare i parametri di lavorazione e di attivare sistemi di controllo non distruttivi e in-process.
Tradizionalmente, la valutazione della durezza superficiale e della profondità dello strato cementato viene effettuata mediante prove distruttive, accurate ma poco adatte ai ritmi della produzione industriale. A fianco di queste, stanno emergendo con crescente interesse le tecniche micromagnetiche, che sfruttano la sensibilità dei segnali magnetici alle variazioni microstrutturali e alle tensioni residue per ottenere informazioni sullo stato del materiale senza danneggiarlo.
In questo contesto si inserisce il presente lavoro, che propone una procedura potente ed innovativa per la caratterizzazione non distruttiva di acciai trattati. L’uso combinato di segnali provenienti da più tecniche di misura, come di seguito proposto, permette di offrire una stima accurata sia della durezza superficiale che della profondità dello strato cementato rispetto ai diversi cambiamenti dei parametri di processo.

Esperimento
Il set di campioni qui analizzato è composto da 54 dischi di acciaio AISI 4820 (DIN 18CrNiMo7-6), tutti ricavati da un’unica colata per garantire l’uniformità del materiale. Ogni disco ha 68 mm di diametro e 20 mm di spessore. La composizione chimica è stata determinata tramite spettrometro ad emissione ottica e ha confermato la conformità del materiale alle specifiche (vedi Tabella 1).

I campioni sono stati cementati a gas, esposti ossia ad un’atmosfera ricca di carbonio ad alta temperatura, per arricchire di carbonio lo strato superficiale, e successivamente temprati in olio, esplorando 27 diverse combinazioni di trattamento termico (Tabella 2), tutte realizzate in forno a camera. Ogni variazione ha previsto specifiche temperature, tempi di permanenza e potenziali di carbonio, come dettagliato nella Tabella 3 e nella Figura 3, che illustra le fasi principali del processo. Dopo la tempra, tutti i pezzi sono stati rinvenuti per due ore, seguendo le temperature indicate per ciascuna variante.

Per misurare la durezza superficiale e la profondità di carburazione (approssimato come profondità di cementazione), sono stati preparati provini più piccoli, trattati insieme ai dischi principali. La durezza è stata misurata con metodo Vickers HV1 usando una forza di prova di 9,807 N, mentre i profili di carbonio sono stati ottenuti con spettrometria a scintilla. La profondità di carburazione è stata definita come il punto in cui la percentuale di carbonio scende al 0,3% in peso.
Le misure micromagnetiche sono state effettuate con un sistema 3MA-II del Fraunhofer IZFP, dotato di sensore standard con poli convessi e unità trasduttrice a molla (Figura 4). Le impostazioni di misura sono state variate usando il modulo sweep, modificando la frequenza di magnetizzazione, il filtro passa-alto e la frequenza delle correnti parassite (Box 1). In totale sono state raccolte 425 variabili di misura, rappresentative di diverse profondità di analisi. Ogni campione è stato misurato 10 volte nella stessa posizione lungo la circonferenza, con magnetizzazione tangenziale.


Dopo una prima analisi dei dati per eliminare eventuali valori anomali, è stata avviata la fase di calibrazione, effettuata sia con regressione lineare che con reti neurali artificiali. Per la regressione, sono stati esclusi i dati acquisiti alla frequenza di magnetizzazione di 20 Hz, a causa di instabilità che compromettevano l’affidabilità di alcune misure (soprattutto per la permeabilità incrementale). Solo i dati completi sono stati utilizzati per garantire uniformità nel set di regressione.


La regressione lineare è stata condotta tramite algoritmi dedicati, impostando la profondità di carburazione e la durezza come valori target, e limitando il numero massimo di termini del polinomio a 10. È stata applicata anche una limitazione all’effetto massimo dell’errore, utile a ridurre l’impatto degli errori sistematici a bassa frequenza (come quelli dovuti all’usura del sensore). Questa soglia è stata modificata progressivamente per identificare un buon compromesso tra precisione e robustezza del modello. I risultati sono stati valutati sia sui dati di calibrazione che su campioni di test esclusi dalla fase di training, attraverso i consueti indicatori R² e RMSE (Box 2). Per evitare che una calibrazione con un set troppo piccolo compromettesse l’affidabilità dei risultati, è stato utilizzato un metodo detto di autovalutazione ciclica (autorecognition): ciascun campione (composto da 10 misure) è stato escluso a turno dalla calibrazione e utilizzato per la validazione. Questo processo è stato ripetuto k volte, garantendo che ogni campione venisse utilizzato come test almeno una volta.
Nel caso delle reti neurali artificiali, sono stati utilizzati 425 neuroni in ingresso, lo stesso numero negli strati nascosti, e neuroni di output corrispondenti a durezza e profondità di carburazione. La rete è stata implementata con il software MemBrain, usando una funzione logistica di attivazione. Il modello è stato addestrato tramite backpropagation con 30 e 60 ripetizioni. I risultati sono stati valutati con gli stessi criteri usati per la regressione. Per valutare i vantaggi dell’utilizzo del modulo sweep, sono state condotte anche calibrazioni usando solo le variabili standard, senza variazione dei parametri. In questo caso, la regressione lineare è stata eseguita senza limitazione dell’effetto errore massimo, e le reti neurali sono state addestrate con 30 cicli di apprendimento.
A seguito delle diverse combinazioni di trattamento termico descritte in Tabella 2, sono stati ottenuti campioni con tre livelli distinti di profondità di cementazione: circa 0,55 mm, 0,9 mm e 1,9 mm. La durezza superficiale associata a questi stati varia da 640 HV1 a 760 HV1, mostrando l’efficacia del trattamento nel modificare le proprietà meccaniche del materiale.
Le Figure 4, 5 e 6 presentano rispettivamente per i tre livelli target di cementazione (0,5 mm, 1 mm e 2 mm): il profilo di concentrazione del carbonio (a), il profilo di microdurezza (b), e una micrografia in sezione trasversale del campione (c).

L’analisi comparativa tra la CHD550 (Case Hardening Depth calcolata come profondità alla quale la durezza è di 550 HV), la profondità di carburazione (definita come il punto in cui la percentuale di carbonio scende al 0,3%) e il confine visibile tra strato indurito e materiale di base nelle micrografie conferma una forte coerenza tra questi tre riferimenti. In pratica, si può considerare la profondità di carburazione come una valida stima della CHD, utile per correlazioni con i dati micromagnetici e per l’interpretazione dei risultati sperimentali.


Regressione lineare
La regressione lineare applicata alla durezza, senza alcuna limitazione dell’effetto massimo dell’errore (F₁), ha prodotto un valore F₁ pari a 9,274 HV1, con un coefficiente di determinazione R² = 0,8709 e un errore quadratico medio RMSE = 12,919.
Nella Figura 7 viene mostrata la correlazione tra la durezza determinata micromagneticamente e quella misurata, sia senza limitazione dell’effetto errore (a), sia con limite a 3 HV1 (b). I dati rappresentano la media di 10 misurazioni per campione, da cui deriva una discrepanza con i valori medi riportati in Tabella 5.

Per i campioni di test non inclusi nella calibrazione, i cui risultati sono mostrati in Figura 8, l’errore standard aumenta fino al 15% dell’intervallo dei valori target, con un incremento di circa il 50% rispetto ai dati di calibrazione. Tuttavia, la limitazione del F₁ mostra un impatto minimo sul risultato finale. Per questo motivo, per applicazioni pratiche si consiglia l’uso di una calibrazione con F₁ ridotto, al fine di mitigare eventuali effetti dovuti all’invecchiamento o all’usura del sensore.

Un’ulteriore analisi mostra che la miglior correlazione con la durezza si ottiene con la remanenza della permeabilità incrementale, come riportato in Figura 9. Al contrario, le variabili derivate dall’analisi armonica mostrano correlazioni poco evidenti, probabilmente a causa della maggiore profondità di penetrazione.

Per selezionare solo le variabili più significative, è stato anche testato un limite massimo al numero di termini della regressione. Con una riduzione del numero di termini a 10, 6 o 2, si osserva: un calo dell’R² e un aumento dell’errore, ma anche una riduzione sensibile dell’effetto dell’errore massimo, migliorando l’affidabilità. Con soli due termini, la variabile chiave per stimare la durezza resta la remanenza della permeabilità incrementale µᵣ. Dal confronto tra Figura 9a e 9b, emerge inoltre che la frequenza impiegata non altera in modo significativo l’andamento qualitativo della correlazione. Questo suggerisce che si potrebbe ridurre il numero di frequenze analizzate senza compromettere la calibrazione, con benefici in termini di tempo e semplificazione operativa.
Lo stesso approccio è stato applicato anche alla profondità di carburazione. È stato identificato come valore ottimale un effetto errore massimo di 0,06 mm. In Figura 10, si osserva una buona corrispondenza tra i valori misurati e quelli stimati dalla regressione (errore standard di 0,074 mm, pari a circa 6% del range target), mentre la limitazione di F₁ influisce poco sulla qualità del risultato.

Per il set di test (campioni non inclusi nella calibrazione), mostrato in Figura 11, l’errore è naturalmente più alto, ma resta entro limiti accettabili (intorno al 10% dell’intervallo dei valori target). Escludendo un outlier a 1,87 mm, l’errore RMS scende a 0,105 mm, ovvero solo l’8% del range. Anche in questo caso, l’effetto della limitazione di F₁ è trascurabile.

Rispetto alla durezza, l’analisi armonica e le basse frequenze (con maggiore profondità di penetrazione) assumono un peso maggiore. Le variabili che hanno mostrato la correlazione più significativa con la profondità di cementazione sono fattore di distorsione armonica (K), coercitività media (Hcm) e coercitività derivata dall’analisi armonica (Hco), tutte in correlazione positiva con l’aumento della durezza e della profondità dello strato indurito, In particolare,
- K misura il grado di deformazione del segnale magnetico rispetto a una forma sinusoidale ideale ed è indicativo della presenza di microstrutture complesse o gradienti di durezza.
- Hcm rappresenta il campo necessario a smagnetizzare il materiale lungo il ciclo di isteresi ed è direttamente influenzata dallo stato di indurimento: materiali più duri e con struttura martensitica tendono ad avere valori di coercitività più elevati.
- Hco, che deriva dall’analisi armonica del campo magnetico tangenziale, fornisce un’ulteriore misura della coercitività, ma con una maggiore profondità di penetrazione, risultando particolarmente utile per stimare la profondità effettiva dello strato cementato.
L’andamento coerente di questi tre parametri conferma la possibilità di utilizzare i segnali micromagnetici non solo per stimare la durezza superficiale, ma anche per valutare con buona precisione la profondità della cementazione.
Infine, anche per la carburazione, un numero limitato di termini di regressione (es. 6 o 8) permette comunque di ottenere buoni risultati, rappresentando un valido compromesso tra accuratezza e stabilità. Le regressioni più brevi si basano principalmente su variabili derivate dall’analisi armonica e sulla coercitività (Hcm), misurata a 80 Hz.

Reti Neurali Artificiali
L’addestramento delle ANN per la stima della durezza ha prodotto risultati molto promettenti. Come mostrato in Figura 12, già dopo 30 cicli di addestramento, l’errore standard (RMSE) si riduce a 7,1 HV1, un valore paragonabile alla deviazione standard delle prove Vickers. Dopo 60 cicli, l’errore scende ulteriormente a 3,7 HV1, confermando l’elevata precisione raggiunta dalla rete. Tuttavia, quando si passa alla valutazione dei dati di test (campioni non utilizzati durante l’addestramento), il comportamento cambia. Come evidenziato in Figura 13, l’errore standard risulta nettamente più alto rispetto ai dati di training, pur restando leggermente inferiore rispetto a quanto ottenuto con la regressione lineare. La discrepanza marcata tra le prestazioni sui dati noti e su quelli ignoti evidenzia un possibile caso di overfitting: la rete si adatta troppo ai dati di partenza e perde capacità predittiva su nuovi campioni.

Aumentare il numero di iterazioni dell’addestramento non porta automaticamente a un miglioramento. Anzi, l’eccessiva ottimizzazione sui dati di training comporta un peggioramento sui dati di test. Per evitare ciò, è consigliabile aumentare progressivamente il numero di cicli, monitorando l’andamento dell’errore su entrambi i set: quando l’errore sui dati di training si stabilizza mentre quello sui test comincia ad aumentare, la rete sta iniziando a sovradattarsi.
Oltre al numero di cicli, anche la dimensione della rete (ovvero il numero di neuroni e input) influisce sul rischio di overfitting. Reti più complesse possono modellare meglio i dati, ma richiedono un controllo più attento e dataset più ricchi per essere generalizzabili.
Per la profondità di carburazione, non sono stati effettuati due cicli completi di confronto (30 vs 60), poiché il raddoppio del numero di training non ha migliorato i risultati nel caso della durezza. In Figura 14, si riporta quindi solo il risultato ottenuto dopo 30 cicli, sia per i dati di training (a) che di test (b). Si osserva un buon allineamento generale, anche se compaiono alcuni outlier attorno ai 0,9 mm.

Anche qui si conferma la tendenza già vista: l’errore standard passa da un valore molto basso nei dati di addestramento a un valore più che triplo nei dati di test, segno che la rete ha appreso bene i casi noti, ma potrebbe migliorare in generalizzazione.
Un possibile miglioramento consiste nell’estendere il set di campioni, in particolare aggiungendo dischi con profondità di carburazione comprese tra 1 mm e 2 mm (attualmente poco rappresentate) o oltre i 2 mm. Questo ampliamento aiuterebbe la rete ad apprendere in modo più robusto l’intero intervallo delle variabili target.
Le Figure 15a e 15b mostrano il confronto tra durezza calcolata (tramite regressione lineare) e durezza misurata per alcuni set di configurazione. Con l’uso dello sweep, si osserva una diminuzione dell’errore standard sia nei dati di calibrazione che in quelli di test, confermando il beneficio dell’analisi multi-frequenza nella regressione.

In generale, la variazione dei parametri di misura attraverso sweep porta a un miglioramento netto della precisione, soprattutto nel caso della profondità di carburazione stimata con ANN. Nel caso della durezza stimata con ANN, invece, l’errore nei dati di test tende ad aumentare, effetto legato al già discusso rischio di overfitting.
Mentre la regressione lineare fornisce risultati stabili, le reti neurali tendono a ottenere una migliore accuratezza nei dati di test, anche se a scapito della trasparenza. La stima della durezza si conferma in generale meno precisa rispetto a quella della profondità di carburazione, suggerendo che la prima sia più sensibile a variabili non controllate, come microstrutture locali o difetti superficiali.
A differenza della regressione, le reti neurali non consentono di tracciare con precisione quali variabili influenzano il risultato: si comportano come una “scatola nera”. Tuttavia, l’analisi tramite regressione può offrire indicazioni preziose per selezionare gli input da fornire alla rete. Ad esempio:
- per la durezza superficiale, sono risultate più utili le misure con bassa profondità di penetrazione, come la permeabilità incrementale;
- per la profondità di carburazione, invece, si sono rivelate fondamentali tecniche con penetrazione maggiore, come l’analisi armonica a basse frequenze.

Il confronto condotto in questo paragrafo conferma che l’utilizzo degli sweep in frequenza migliora la qualità della calibrazione, in particolare quando si vuole stimare proprietà con gradiente di profondità (come la carburazione). Per la sola durezza superficiale, invece, il beneficio dell’analisi multifrequenza è limitato.
Per ridurre sia il rischio di overfitting che l’impegno computazionale, è consigliabile limitare il numero di frequenze utilizzate per l’analisi della carburazione, selezionando solo quelle più rilevanti. In applicazioni come questa, i dati delle correnti parassite possono anche essere scartati senza perdere qualità predittiva.
È inoltre suggerita una preselezione delle variabili, come indicato anche in studi precedenti, per ottimizzare i tempi di calibrazione e ridurre il rischio di sovradattamento della rete. I corretti criteri per questa selezione possono essere: (a) l’elevata correlazione con la proprietà target (durezza o carburazione), (b) la bassa deviazione standard, in particolare per variabili simili (es. tra Barkhausen e permeabilità incrementale).
Un’altra strategia per semplificare la regressione lineare consiste nell’escludere i termini quadrati e le radici, anche se ciò può comportare un calo nella qualità dell’adattamento. Nonostante le limitazioni, le strategie adottate hanno consentito di ottenere errori standard inferiori al 3% del valore massimo atteso per la durezza. A differenza di molti studi precedenti, in questo lavoro si è variato non solo lo spessore cementato, ma anche il contenuto di carbonio superficiale e la temperatura di rinvenimento, aumentando così la complessità e l’utilità pratica del dataset. Infine, la regolazione del numero massimo di termini, dell’effetto massimo dell’errore e dei passaggi di addestramento delle ANN si è dimostrata una leva efficace di ottimizzazione, da adattare caso per caso in base all’applicazione industriale.