Ottimizzare un forno di processo con l’apprendimento per rinforzo

Determinare le impostazioni di controllo ottimali per un processo industriale può essere difficile. Ad esempio, i controlli possono interagire, laddove la regolazione di un’impostazione richiede una nuova regolazione di altre impostazioni. Inoltre, la relazione tra un controllo e il suo effetto può essere molto complessa. Tali complicazioni possono essere impegnative per l’ottimizzazione di un processo. Questo articolo esplora una soluzione di apprendimento di rinforzo per il controllo di un forno di trasporto industriale.
introduzione
Un esempio di questo tipo di apparecchiatura è un forno a riflusso utilizzato per saldare componenti elettronici su una scheda a circuito (Figure 1 e 2). Il forno ha una cinghia mobile che trasporta il prodotto attraverso più zone di riscaldamento. Questo processo riscalda il prodotto secondo un preciso profilo temperatura-tempo necessario per garantire connessioni saldate affidabili.

Il forno di riflusso discusso in questo articolo ha otto zone di riscaldamento, ognuna con un controllo per impostare la temperatura del riscaldatore della zona. I sensori registrano la temperatura del prodotto in ~ 300 punti mentre attraversa il forno. La temperatura in ciascun punto è determinata dal calore trasferito al prodotto dai riscaldatori.
Soluzione di apprendimento di rinforzo
Un operatore in genere esegue le seguenti operazioni per apprendere le impostazioni del riscaldatore:
eseguire un passaggio del prodotto attraverso il forno
osservare il profilo temperatura-tempo dalle letture del sensore
regolare le impostazioni del riscaldatore per (si spera) migliorare il profilo
attendere che il forno si stabilizzi sulle nuove impostazioni
ripetere questa procedura fino a quando il profilo delle letture del sensore non è accettabilmente vicino al profilo desiderato
Il sistema di apprendimento del rinforzo sostituisce le fasi dell’operatore con un processo in due fasi. Nella prima fase, un agente intelligente apprende le dinamiche del forno e crea una politica per l’aggiornamento delle impostazioni del riscaldatore in varie condizioni del forno.
Nella seconda fase, l’agente segue la politica appresa per trovare le impostazioni ottimali del riscaldatore. Queste impostazioni produrranno la corrispondenza più vicina tra il profilo del prodotto reale e il profilo temperatura-tempo desiderato. La Figura 3 mostra l’agente che segue la politica per trovare le impostazioni ottimali. La traccia rossa è il profilo temperatura-tempo desiderato e la traccia blu è il profilo effettivo mentre l’agente sta scoprendo le impostazioni ottimali del riscaldatore.

L’agente
Poiché è necessario molto tempo per passare il forno (> 300 secondi) e stabilizzare il forno (molti minuti), viene utilizzato un simulatore del forno per accelerare notevolmente il processo. Il simulatore emula l’azione di riscaldamento del forno sul prodotto.
In ogni fase della prima fase, l’agente di apprendimento del rinforzo passa al simulatore le impostazioni per gli otto riscaldatori. Dopo l’esecuzione della simulazione, il simulatore restituisce le letture della temperatura del prodotto (~ 300 letture eseguite ad intervalli di un secondo).
L’agente utilizza una selezione delle letture per determinare lo stato del sistema. Calcola anche una ricompensa per la corsa corrente confrontando la differenza tra le letture restituite e il profilo temperatura-tempo desiderato. Se la differenza per la corsa corrente è inferiore alla corsa precedente, la ricompensa è positiva; altrimenti, è negativo. Il premio viene utilizzato per aggiornare la politica.

Dopo aver ripetuto questo processo migliaia di volte, l’agente avrà appreso una politica estesa per l’aggiornamento delle impostazioni del riscaldatore in varie condizioni del forno. Nella seconda fase, l’agente segue la politica appresa per trovare le impostazioni ottimali del riscaldatore che produrranno la corrispondenza più vicina tra il profilo del prodotto reale e il profilo temperatura-tempo desiderato.
Un’immersione più profonda
Il sistema di apprendimento del rinforzo utilizzato nel progetto utilizza un modello Double Deep-Q¹ che incorpora due reti neuronali e riproduce l’esperienza². Dopo il processo della fase uno, una delle reti neurali mantiene la politica appresa utilizzata dall’agente nella seconda fase. Per maggiori dettagli, consulta i documenti a cui fa riferimento alla fine di questo articolo.

Di ihal