Hanwha-Vision-LOGO

Classificazione del suono AI e rilevamento della direzione del suono Hanwha Vision SPS-A100M

Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono-PRODOTTO

Introduzione

Il suono è spesso uno strumento di sorveglianza trascurato ma potente in mezzo a minacce invisibili. Mentre i sistemi di videosorveglianza convenzionali si concentravano sulla cattura visiva di ciò che accadeva, l'ambiente di sicurezza odierno si è evoluto per riconoscere non solo i tipi di eventi sonori, ma anche le loro esatte fonti. Con l'espansione dei confini della sicurezza pubblica e della protezione dei beni, la tecnologia di analisi audio ha il potenziale per contribuire oltre la semplice assistenza alla prevenzione dei reati e alla rapida risposta agli incidenti.
In questo contesto, la tecnologia di classificazione dei suoni basata sul deep learning di Hanwha Vision offre funzioni intelligenti che riconoscono accuratamente specifici eventi audio, come urla pre-addestrate e vetri rotti, attivando allarmi immediati. Inoltre, la tecnologia di rilevamento della direzione del suono identifica la posizione della sorgente audio, fornendo informazioni decisive non solo sulla natura del suono, ma anche sulla sua origine. Queste due tecnologie lavorano in sinergia per massimizzare le capacità integrate di consapevolezza situazionale, stabilendo un nuovo punto di riferimento per i sistemi di sicurezza di nuova generazione.
Questo white paper approfondisce queste tecnologie, fornendo indicazioni pratiche per un'implementazione e un utilizzo ottimali in diversi ambienti.

Tecnologia di analisi audio basata sull'intelligenza artificiale

  1. Classificazione del suono
    La tecnologia di classificazione del suono di Hanwha Vision si basa su un modello fondamentale di deep learning: la rete neurale convoluzionale (CNN). Questa tecnologia inizia trasformando le informazioni sonore astratte in una forma visiva nota come spettrogramma1.
    Uno spettrogramma funge da "impronta digitale" acustica, mostrando chiaramente i pattern unici di un suono specifico. La CNN eccelle nell'apprendere e riconoscere automaticamente le sottili caratteristiche e i pattern acustici all'interno di queste immagini spettrografiche, spesso difficili da distinguere per l'orecchio umano. Questo processo consente l'identificazione e la classificazione accurate di un'ampia gamma di eventi sonori, tra cui urla, vetri rotti, clacson e slittamenti di pneumatici.
    Una volta che un suono è stato rilevato e classificato, il sistema estrae automaticamente i dati dal flusso audio. Poiché i dati audio sono già pre-elaborati eampled, il suono classificato viene quindi generato come clip audio file, completo di metadati per un facile download e riview.
    Questa tecnologia è disponibile su prodotti Hanwha Vision selezionati.
  2. Rilevamento della direzione del suono
    La tecnologia di rilevamento della direzione del suono di Hanwha Vision supporta una risposta rapida identificando e notificando agli utenti la direzione di un evento audio specifico. La tecnologia determina questa direzione misurando la differenza di tempo di arrivo.
    (TDoA) del segnale sonoro quando raggiunge più microfoni fisicamente separati.
    L'algoritmo TDoA funziona analizzando la differenza di fase nel tempo impiegato da un suono per raggiungere ciascun microfono, stimando così la distanza effettiva dalla sorgente. Questa informazione viene poi utilizzata per calcolare l'angolo della sorgente sonora. Come illustrato in Figura 1, un sistema multimicrofonico con microfoni (MIC1, MIC2, MIC3, MIC4) disposti in cerchio può determinare le differenze di distanza (d1, d2, d3, d4) tra la sorgente sonora e ciascun microfono. Il calcolo della differenza di tempo di arrivo in base a queste differenze di distanza è il cuore dell'algoritmo TDoA.

2.1. Classificazione del suono La tecnologia di classificazione del suono di Hanwha Vision si basa su un modello fondamentale di deep learning: la rete neurale convoluzionale (CNN). Questa tecnologia inizia trasformando le informazioni sonore astratte in una forma visiva nota come spettrogramma1. Uno spettrogramma funge da "impronta digitale" acustica, visualizzando chiaramente i pattern unici di un suono specifico. La CNN eccelle nell'apprendere e riconoscere automaticamente le sottili caratteristiche e i pattern acustici all'interno di queste immagini spettrografiche, spesso difficili da distinguere per l'orecchio umano. Questo processo consente l'identificazione e la classificazione accurate di un'ampia gamma di eventi sonori, tra cui urla, vetri rotti, clacson e slittamenti di pneumatici. Una volta rilevato e classificato un suono, il sistema estrae automaticamente i dati dal flusso audio. Poiché i dati audio sono già pre-elaborati eampled, il suono classificato viene quindi generato come clip audio file, completo di metadati per un facile download e riviewQuesta tecnologia è disponibile su prodotti Hanwha Vision selezionati. 2.2. Rilevamento della direzione del suono La tecnologia di rilevamento della direzione del suono di Hanwha Vision supporta una risposta rapida identificando e notificando agli utenti la direzione di un evento audio specifico. La tecnologia determina questa direzione misurando la differenza di tempo di arrivo (TDoA) del segnale sonoro quando raggiunge più microfoni fisicamente separati. L'algoritmo TDoA funziona analizzando la differenza di fase nel tempo impiegato da un suono per raggiungere ciascun microfono, stimando così la distanza effettiva dalla sorgente. Queste informazioni vengono quindi utilizzate per calcolare l'angolo della sorgente sonora. Come illustrato nella Figura 1, un sistema multimicrofono con microfoni (MIC1, MIC2, MIC3, MIC4) disposti in cerchio può determinare le differenze di distanza (d1, d2, d3, d4) tra la sorgente sonora e ciascun microfono. Il calcolo della differenza di tempo di arrivo in base a queste differenze di distanza è il fulcro dell'algoritmo TDoA.La Figura 2 illustra visivamente la differenza di tempo (τij) nell'arrivo di un segnale sonoro a due microfoni (forme d'onda marrone e blu). Misurando con precisione queste differenze di tempo di arrivo, il sistema può triangolare con precisione la direzione della sorgente sonora. Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono (3)

Il processo di rilevamento della direzione del suono si suddivide in quattro fasi principali:

  1. Raccolta del segnale: raccolta simultanea di segnali sonori tramite più microfoni.
  2. Elaborazione del segnale: analizza i segnali raccolti utilizzando un algoritmo specializzato.
  3. Stima della direzione: stima la direzione del suono in base al segnale elaborato.
  4. Risultato in uscita: visualizza la direzione finale rilevata come angolo di rilevamento.

Questa tecnologia è disponibile sui prodotti Hanwha Vision che supportano più microfoni, come Audio Beacon (SPS-A100M) e alcune telecamere dotate di SoC Wisenet 9.

Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono (4)

Installazione e ambiente: una guida per prestazioni ottimali

L'efficacia della soluzione audio AI di Hanwha Vision è strettamente legata all'ambiente di installazione. Considerando attentamente i seguenti punti, è possibile massimizzare il potenziale del sistema e garantire prestazioni stabili.

Selezione della posizione di installazione ottimale
Per prestazioni affidabili di classificazione del suono e rilevamento della direzione, si raccomandano le seguenti condizioni:
Classificazione del suono: il sistema funziona in modo più affidabile quando la distanza tra il prodotto e la sorgente sonora è di almeno 2 m. Questa distanza si basa sull'altezza della sorgente sonora. Se la distanza è troppo ravvicinata (entro 2 m), anche un suono apparentemente a basso volume come un battito di mani può diventare eccessivamente forte, causando falsi positivi. L'installazione a soffitto in un ambiente interno è un metodo ideale per la classificazione del suono, poiché riduce al minimo le riflessioni acustiche e consente un rilevamento uniforme del suono su un'ampia area.

Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono (5)Rilevamento della direzione del suono: per un rilevamento accurato della direzione, si raccomanda uno spazio minimo di almeno 6.0 m di larghezza e 6.0 m di lunghezza. Ciò riduce al minimo gli effetti delle riflessioni e dei riverberi sonori e garantisce spazio sufficiente per l'analisi del segnale tra più microfoni. Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono (6)

Mantenimento della distanza e dell'angolo di incidenza corretti: la distanza e l'angolo tra la sorgente sonora dell'evento e il prodotto sono fondamentali per la precisione del rilevamento. Se l'angolo di incidenza del suono dell'evento è troppo ampio (superiore a 20°) o la distanza è troppo breve, la precisione del rilevamento potrebbe diminuire. La tabella seguente fornisce le distanze minime consigliate in base all'altezza di installazione del prodotto.

Altezza di installazione del prodotto Distanza minima di rilevamento della direzione
2.3 metri ≥ 2.2 metri
2.5 metri ≥ 2.7 metri
2.7 metri ≥ 3.3 metri
2.9 metri ≥ 3.8 metri
3.1 metri ≥ 4.4 metri
3.3 metri ≥ 4.9 metri
3.5 metri ≥ 5.5 metri
3.8 metri ≥ 6.3 metri
4m ≥ 6.9 metri
5m ≥ 9.6 metri

Garantire un percorso audio chiaro: ostacoli fisici come pareti, vetri o tende spesse tra la sorgente sonora e il prodotto possono indebolire o distorcere il segnale. Per ottenere le massime prestazioni, è necessario garantire un percorso audio chiaro e diretto.

Analisi ambientale per un rilevamento e una classificazione efficaci del suono
Per un rilevamento e una classificazione accurati dei suoni, considerare le seguenti condizioni acustiche e i fattori ambientali circostanti.

Tipo di suono Soglia dB Distanza prevista
Urlando >70 dB 2m~20m
Vetri rotti, clacson, slittamento degli pneumatici >80 dB 2m~16m

Per esempioampAd esempio, un suono stridente può essere classificato con precisione e rilevato direzionalmente quando il suo volume è superiore a 70 dB. Il volume del suono dell'evento deve inoltre essere significativamente più forte del rumore di fondo circostante (consigliato: almeno 30 dB più forte). Per una misurazione e una classificazione accurate, il rumore di fondo non dovrebbe idealmente superare i 60 dB, il che garantisce una chiara distinzione tra l'evento e il rumore ambientale.
Poiché il rumore ambientale può influire sulle prestazioni, è buona norma analizzare in anticipo quanto segue:

  • Ambienti esterni: prestare attenzione ai rumori naturali (vento, pioggia, tuoni) e a quelli artificiali (traffico, urti, sobbalzi delle auto). In ambienti imprevedibili, un'analisi approfondita può aiutare a scegliere la posizione di installazione ottimale.
  • Ambienti interni: le riflessioni e le riverberazioni sonore possono essere significative a seconda dei materiali (pareti, soffitti, pavimenti) e delle dimensioni della stanza. Suoni simili a un evento specifico, come lo scoppio di un palloncino o la caduta di una scatola pesante, possono creare riverberi che possono generare falsi allarmi. L'installazione deve tenere conto delle proprietà acustiche dell'ambiente interno.

Configurazione delle soglie dB per la classificazione del suono
Per ottimizzare la funzione di classificazione del suono, è possibile configurare la soglia dB in base al proprio ambiente specifico.

  • In un ambiente rumoroso, impostare la soglia su un valore più alto per ridurre i falsi allarmi.
  • In un ambiente silenzioso in cui gli eventi sono impercettibili, imposta una soglia più bassa per evitare di perdere avvisi importanti.
  • Dopo aver controllato il rumore di fondo medio in dB, si consiglia di impostare una soglia almeno 55 dB superiore a tale media.

Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono (7)Come mostrato nella Figura 6, la soglia in dB può essere regolata in modo intuitivo tramite un cursore o un campo di inserimento numerico, influenzando direttamente la sensibilità di rilevamento in tempo reale. Il grafico rappresenta visivamente la variazione in dB del suono nel tempo (linea nera) e la soglia configurata (linea grigia), rendendo facile vedere quando un evento sonoro (picco arancione) supera la soglia.

Calibrazione della direzione del suono e configurazione del sistema
I prodotti Hanwha Vision forniscono gli eventi come clip audio, che includono sia la classificazione del suono sia i risultati del rilevamento della direzione.

Hanwha-Vision-SPS-A100M-AI-Classificazione-del-suono-e-rilevamento-della-direzione-del-suono (1)Come mostrato nella Figura 7, il risultato della classificazione del suono viene visualizzato con un'icona intuitiva in basso, insieme al risultato del rilevamento della direzione del suono. 'Direzione (N+301.8∘)' significa che la sorgente sonora si trova a 301.8∘ in senso orario dal Nord (N).
Il valore "Fiducia (0.74)" indicato indica un livello di confidenza del 74%. Questo, insieme al livello di pressione sonora (52 dB), aiuta gli utenti a valutare accuratamente la situazione e a reagire rapidamente.
Le informazioni sulla direzione del suono del sistema potrebbero discostarsi dal Nord geografico nel tempo o a causa dell'installazione. Poiché informazioni di direzione precise sono essenziali, è importante calibrare il punto di riferimento Nord secondo necessità. Questo può essere fatto utilizzando uno dei tre metodi seguenti:

  1. Installare il prodotto in modo che sia orientato verso il Nord geografico, come indicato dalla bussola.
  2. Nel menu del prodotto, vai su [Sistema] > [Informazioni sul prodotto] > [Modalità di montaggio] e inserisci direttamente l'angolo misurato in senso orario dal Nord della bussola al punto di riferimento della telecamera.
  3. Per una configurazione iniziale più comoda e precisa, utilizzare la funzione bussola inclusa nello strumento di installazione Wisenet.

 Suggerimenti per ambienti acustici complessi

  • Ambienti acustici complessi: in un ambiente con più suoni simultanei, il modello di intelligenza artificiale potrebbe classificarli come un singolo suono o classificarli erroneamente. Questo è un fenomeno naturale; un'analisi completa delle informazioni fornite dal sistema contribuirà a garantire un'accurata consapevolezza della situazione.
    Analisi ambientale per allarmi accurati: il modello di classificazione dei suoni può generare allarmi per suoni simili a suoni di eventi ma non rientranti nelle categorie di classificazione, come l'attrito di oggetti metallici, i richiami di animali, gli strumenti musicali o altri rumori improvvisi e potenti. Comprendere questa caratteristica del modello consente di anticipare e prepararsi agli allarmi derivanti da questi suoni eccezionali, riducendo efficacemente la confusione inutile.

Conclusione

Superando i limiti dell'osservazione visiva, la soluzione audio AI di Hanwha Vision crea un sistema di allerta precoce davvero completo che analizza in modo intelligente il suono.
Questo white paper funge da guida pratica, consentendoti di implementare e ottimizzare la tecnologia per il tuo ambiente specifico, dall'installazione iniziale alla messa a punto per prestazioni ottimali.
Con l'evolversi delle sfide in materia di sicurezza, Hanwha Vision continua a impegnarsi per migliorare le proprie capacità di analisi audio, garantendo un'esperienza di sicurezza più stabile, efficiente e proattiva in ogni situazione.

Visione Hanwha

  • 13488 Centro di ricerca e sviluppo Hanwha Vision,
  • 6 Pangyo-ro 319-gil, Bundang-gu, Seongnam-si, Gyeonggi-do, Corea www.HanwhaVision.com
  • Copyright ⓒ 2025 Hanwha Vision. Tutti i diritti riservati.

Documenti / Risorse

Classificazione del suono AI e rilevamento della direzione del suono Hanwha Vision SPS-A100M [pdf] Manuale del proprietario
Classificazione del suono AI SPS-A100M e rilevamento della direzione del suono, SPS-A100M, Classificazione del suono AI e rilevamento della direzione del suono, Classificazione e rilevamento della direzione del suono, Rilevamento della direzione del suono, Rilevamento della direzione, Rilevamento

Riferimenti

Lascia un commento

Il tuo indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *