Elettromiografia Laringea

  • Categoria: Esami
  • Pubblicato: Mercoledì, 28 Marzo 2012 05:30
  • Visite: 39011

 

INTRODUZIONE
L’elettromiografia laringea (EMG) è stata introdotta circa 60 anni fa da Weddel e, da allora numerosi elettrofisiologi della laringe, si sono occupati della analisi delle laringopatie motorie mediante studio della attività neuro-muscolare dell’organo vocale. Solo negli anni ’80, grazie all’impegno di laringologi Giapponesi ed Europei (negli USA la elettromiografia è poco impiegata), la metodica è passata da uno stadio sperimentale ad uno più propriamente clinico dimostrandosi di indubbia ed insostituibile utilità nella diagnosi differenziale dei disturbi motori della laringe. La disamina dei presupposti elettrofisiologici risulta indispensabile per la comprensione dei meccanismi che sottendono alla EMG. Ogni volta che un potenziale d’azione passa lungo una fibra muscolare, una piccola quantità di corrente elettrica diffonde dal muscolo. Se molte fibre muscolari si contraggono simultaneamente, la somma dei corrispondenti potenziali di azione può risultare anche molto grande. Se si inseriscono degli elettrodi rilevatori nel muscolo, se ne può registrare, dopo adeguata stimolazione, l’attività elettrica . In clinica, le alterazioni del tracciato elettromiografico, quali la fascicolazione e la fibrillazione risultano utili per mettere in evidenza eventuali anomalie dell’eccitazionenmuscolare. L’elettromiografia consente lo studio della organizzazione funzionale delle unità motorie e del loro reclutamento in relazione alle modalità di attivazione volontaria. Le fibre muscolari di una stessa unità motoria sono sottoposte allo stimolo degli assoni, contraendosi autonomamente solo in caso di danno assonale (come avviene nel caso delle denervazioni). Nel caso in cui l’EMG registri attività elettrica a riposo è quindi molto probabile una lesione dell’assone motorio.

La FASCICOLAZIONE 
nel tracciato EMG è un segno assai importante di danno neurale. Quando un impulso abnorme si genera in una fibra nervosa motoria, l’intera unità motoria si contrae. Ciò provoca nel muscolo una contrazione sufficientemente forte da potersi notare come una leggera ondulazione. La fascicolazione si nota specialmente in seguito a distruzione dei motoneuroni spinali ovvero nel caso di lesione traumatica del nervo. Mentre le fibre nervose periferiche vanno degenerando, nei primissimi giorni dopo l’insulto traumatico, vi si generano impulsi spontanei per cui si manifestano movimenti di fascicolazione. Dal muscolo si possono allora registrare caratteristici tracciati EMG, caratterizzati da deboli potenziali periodici
.

La FIBRILLAZIONE
è un altro caratteristico segnale di danno neuro-muscolare. Una volta che siano stati distrutti tutti i nervi di un muscolo e che le fibre nervose abbiano cessato di funzionare (in genere dopo 3-5 giorni dall’evento lesivo) nelle fibre muscolari denervate cominciano a comparire impulsi spontanei. All’inizio ciò si verifica ad intervalli di pochi secondi ma, dopo qualche giorno o qualche settimana, la frequenza aumenta sino a 3-10 impulsi al secondo. Ne deriva che le fibre muscolari, una volta perduta la loro innervazione, sviluppano una ritmicità intrinseca. Dopo parecchie settimane, l’atrofia delle fibre muscolari si sarà tanto estesa che anche gli impulsi fibrillatori cessano. La forma e le dimensioni dei potenziali generati dalla contrazione della unità motoria sono in relazione al numero di fibre muscolari che costituiscono ogni unità motoria. Durata, ampiezza e morfologia dei potenziali di unità motoria costituiscono importanti parametri di riferimento per la diagnosi di patologia. Una riduzione del numero di fibre muscolari (patologie primarie del muscolo) comporta un potenziale di unità motoria di dimensioni ridotte; al contrario l’aumento del numero di fibre muscolari per unità motoria (patologie neurogene periferiche con fenomeni di reinnervazione) determina dimensioni aumentate del potenziale di unità motoria. La forza muscolare è funzione del numero di unità motorie reclutate e della loro frequenza di attivazione. Nelle patologie in cui vi sia una perdita di assoni motori, il tracciato EMG presenterà una riduzione del reclutamento spaziale mentre, in caso di patologie sopra-spinali si assisterà ad una alterazione del reclutamento temporale.

MODALITÀ DI REGISTRAZIONE EMG
L’elettromiografia laringea può essere rilevata con due distinte metodiche: 
• inserimento di micro aghi-elettrodo direttamente nel muscolo vocale, per via endoscopica sotto guida tele-laringoscopica diretta; 
• registrazione mediante aghi-elettrodo introdotti per via trans-cutanea. Nella nostra esperienza abbiamo messo a punto una metodica «mista» che prevede l’infissione degli elettrodi per via trans-cutanea, controllando il corretto posizionamento sia mediante verifica dell’attività EMG, sia mediante visione endoscopica (fibro-laringoscopio introdotto in laringe) 6. Tale metodica ha il vantaggio di consentire, nel corso dello stesso esame, anche la registrazione dell’attività elettrica del muscolo crico-tiroideo e, di conseguenza, di controllare l’integrità del nervo laringeo superiore. Ulteriore vantaggio è quello di evitare l’anestesia della laringe, non del tutto scevra di interferenze sulla successiva registrazione EMG. La procedura da noi standardizzata consiste nei seguenti tempi di intervento: 
• introduzione trans-nasale del fibro-laringoscopio flessibile e, una volta raggiunta una soddisfacente visualizzazione della regione glottica e del cono sottoglottico, sua fissazione al bordo marinale mediante cerotti; 
• esame della funzione del muscolo crico-tiroideo. A tal proposito, senza alcuna anestesia, si procede a puntura della membrana crico-tiroidea (1,5 cm dalla linea mediana, rasentando il bordo superiore della cartilagine cricoide) fino a visualizzare la punta dell’ago nell’endolaringe. Aquesto punto l’ago viene retratto fino a sua completa scomparsa nello spessore della parete laringea. Il corretto posizionamento dell’ago-elettrodo viene controllato attraverso EMG (registrazione di attività neuromuscolare di entità crescente all’aumentare della frequenza vocale – assenza di potenziali derivanti dall’attività dei muscoli pre-laringei); 
• esame della funzione del muscolo tiro-aritenoideo. L’infissione dell’ago-elettrodo avviene pungendo la membrana crico-tiroidea e, sotto controllo laringoscopico, visualizzando la successiva progressione dell’ago in senso mediolaterale e caudo-craniale, fino a scomparsa della sua punta nello spessore della corda vocale (Fig. 3). La registrazione per via trans-cutanea dell’attività dei muscoli crico-aritenoideo laterale e posteriore, pur descritta in letteratura, non viene praticata routinariamente, sia per la notevole indaginosità, sia per il rischio di scatenare pericolosi riflessi vagali nel paziente.
L’attività muscolare viene da noi registrata in tre condizioni standard:
• a riposo (anche se tale condizione è più teorica che pratica potendosi rilevare
attivazioni muscolari parassite durante la deglutizione e durante la respirazione);
• in corso di attivazione muscolare regolare;
• in corso di attivazione muscolare massiva.
Da tali registrazioni/base è possibile desumere importanti ragguagli circa la tipologia
della laringopatia motoria, sulla sua natura e formulare precise indicazioni in merito al protocollo riabilitativo più adeguato.

INDICAZIONI ALLA ELETTROMIOGRAFIA LARINGEA
Da quanto detto, appare chiaro che l’EMG rappresenta una indagine strumentale che permette un significativo approfondimento diagnostico ed una più corretta indicazione terapeutica nei disordini della motilità laringea. Nel caso di turbe della motilità laringea, i problemi da chiarire sono i seguenti:
• diagnosi differenziale tra emiplegia di natura articolare (artriti/anchilosi/lussazioni crico-aritenoidee) ed emiplegia di natura neurogena;
• definizione della possibile origine miogena del disturbo motorio (miopatie).
A tal proposito è opportuno considerare come nelle paralisi da blocco della articolazione crico-aritenoidea, il quadro EMG sia del tutto normale.
Nelle forme da lesione neurale (lesioni dei nervi laringei), il tracciato EMG varia in relazione all’entità del danno e al tempo trascorso dall’evento lesivo (a seconda che siano già in atto o meno i fenomeni di reinnervazione). Il follow-up di una paralisi ricorrenziale può essere effettuato attraverso registrazioni seriate della EMG. In fase precoce, infatti, si assisterà ad una assenza completa di potenziali di unità motoria (potenziali di fibrillazione – onde lente positive). In fase intermedia sarà possibile registrare potenziali polifasici con una riduzione del reclutamento anche per attivazioni massive. A reinnervazione stabilizzata è possibile registrare potenziali di tipo «gigante». Attraverso un adeguato follow-up elettromiografico sarà anche possibile selezionare i pazienti candidati ad interventi di iniezione intra-cordale o di medializzazione ariteno-cordale. In linea di massima, l’intervento riabilitativo di fono-chirurgia è controindicato nel caso di tendenza alla reinnervazione (ridotta atrofia del muscolo vocale con buon compenso), mentre sarà opportuno nel caso di tracciati EMG con caratteristiche persistenti da denervazione. La diagnosi delle miopatie è del pari assai agevole attraverso la metodica elettromiografica (l’unica in grado di esaminare direttamente le singole unità motorie del muscolo).Nelle forme degenerative saranno registrati potenziali di unità motoria di piccola ampiezza e breve durata con tracciato di «interferenza» (sovrapposizione e fusione di più potenziali di unità motoria) anche per attivazioni volontarie di debole entità. Nella miastenia (patologia della placca neuro-muscolare) la peculiarità del tracciato EMG è quella della esauribilità del tracciato a seguito di attivazione volontaria reiterata. La registrazione elettromiografica è inoltre indispensabile quale supporto delle tecniche di iniezione intra-cordale di tossina botulinica per il trattamento della disfonia spasmodica. Solo con la comparsa di potenziali di unità motoria sarà possibile essere certi che l’ago/elettrodo è realmente posizionato nel contesto del muscolo vocale, sede elettiva di infiltrazione del Botox.

IMPIEGO DELLA EMG IN AMBITO MEDICO/LEGALE
Il diffondersi dell’atteggiamento rivendicativo dei pazienti, di fronte a postumi insoddisfacenti della terapia, ha condotto ad un vertiginoso incremento delle azioni legali nei confronti del Medici. Nell’ambito della chirurgia della testa e del collo, e di quella toracica, i disturbi acquisiti della motilità laringea giungono frequentemente alla attenzione degli Studi Legali. Il trauma chirurgico costituisce, nelle casistiche degli ultimi decenni, la più frequente causa di deficit ricorrenziale con una prevalenza per il nervo laringeo inferiore di sinistra (decorso più lungo e più complesso) e per il sesso femminile (maggiore incidenza di patologia tiroidea di interesse operatorio). Spesso, il rilievo di una emiplegia laringea, conseguente ad un intervento di tiroidectomia, contrasta con quanto rilevato dal chirurgo, certo di aver rispettato il nervo e di aver messo in atto tutte le misure idonee per garantirne l’integrità nel corso della dissezione. L’elettromiografia rappresenta l’unico mezzo diagnostico in grado di differenziare una emiplegia da lesione del nervo da una da artrite crico-aritenoidea 1 3 6. La revisione di molti disturbi post-operatori della motilità della laringe ha condotto a spostare la responsabilità del danno dal chirurgo all’anestesista (intubazione traumatizzante con lacerazione della capsula articolare della aritenoide o con vera e propria lussazione condro-articolare). È pur vero che una attenta registrazione EMG percutanea può costituire un’arma a doppio taglio in quanto in grado di svelare lesioni del nervo laringeo superiore (denervazione del muscolo crico-tiroideo) responsabile di molti (e talora gravi) disturbi della voce dopo chirurgia della tiroide, rimasti indefiniti per l’assenza di segni obiettivi (normale motilità cordale). Un aspetto ancora più fine, utile nella definizione della prognosi del danno jatrogeno (e quindi nella fase di liquidazione dell’indennizzo), è rappresentata dalla diagnosi EMG della entità del danno subita dal tronco nervoso. Solo nel 3° grado di Seddon di lesione neurale, si assiste ad una interruzione della continuità del nervo e, in assenza di una neuroraffia chirurgica, la reinnervazione sarà impossibile (persistenti potenziali da denervazione). Nel 1° e 2° grado, viceversa, il nervo viene variamente danneggiato, pur conservando una sua continuità anatomica. In tali casi sarà lecito attendersi una reinnervazione più o meno completa a distanza di tempo dall’evento lesivo (comparsa di potenziali di unità motoria da reinnervazione). È possibile pertanto affermare l’importanza medico-legale della elettromiografia, non solo nella definizione della etiologia del disturbo iatrogeno della motilità laringea, ma anche nella formulazione della prognosi funzionale, attraverso un attento follow-up elettromiografico della laringe.
CASISTICA
L’elettromiografia, pur rappresentando un esame di «secondo livello» nella diagnostica laringologica, rientra tra le indagini specialistiche cui il foniatra deve far ricorso per porre una accurata diagnosi anatomo-fisiologica delle laringopatie motorie. Negli anni 1990-2001, sono stati da noi esaminati 84 pazienti affetti da disturbi della motilità laringea, suscettibili di una integrazione diagnostica EMG. Nella maggior parte dei casi, fatta esclusione per i pazienti portatori di disfonia spasmodica in cui l’EMG costituisce un esame complementare e, in buona sostanza, di «guida» alla iniezione intracordale di tossina botulinica, l’indagine elettrofisiologica diretta ci è stata richiesta per la valutazione di monoplegie laringee successive ad interventi di tiroidectomia. La richiesta dell’esame si è inserita talora nell’ambito di perizie medico-legali in cui il quesito era quello di dirimere una supposta interruzione jatrogena del nervo laringeo inferiore. In altri casi di emiplegia, la metodica è stata impiegata per valutare l’entità del recupero neuro-muscolare (andamento della reinnervazione) a distanza da un evento lesivo. Nella tabella seguente riportiamo i dati in nostro possesso relativi ai pazienti sottoposti, ad esame EMG nel periodo considerato. Per quanto riguarda le complicanze, sono stati da noi registrati solo due casi di reazione vagale successiva alla introduzione dell’ago-trasduttore attraverso la membrana crico-tiroidea, in un caso associata a laringospasmo tale da richiedere assistenza respiratoria. In un secondo altro paziente si è verificata la comparsa di un ematoma pre-laringeo, verosimilmente in seguito alla puntura accidentale dell’arteria crico-tiroidea. In tutti gli altri casi la metodica è stata ben sopportata, senza apprezzabile disagio da parte del paziente e in tempi complessivamente contenuti. L’associazione della introduzione trans-cutanea dell’ago-elettrodo con la visione diretta del tempo endolaringeo mediante fibroscopio flessibile (tecnica da noi introdotta oramai da oltre 5 anni), ha consentito di ridurre ulteriormente i tempi di esecuzione dell’esame con un sicuro guadagno in termini di accuratezza di registrazione.

CONCLUSIONI
L’elettromiografia laringea costituisce un esame estremamente specifico, sensibile ed attendibile in ambito laringologico. I disturbi della motilità possono essere infatti esattamente diagnosticati e differenziati per sede ed etiologia. L’esame EMG è infatti l’unica metodica in grado di distinguere una plegia di natura neurogena da una articolare e da una piogena. Sono intuibili i correlati di ordine terapeutico, prognostico e medico-legale, nonché la possibilità di attuare un meticoloso ed oggettivo follow-up elettrofisiologico del paziente.

Elettroglottografia e gli Indici Aerodinamici

  • Categoria: Esami
  • Pubblicato: Mercoledì, 28 Marzo 2012 05:29
  • Visite: 33747

 

L’elettroglottografia o elettrolaringografia (EGG) è una tecnica di indagine della funzione glottica introdotta nel 1957 da Philippe Fabre, professore di fisica biologica all’Università di Lille. Essa consente di studiare e monitorare le caratteristiche e la regolarità della vibrazione delle corde vocali senza interferire con l’attività fono-articolatoria e senza arrecare alcun disagio al soggetto in esame. Questa metodica comporta il posizionamento di due elettrodi metallici a placca con superficie di contatto di circa 2-3 cm2 sulla cute di ciascun lato del collo, in corrispondenza delle cartilagini tiroidee a livello del piano glottico, per misurare l’impedenza elettrica che è in funzione del tasso di contatto delle corde vocali (essa diminuisce a corde vocali chiuse ed aumenta a corde vocali aperte); si utilizza una corrente alternata ad alta frequenza (0,3-5 MHZ) ed a bassa intensità (< 20 mA) che non viene avvertita dal paziente e non determina contrazioni muscolari o stimolazioni nervose. Alcuni fattori (tessuto adiposo, spessore della cute e delle lamine tiroidee, movimenti della laringe) possono influenzare il segnale ma i moderni elettroglottografi sono dotati di filtri e di sistemi di controllo automatico dell’amplificazione così da ottenere una stabilizzazione dell’ampiezza della curva EGG. Il segnale elettroglottografico viene visualizzato sullo schermo di un oscilloscopio e registrato per lo studio in tempo differito e per l’archiviazione; attualmente, con la disponibilità di sistemi informatici, il segnale viene acquisito sotto forma numerica, digitalizzando cioè direttamente l’uscita dell’elettroglottografo e memorizzando i dati su hard disk e/o su Cd Rom. In questo modo si evitano tutti i problemi di distorsione di ampiezza e di fase presenti nella registrazione analogica. Esso può essere visualizzato secondo due polarità alternative (in alto la fase di chiusura ed in basso la fase di apertura oppure nella parte superiore la fase di massima impedenza che corrisponde alle corde vocali aperte ed inferiormente la massima ammettenza). L’immagine elettroglottografica appare sotto forma di onda periodica paratriangolare la cui frequenza è uguale alla frequenza di vibrazione delle corde vocali; essa può essere suddivisa in una fase di rapida salita (le c.v. si stanno accollando sul piano orizzontale in senso antero-posteriore), fase quasi statica superiore (fase di massimo contatto), fase lenta di discesa (le c.v. iniziano a separarsi), fase quasi statica inferiore (le c.v. sono separate).Numerosi sono stati i tentativi di classificazione dei tracciati EGG negli ultimi 35 anni. Una modalità di interpretazione e di utilizzo è quella esclusivamente morfologica che cerca di trovare correlazioni fra la forma dell’onda e/o la tipologia della irregolarità nella successione delle onde nel tracciato e particolari situazioni patologiche organiche e/o funzionali. È però opportuno sottolineare che esistono variazioni elettroglottografiche intraindividuali in condizioni fisiologiche, come ad esempio nel passaggio da un registro di petto a un registro di falsetto oppure durante il periodo della muta vocale 4, e che è possibile rilevare una curva EGG anomala sia nei soggetti normali, sia in patologie non strettamente vocali. Si è cercato, quindi, da un lato di parametrare la morfologia del tracciato alla fisiologia della vibrazione mediante correlazioni fra EGG e stroboscopia ed EGG e cinematografia ultrarapida, dall’altro di quantizzare le varie fasi del tracciato essenzialmente sulla coordinata orizzontale e di ottenere una sua normalizzazione che consentisse di eliminare le diversità legate alle variazioni interindividuali o intraindividuali della frequenza fondamentale. Una delle parametrizzazioni morfologiche più complete è quella di Lecluse 24 (Fig. 1) che individua cinque punti significativi nella curva: I: momento iniziale di chiusura; II: momento di chiusura completa solo sul piano orizzontale; III: momento di chiusura completa anche sul piano verticale; IV: momento di inizio dell’apertura; V: momento in cui si realizza l’apertura completa sul piano verticale. Ne conseguono 6 parametri temporali (I-II, II-III, III-IV, IV-V, V-I) che possono essere normalizzati mediante il rapporto fra la loro durata e la durata totale del ciclo elettroglottografico (T). Ferrero propone una semplificazione considerando il periodo I-III (fase di chiusura o di adduzione), il periodo III-V (fase di diastasi o di abduzione), il periodo V-I (fase di apertura) ed il loro rapporto con T dà origine rispettivamente al quoziente di chiusura, al quoziente di diastasi e al quoziente di apertura.

L’elettroglottografia è senz’altro una metodica di esame semplice e non invasiva, che fornisce una esatta misurazione della frequenza fondamentale. È stata utilizzata nello studio di varie laringopatie ma l’applicazione clinica risulta complessa perché non riesce a dare sempre informazioni utili a scopo diagnostico. Alcuni aspetti tecnici dovranno essere risolti ed ulteriori ricerche sono necessarie per superare le controversie relative all’interpretazione e alla quantificazione del tracciato. L’analisi aerodinamica della fonazione trova il presupposto nell’intima connessione anatomo-funzionale della laringe con l’apparato broncopolmonare (mantice) che giustifica l’attenzione che gli Autori hanno sempre rivolto alla dinamica respiratoria in rapporto con il fenomeno della fonazione. I quattro aspetti aerodinamici fondamentali sono: la velocità del flusso di aria a livello della glottide, la pressione sottoglottica, la pressione sopraglottica e l’impedenza glottica. I valori di questi parametri si modificano durante un ciclo vibratorio in relazione all’apertura e alla chiusura della glottide ma queste rapide variazioni per motivi tecnici non possono essere normalmente misurate nel vivente. Con finalità cliniche di solito si fa riferimento ai valori medi di questi parametri che sono fra loro correlati nel modo seguente 18: Psub (pressione sottoglottica media) – Psup (pressione sopraglottica media) = MFR (quoziente medio di flusso, correlabile con la velocità) x GR (resistenza glottica media). Grazie all’utilizzo di appropriato strumentario (in alcuni casi è sufficiente un semplice cronometro), si possono ricavare utili informazioni sull’efficienza pneumo- fonatoria. Il più semplice parametro aerodinamico della voce è il tempo massimo fonatorio (MPT) espresso in secondi. Esso consiste nel far pronunciare al paziente la vocale /a/ il più a lungo possibile, dopo una profonda inspirazione, ad una frequenza ed intensità spontanee e confortevoli. È maggiore nel maschio rispetto alla femmina ma il limite critico inferiore non è molto diverso fra i due sessi: un valore inferiore a 10 secondi deve essere considerato patologico. Eventuali possibili risultati inattendibili possono verificarsi per una scarsa capacità vitale (CV) che può determinare valori ridotti pur in presenza di competenza glottica normale o per una CV molto elevata che potrebbe compensare e mascherare un difetto di chiusura glottica. Per ovviare a questo rischio si fa ricorso al quoziente fonatorio (PQ) che è correlato al MPT dalla seguente equazione: PQ = Capacità vitale/MPT (sec). Normali valori di PQ sono stati riportati da vari Autori; i valori medi nella popolazione adulta sembrano essere compresi tra 120 e 190 ml/sec. Un altro indice importante è il quoziente medio di flusso (MFR) che si ottiene dividendo la quantità di aria usata durante la fonazione per la durata della fonazione stessa. Si fa pronunciare la vocale /a/ sostenuta emessa alla naturale frequenza ed intensità utilizzata dal soggetto in esame il quale deve fonare dentro una maschera o un boccaglio con il naso pinzato connessi ad uno spirometro o ad uno pneumotacografo o ad un anemometro a filo caldo. I limiti critici sono rispettivamente 40 e 200 ml/sec per cui vanno ritenuti patologici valori non compresi in questo range. A volte può essere utile utilizzando uno spirometro per valutare la curva flussovolume che assume una importanza particolare in quei casi in cui i problemi di voce sono associati ad ostruzione laringea, come nella paralisi bilaterale adduttoria, nelle stenosi causate da cicatrici, nell’edema di Reinke di grado severo o nelle neoplasie ostruenti.La pressione aerea sottoglottica può essere misurata mediante palloncini endoesofagei, cateteri transglottici o tramite puntura tracheale; è quindi sempre una metodicainvasiva che non viene utilizzata routinariamente ma è riservata alla ricerca. Nella maggior parte dei casi i valori della pressione sottoglottica durante la fonazione normale oscillano tra i 5 e i 10 cm H2O 18. Essa è direttamente correlata all’intensità e alla frequenza di fonazione (aumenta con l’incremento di questi due parametri). Nell’ambito della patologia, sono stati riscontrati valori generalmente più alti di pressione sottoglottica in caso di carcinoma laringeo, paralisi ricorrenziale, laringocele e disfonia disfunzionale. La pressione aerea sottoglottica può infine essere utilizzata per stimare l’efficienza fonatoria. La resistenza glottica non può essere misurata direttamente, ma solo attraverso il rapporto Psub/MFR. Isshiki 20 ha riportato valori di resistenza glottica di 20-100 dyne sec/cm2 alle basse e medie frequenze e valori di 150 dyne sec/cm2 alle alte frequenze ma ulteriori ricerche sono necessarie prima dell’applicazione clinica. Fra tutti questi indici aerodinamici i più utilizzati sono il tempo massimo fonatorio (MPT) ed il quoziente fonatorio (PQ) che sono facilmente rilevabili senza la necessità di ricorrere ad apparecchiature sofisticate e/o a manovre invasive e sono in grado di fornire utili informazioni sulla efficienza glottica.

Esame Spettroacustico della Voce

  • Categoria: Esami
  • Pubblicato: Mercoledì, 28 Marzo 2012 05:17
  • Visite: 40904

 

Attualmente le strumentazioni a tecnologia digitale, implementate su Personal Computer, consentono elaborazioni ed analisi del segnale verbale in modo rapido ed affidabile, offrendo nel contempo prodotti grafici e dati numerici obbiettivi prima impensabili con le apparecchiature analogiche. Una stazione di lavoro per l’analisi acustica della voce è essenzialmente costituita da un PC dotato di pacchetti software dedicati e di un hardware finalizzato all’acquisizione e riproduzione del segnale. Recentemente anche quest’ultimo può essere sostituito da una comune scheda audio incorporata nel personal computer (vedi cap. IV.5). La facilità di impiego dei diversi software e l’abbattimento dei costi hanno consentito da un lato una notevole semplificazione dell’interazione utente-macchina, dall’altro una considerevole diffusione di tali strumentazioni, per cui molti ambulatori dedicati alla diagnosi-terapia dei disturbi della voce possono disporre attualmente di sistemi di analisi acustica in grado di integrare altre valutazioni, come quella laringostroboscopica. Le principali analisi effettuate nella prassi ambulatoriale sono l’esame spettrografico a finestra lunga e corta; la determinazione della frequenza fondamentale (fo) e dell’ampiezza di emissione vocale, con il loro andamento nel tempo (curva di intonazione e di intensità); l’estrazione di parametri numerici volti all’obbiettivazione delle perturbazioni del Periodo Fondamentale (Jitter) e dell’Ampiezza (Shimmer), lo studio del bilancio energetico spettrale (rapporto fra componente periodica ed aperiodica nel segnale: Harmonic to Noise Ratio), della diplofonia (semplice o multipla) nonché degli arresti momentanei dell’emissione (Breaks Vocali). Altra metodica di analisi, nata per lo studio della voce cantata, è rappresentata dalla fonetografia, che oggi consente valutazioni del campo vocale anche in soggetti privi di «orecchio musicale» (con modalità automatica). Utilizzando come base il sistema CSL della Kay Elemetrics Corp., oggi ampiamente diffuso a livello nazionale ed internazionale (ed a cui si riferisce tutta l’iconografia presentata), si possono implementare pacchetti applicativi diversi che consentono di ottenere le misurazioni sopra riportate in modo semplice e rapido.ù

ANALISI SPETTROGRAFICA Lo spettrogramma rappresenta le variazioni temporali del contenuto spettrale del segnale verbale. Applicando a successive «finestre di analisi» la trasformata rapida di Fourier (FFT: Fast Fourier Transform) si ottiene una serie di spettri di potenza (o sezioni) che avanza nel tempo. Le informazioni di ciascuna sezione, rappresentata da frequenza ed ampiezza di ogni armonica, sono riportate rispettivamente in ordinata ed in numero di pixel di ogni piccola porzione dello schermo, codificando l’intensità con diverse variazioni colorimetriche. Il tempo viene invece rappresentato sull’asse delle ascisse come evento spettrale delle successive finestre analizzate. Lo spettrogramma è quindi una rappresentazione grafica tridimensionale che, rispetto ad altre analisi, aggiunge il pregio della temporalità; non è una analisi statica, ma rileva le modificazioni nel tempo dell’emissione glottica e del filtro sovraglottico. Questo aspetto può essere evidenziato anche in tempo reale (con l’utilizzo del software Real-time Spectrogram) con indubbi vantaggi nella pratica diagnostica e riabilitativa. La risoluzione frequenziale, che nel vecchio linguaggio analogico si risolveva in «filtro a banda larga» (banda passante sui 300 Hz) e «filtro a banda stretta» (banda passante sui 45 Hz), è ora espressa come finestra di analisi (o frame), ovvero come segmento temporale costituito da un determinato numero di campioni (o cosiddetti punti campionati). Una «finestra lunga» presenta una maggiore risoluzione frequenziale:
essa è in grado di separare le diverse armoniche e corrisponde ad un filtro analogico a banda stretta; una «finestra corta» ha minor capacità di risoluzione frequenziale: nella sua applicazione algoritmica può comprendere due o più armoniche ed è analoga ad un filtro a banda larga (Fig. 1).
È necessario dunque «presettare» la lunghezza della finestra di analisi quando ci si accinge allo studio spettrografico. Nel sistema CSL la larghezza della finestra è calcolata in numero di punti campionati. Vengono proposti nove valori: 50, 75, 100, 125, 200, 256, 512, 600 e 1024.
Il programma emula una determinata banda passante (analoga ad un filtro analogico), modificando la frequenza di campionamento e la larghezza della finestra di analisi.
Ad esempio, per dati campionati a 10.000 Hz, una finestra di 50 punti corrisponde ad una banda di 293 Hz (come una banda larga), mentre alla stessa frequenza di campionamento una finestra di analisi di 512 punti emula un filtro analogico di 29 Hz, in grado di separare ogni singola armonica anche con segnali a bassa fo. L’analisi spettrografica rappresenta uno degli esami fondamentali nello studio delle disfonie. L’interpretazione degli spettrogrammi, particolarmente quelli a finestra lunga, tiene conto della presenza ed estensione frequenziale delle armoniche, del loro andamento nel tempo, delle caratteristiche di attacco e di estinzione, della presenza o meno di diplofonia, oppure di aperiodicità (rumore) nelle diverse regioni spettrali, sostitutiva o meno della tessitura armonica. La presenza di rumore alle alte frequenze è messa in relazione con l’insufficiente tensione e adduzione cordale, con conseguente fuga d’aria fonatoria e sensazione percettiva di voce soffiata. La componente aperiodica a bassa frequenza, frammista o sostitutiva delle armoniche, è dovuta alla vibrazione irregolare per aumento dell’adduzione e della rigidità cordale.

Lo spettrogramma a finestra corta fornisce un maggior numero di informazioni sulle caratteristiche di risonanza del condotto vocale, con possibilità di ricavare notizie su come il soggetto utilizza i propri organi articolatori. Considerando sia la distribuzione spettrale sia l’intensità della componente aperiodica (rumore) sia le modificazioni delle armoniche, Yanagihara (1967) ha proposto una classificazione spettrografica di gravità della disfonia. Lo studio interessava 167 pazienti che percettivamente presentavano disfonia lieve, moderata o grave: Tipo I: le regolari componenti armoniche sono frammiste alla componente di rumore nella regione formantica delle vocali [a], [i], [u], [o] ed [e] (al di sotto dei 3000 Hz): disfonia lieve. Tipo II: la componente di rumore nella seconda formante di [i] ed [e] predomina sulla componente armonica, e compare lieve rumore anche alle frequenze al di sopra dei 3000 Hz, sempre nelle stesse vocali ([i] ed [e]): disfonia moderata. Tipo III: la seconda formante di [i] ed [e] è totalmente sostituita da rumore, che aumenta ulteriormente al di sopra dei 3000 Hz: disfonia grave. Tipo IV: le seconde formanti di [a], [i] ed [e] sono sostituite da rumore, le prime formanti di tutte le vocali perdono la loro componente periodica; il rumore alle alte frequenze aumenta di intensità: disfonia molto grave. Nell’interpretazione dello spettrogramma bisogna considerare, come già sottolineato, la presenza o meno di diplofonia, che graficamente si presenta come subarmoniche di intensità ridotta intercalate alle armoniche regolari.

La «diplofonia» consiste in un suono laringeo complesso a cui si sovrappone un secondo suono complesso, con la seconda fondamentale subarmonica della prima, più grave di un’ottava . La diplofonia viene prodotta da una vibrazione glottica di ampiezza asimmetrica: dopo una vibrazione di una certa ampiezza ne segue una meno ampia. Non si ha la percezione di due suoni distinti, dal momento che il suono è armonico e favorisce il raggruppamento delle armoniche rispetto alla fondamentale bassa (Fig. 2). Queste caratteristiche definiscono la diplofonia di primo grado. La diplofonia di secondo grado è invece caratterizzata da una vibrazione di ampiezza ridotta ogni due vibrazioni regolari; ne consegue che la seconda fondamentale ha frequenza 1/3 rispetto alla prima e tra le armoniche del primo suono sono presenti due sub-armoniche relative al secondo suono. La diplofonia deve essere distinta dalla voce bitonale; in questo caso sono presenti due frequenze fondamentali, che possono anche non essere in rapporto armonico tra loro, poiché il secondo suono è prodotto da un’altra sorgente sonora laringea in aggiunta alla normale sorgente glottica. La seconda sorgente può essere rappresentata dalla vibrazione delle false corde o delle aritenoidi (Fig. 3).

Situazione del tutto diversa è la voce difonica, la cui genesi è riconducibile all’azione di filtraggio selettivo operata dal tratto vocale sul suono glottico. La sorgente sonora è in questo caso unica (la glottide) e produce un suono complesso normale.
Grazie a una particolare conformazione del tratto vocale ed ad un preciso accordo fono-articolatorio, una armonica della seconda formante viene esaltata a scapito di quelle contigue, al punto da renderla percepibile come un secondo suono «puro». Il «canto difonico» rappresenta quindi il massimo effetto dell’azione di filtraggio del segnale glottico operato dal tratto vocale. L’effetto di risonanza del tratto vocale sopraglottico è appunto quello di aumentare l’ampiezza di alcune armoniche filtrandone altre; se l’inviluppo spettrale del segnale glottico si presenta monotonamente discendente senza minimi o massimi apprezzabili, il segnale verbale evidenzia picchi o zone a massima energia, denominate Formanti (F1, F2, F3, F4, ecc.) . Le Formanti rappresentano le frequenze di risonanza del condotto vocale. Lo studio delle loro caratteristiche (frequenza, ampiezza e banda), come già ricordato, consente dunque una valutazione di come il soggetto utilizza le proprie cavità sovraglottiche. La metodica utilizzata nella caratterizzazione delle formanti è l’LPC (Linear Predictive Coding) che, a partire dal segnale verbale e mediante opportune operazioni matematiche, emula le caratteristiche di quel filtro complesso e variabile nel tempo costituito dal condotto vocale. Mediante il sistema CSL 4300 B è possibile da un lato rilevare l’andamento delle frequenze formantiche sovrapposto allo spettrogramma a finestra corta e dall’altro ottenere i dati numerici relativi (Fig. 5). Le problematiche inerenti l’utilizzo dell’LPC sono state esaurientemente discusse inmletteratura ed a questa si rimanda.

DETERMINAZIONE DELLA FREQUENZA FONDAMENTALE È effettuata dai sistemi in commercio con modalità automatica utilizzando diverse metodiche ed algoritmi a precisione variabile. La natura quasi periodica degli impulsi generati dalla laringe, e le successive modificazioni apportate dalla risonanza del condotto vocale, possono infatti creare difficoltà nell’estrarre la Frequenza Fondamentale del segnale. Nel segmento temporale considerato come intervallo di analisi (finestra di analisi), è possibile talvolta identificare due Periodi Fondamentali (e quindi due fo) diversi. Nel sistema CSL l’fo è calcolata con una metodica di autocorrelazione la quale considera come più attendibile quel valore che meglio si correla con i parametri estratti nei frames precedenti e successivi. Al fine di ridurre la possibilità di errore è indispensabile «presettare» alcune variabili di calcolo quali la lunghezza della finestra di analisi, il passo di avanzamento della finestra, i valori minimi e massimi della fo attesa (Fig. 6). In ambito clinico l’estrazione della frequenza fondamentale (fo), il suo valore numerico medio e il suo andamento nel tempo (curva di intonazione), sono importanti prodotti dell’analisi acustica, utili ai fini diagnostici e riabilitativi. Il valore numerico medio può rientrare o meno nei range di normalità di un soggetto maschio adulto, di una femmina adulta o di un bambino; la rappresentazione grafica della fo nella dimensione temporale può dare informazioni sulla tenuta, sulla presenza di diplofonia, su modificazioni di rilievo del vocalizzo.

DETERMINAZIONE DELL’AMPIEZZA
La misurazione dell’Ampiezza di un segnale complesso qual è quello verbale necessita di metodiche che si basano sui valori mediati delle ampiezze istantanee. Generalmente è utilizzata l’ampiezza efficace (in inglese RMS amplitude: root mean squared amplitude), cioè la radice quadrata della media dei quadrati delle ampiezza istantanee. Il sistema CSL agisce sui valori di ampiezza dei campioni di dati di finestre di analisi successive, e la lunghezza di queste condiziona la sensibilità dell’algoritmo. Quanto più lunga è la finestra di analisi tanto minore è la sensibilità alle rapide variazioni di ampiezza che nel tracciato appariranno «addolcite» (in inglese «smoothed»). Per ovviare a tali problemi di calcolo lo stesso sistema utilizza una lunghezza di finestra uguale ad ogni periodo della forma d’onda. La lunghezza della finestra è dunque variabile avendo ogni volta il valore del Periodo Fondamentale misurato. La metodica è definita «pitch-synchronous». Se invece è preselezionata una determinata lunghezza (i valori possibili nel sistema CSL operante in ambiente Windows variano da 1 a 250 msec) l’estrazione dell’energia sarà «pitch asynchronous». L’estrazione dell’energia o ampiezza, particolarmente nella sua rappresentazione grafica (curva di intensità) fornisce informazioni sull’attacco vocale (dolce o duro) e sulla tenuta di emissione (regolare, irregolare, modulata, interrotta, in caduta, insufficiente) (Fig. 7).

Il software Real-Time Pitch Extraction, supportato dal sistema CSL, fornisce in tempo reale il grafico dell’andamento della fo e dell’ampiezza, ed in tempo differito i valori statistici relativi. Il suo utilizzo riveste importanza, oltre che diagnostica, soprattutto riabilitativa poiché costituisce un modello target nel trattamento dei disturbi della voce.

PARAMETRI DI VOCALITÀ
Il segnale vocale è un suono complesso quasi periodico, presenta cioè, anche se prodotto con la massima stazionarietà e da un soggetto normofonico, variazioni del Periodo Fondamentale e dell’Ampiezza, a breve e/o a lungo termine. Le modificazioni casuali a breve termine (microperturbazioni) del Periodo Fondamentale, e quindi della fo, sono definite come jitter, mentre quelle dell’Ampiezza come shimmer.
Le variazioni regolari delle stesse caratteristiche del segnale a lungo termine (più o meno periodiche) costituiscono al contrario le così dette modulazioni di Frequenza ed Ampiezza (tremori di Frequenza ed Ampiezza) e di esse è calcolabile sia la frequenza che la profondità. Oltre a questi parametri è stato poi introdotto anche il rapporto fra energia armonica e disarmonica (HNR: Harmonic to Noise Ratio) o il suo «inverso» (NHR: Noise to Harmonic Ratio), la quantificazione della diplofonia semplice o multipla, la misurazione delle interruzioni momentanee o irregolari dell’emissione. Il software MDVP (Multi-Dimensional Voice Program), supportato dal sistema CSL, con frequenza di campionamento di 25000 o 50000 Hz di una emissione, per default, di tre secondi (in genere una [a]), calcola tutti questi parametri offrendo nel contempo rappresentazioni grafiche originali. L’algoritmo di calcolo del jitter e shimmer effettua una media delle differenze di durata o ampiezza di periodi successivi adiacenti; il risultato può essere espresso in valore assoluto (jitter in μs: Jita, shimmer in dB: ShdB) o in percentuale (%) dividendo rispettivamente i valori assoluti per il valore medio del Periodo Fondamentale e dell’Ampiezza (Jitt e Shim nel sistema MDVP). Altri parametri che esplorano le stesse caratteristiche sono ottenuti mediante sotto-medie di periodi adiacenti (3, 5, 11 o altri valori definibili dall’utente), e ciò al fine di ridurre l’errore dovuto ad inadeguata estrazione del Periodo Fondamentale. Ne derivano, in percentuale, i parametri RAP (Perturbazione Relativa Media: Relative Average Perturbation), PPQ (Quoziente di Perturbazione di fo: Pitch Period Perturbation Quotient), sPPQ (Quoziente Mediato di Perturbazione di fo: Smoothed Pitch Period Perturbation Quotient) per il jitter, ed i parametri APQ (Quoziente di Perturbazione di Ampiezza:
Amplitude Perturbation Quotient), sAPQ (Quoziente Mediato di Perturbazione di Ampiezza: Smoothed Amplitude Perturbation Quotient) per il shimmer. Le modulazioni di Frequenza ed Ampiezza, nelle loro caratteristiche di frequenza ed ampiezza (o profondità), sono espresse, per la frequenza (in Hz), dai parametri Fftr (Frequenza del tremore della Fo: Fo – Tremor Frequency) e Fatr (Frequenza del tremore in ampiezza: Amplitude Tremor Frequency) e, per la profondità (in %), dai parametri FTRI (Indice di profondità del tremore in frequenza: Frequency Tremor Intensity Index) ed ATRI (Indice di profondità del tremore in ampiezza:
Amplitude Tremor Intensity Index). Le variazioni percentuali complessive a breve ed a lungo termine, casuali o regolari, sono rilevate per la frequenza dal parametro vFo (Variazione di Fo: Fundamental Frequency Variation) e per l’ampiezza da vAm (Variazione di Ampiezza di Picco: Peak Amplitude Variation), calcolate rispettivamente dal rapporto fra la deviazione standard ed il valore medio della fo e dell’Ampiezza. I bilanci energetici spettrali in diversi range frequenziali sono espressi, in valore assoluto, mediante i parametri:
• NHR (Rapporto Rumore-Armoniche: Noise to Harmonic Ratio): rapporto medio di energia fra le componenti disarmoniche (rumore) nella banda 1500- 4500 Hz e le componenti armoniche nella banda 70-4500 Hz. • VTI (Indice di Turbolenza: Voice Turbulence Index): rapporto medio fra le componenti di energia spettrale disarmonica (di rumore) nella banda 2800- 5800 Hz e le componenti di energia spettrale armonica nella banda 70-4500 Hz. Il parametro dovrebbe essere altamente correlato con la turbolenza secondaria ad incompleta o lenta adduzione delle corde vocali, cioè con la voce definita «soffiata». • SPI (Indice di Fonazione Sommessa: Soft Phonation Index): rapporto medio fra l’energia spettrale armonica nella banda 70-1600 Hz, e l’energia spettrale armonica nella banda 1600-4500 Hz. Questo parametro non è una misura del livello di rumore, ma piuttosto della struttura armonica dello spettro. I rimanenti parametri sono relativi alla obbiettivazione della diplofonia (DSH in % o grado di diplofonia: Degree of sub-harmonic components, ed NSH in valore assoluto o numero di segmenti diplofonici: Number of Sub-Harmonic Segments), delle interruzioni momentanee della sonorità (DVB in % o grado di rotture della sonorità: Degree of Voice Breaks, ed NVB in numero assoluto o numero di rotture della sonorità: Number of Voice Breaks), e degli arresti irregolari della sonorità (DUV in % o grado di sordità: Degree of Voiceless, ed NUV in numero assoluto o numero di segmenti sordi: Number of Unvoiced Segments). Il valore normativo di questi è per definizione uguale a zero in quanto una voce normale sostenuta non dovrebbe avere zone di interruzione né segmenti diplofonici. L’MDVP fornisce due videate grafiche di cui una consente di valutare «a vista» i valori parametrici in soglia o che eccedono la normalità, costituendo per l’otorinofoniatra quello che l’audiogramma è per l’audiologo, ed a ben ragione è dunque definito «vocaligramma» (Fig. 8). L’utilizzo di questi parametri offre la possibilità di disporre di dati oggettivi in grado di caratterizzare una determinata disfunzione vocale. In particolare permette la integrazione con quella soggettività insita non solo nella valutazione uditivo-percettiva della voce, ma anche nella stessa valutazione spettrografica. Infatti anche in quest’ultima l’interpretazione si basa prevalentemente su una impressione visiva che condiziona un giudizio ampiamente soggettivo. Disporre di una vasta gamma di parametri di vocalità, come sopra elencato, può risultare clinicamente utile in quanto alcuni di questi possono essere caratterizzanti per una certa patologia. Ad esempio una voce soffiata può avere i parametri relativi alle perturbazioni a breve termine nella norma, e valori dei parametri relativi alla turbolenza anomali.

Così pure i parametri relativi al tremore che misurano l’instabilità della voce a lungo termine possono risultare patologici in pazienti affetti da morbo di Parkinson e normali in altre patologie laringee. D’altra parte molti dei parametri elencati sono certamente ridondanti poiché esprimono, con algoritmi diversi, una identica caratteristica vocale. Numerose ricerche da un lato suggeriscono di ridurre i parametri MDVP convenzionalmente utilizzabili a soli undici (Fig. 9) e dall’altro sottolineano la opportunità che ogni laboratorio si attrezzi di una propria normativa. Infatti, a parità di utilizzo del medesimo sistema di analisi, ogni gruppo di lavoro può presentare modalità assai diverse sia per la registrazione, le situazioni di rumore ambientale, i microfoni … etc. Questi fattori, insieme alla diversa tipologia della popolazione considerata e al diverso giudizio di qualità vocale, possono determinare con relativa facilità variazioni non trascurabili della soglia di normalità e quindi della categorizzazione nosologica del soggetto. Presenteremo ora alcuni esempi clinici. Caso 1: soggetto di sesso femminile, età 37 anni, normofonico. In Figura 10, nelle diverse finestre, sono rappresentati: A: forma d’onda dellavocale [a] sostenuta; B: spettrogramma a finestra lunga di analisi; C: andamento della fo e dell’intensità nel tempo; D: vocaligramma. Si noti la regolare tenuta sia dell’intensità che della Frequenza Fondamentale e la regolarità delle armoniche nello spettrogramma; in quest’ultimo tuttavia si può intravedere energia disarmonica (rumore) a bassa intensità, intercalata alla tessitura armonica e non sostitutiva.

Il vocaligramma evidenzia tutti gli indici di vocalità entro i limiti normativi. Il parametro ATRI, relativo alla profondità delle modulazioni di Ampiezza, non è graficato in quanto il suo valore è inferiore alla soglia di analisi del sistema che per default è 4,37%. In Tabella I sono riportati i valori degli indici vocaligrafici. Caso 2: maschio di 27 anni affetto da paralisi cordale sinistra post-tiroidectomia con inadeguato compenso cordale controlaterale. Analisi acustica prima della terapia logopedica. Nella finestra A della Figura 11 sono riportate le forme d’onda di tre [a] sostenute; la porzione di forma d’onda della terza [a], delimitata dai cursori in blu (circa tre secondi), rappresenta la parte del segnale sottoposto ad analisi multiparametrica con il sistema MDVP e la cui rappresentazione grafica è riportata nella finestra D. La finestra B evidenzia lo spettrogramma relativo con scarsa rappresentazione della tessitura armonica, presenza di rumore intercalato alle armoniche alle basse frequenze e completamente sostitutivo alle medio-alte (grado tre sec. Yanagihara). Si intravede inoltre diplofonia, soprattutto nella seconda e terza [a]. Nella stessa finestra sono riportati i cursori (in blu) che delimitano la porzione di spettrogramma corrispondente alla parte della forma d’onda analizzata con il sistema MDVP. La corrispondenza è ottenuta mediante il comando «Link Windows …» del menù. Questa modalità di analisi è importante in quanto consente di controllare i dati spettrografici con l’analisi obbiettiva multiparametrica. Si noti inoltre la scarsa tenuta della fo e dell’intensità. In Tabella II sono riportati i valori numerici vocaligrafici relativi.

 

Il paziente ha seguito riabilitazione logopedica (dodici sedute) ottenendo una completa chiusura glottica fonatoria; persiste tuttavia la paralisi cordale sinistra. All’analisi acustica di tre [a] sostenute e consecutive (Fig. 12), si rileva un ripristino della tessitura armonica anche alle alte frequenze con intercalato rumore parzialmente sostitutivo alle alte frequenze; non si evidenzia diplofonia. La valutazione mediante MDVP è stata effettuata con la stessa modalità di cui sopra, ossia delimitando una porzione di forma d’onda di circa tre secondi con controllo visivo dello spettrogramma corrispondente. Il vocaligramma riporta una riduzione significativa di molti dei parametri che prima della terapia eccedevano la normalità. Persiste un aumento lieve dello Shim e maggiormente del parametro VTI, indice di rumore alle più alte frequenze. In Tabella III i valori numerici relativi.

FONETOGRAFIA La metodica rappresenta graficamente e misura l’intensità minima e massima di emissione vocale alle diverse frequenze, dalle più gravi alle più acute. È dunque una rappresentazione dell’entità del campo vocale del soggetto. In ascissa è riportata la frequenza ed in ordinata l’intensità; il grafico risultante (Fonetogramma) è essenzialmente costituito da due linee: la cosiddetta «curva dei piani» che rappresenta l’estensione vocale alle più deboli intensità, e la «curva dei forti» che indica l’estensione alle intensità più elevate. Operativamente, ad esempio mediante una tastiera sonora, viene prodotto un suono che il soggetto deve riprodurre alla massima e minima intensità; se l’altezza del vocalizzo eseguito corrisponde a quella richiesta dall’esaminatore, l’intensità rilevata con un fonometro, posizionato a 30 cm dalla bocca, è riportata sul grafico in corrispondenza della frequenza fondamentale emessa. Una tale modalità può essere lunga e laboriosa, poiché richiede da parte dell’esaminando e dell’esaminatore un «orecchio musicale». Queste difficoltà sono attualmente superabili con metodi informatici che utilizzano softwares che consentono la rilevazione del campo vocale anche in soggetti «stonati», richiedendo l’esecuzione alla massima e alla minima intensità di una scala musicale o di una «sirena», che dalla nota più grave arriva fino a quella più acuta. Nelle figure seguenti (Figg. 13 e 14) sono esemplificati i campi vocali ottenuti con metodica tradizionale (Restricted plot to target tone) e con metodica di registrazione di tutte le emissioni del soggetto testato (Plot all input), utilizzando il software Voice Range Profile (VRP) Model 4.326 della Kay Elemetrics Corp.

Il range tonale nei soggetti normali è di almeno due ottave (24 note successive o «semitoni»); esso può aumentare fino a tre ottave nei cantanti professionisti e può ridursi a pochi semitoni in caso di patologia laringea. La dinamica della intensità è massima nelle note centrali dell’estensione tonale e si riduce sia verso le note più gravi sia verso le più acute. I più importanti parametri di valutazione sono: a) il range in semitoni; b) la massima frequenza; c) la minima intensità; d) la riduzione di dinamica in intensità che si può osservare nella nota del «passaggio di registro» (Fig. 13) (I). La fonetografia ha una notevole importanza nella classificazione della voce cantata e nella diagnosi delle disodie, ma attualmente si assiste ad una sua sempre maggiore applicazione anche nella diagnostica e nel follow-up delle disfonie. Con la combinazione di diversi parametri acustici Wuyts et al. (IV) hanno proposto un indice caratterizzante la gravità della disfonia (Dysphonia Severity Index – Indice di Severità della Disfonia). I parametri acustici utilizzati sono il Tempo Fonatorio Massimo in sec. (MPT), la massima frequenza in Hz (Fo – High), la minima intensità in dB (I – Low) e il Jitter in %. I valori di massima frequenza e minima intensità sono ottenuti dal fonetogramma, mentre il valore del Jitter viene ottenuto dal grafico dell’MDVP. Mediante un’analisi discriminativa lineare di Fisher gli AA definiscono la seguente formula: DSH = 0,13 x TMF + 0,0053 x Fo max – 0,26 x I min – 1,18 x Jitter % + 12,4 Una voce normale ottiene valori di DSI intorno a + 5, mentre una disfonia lieve (G1) corrisponde ad un DSI di + 1, una disfonia moderata (G2) corrisponde ad un DSI di - 1,4 ed una disfonia grave (G3) corrisponde ad un DSI di - 5. Secondo l’esperienza degli Autori, eventuali artefatti o irregolarità nel calcolo del DSI possono avvenire soprattutto se non viene valutato accuratamente il valore della minima intensità nel fonetogramma. Questa metodica merita di essere presa in considerazione nella batteria delle indagini per la valutazione della voce, anche se necessita di essere sperimentata da vari operatori del settore per la sua validazione definitiva.

Esame Spettroacustico Ambulatoriale

  • Categoria: Esami
  • Pubblicato: Mercoledì, 28 Marzo 2012 05:25
  • Visite: 24642

L’esame spettroacustico della voce può essere oggi agevolmente realizzata nell’ambulatorio

specialistico ORL-foniatrico, grazie a prodotti software «low-cost».
Questi software di analisi vocale (Dr. Speech – Multi-Speech – SoundScope)
permettono, in ambiente Windows o Macintosh, di catturare ed analizzare il campione
vocale (DSP – digital signal processing) nell’ambito di un PC multimediale.
La nostra esperienza si è realizzata con il «Multi-Speech 3700» della Kay Elemetrics
Corp. Non è indispensabile che il PC sul quale installare il software abbia un processore
particolarmente potente; la Kay richiede un Pentium maggiore di 266 MHz con almeno 16 MB di memoria Ram, nettamente inferiore all’attuale standard medio di un comune PC multimediale (Pentium 3 a 700 MHz con 64 MB di memoria Ram). Come tutti i programmi basati su un hardware multimediale anche quelli in oggetto sono alquanto limitati dalle specifiche performance della scheda sonora, soprattutto nei riguardi della qualità del rapporto segnale/rumore (SNR: signal-to-noise ratio), abitualmente 40-60 dB contro gli 86 dB del CSL 4300B. La maggior parte delle schede sonore abitualmente installate sui computer multimediali non hanno particolari funzioni per «l’audio input» che è generalmente alquanto semplice e quasi sempre descritto nelle sue caratteristiche senza dettaglio. È pertanto indispensabile, per effettuare un corretto esame spettroacustico, installare sul proprio PC schede sonore «professionali» che possano migliorare le caratteristiche dell’acquisizione audio, supportando adeguatamente un microfono ad alta sensibilità.

PRELIEVO DEL SEGNALE
È ottimale che la cattura del segnale vocale avvenga in una cabina silente; ove non fosse disponibile è raccomandabile che il rumore di fondo dell’ambulatorio non superi i 40 dB per non inficiare la successiva analisi del segnale vocale. Il microfono professionale consigliato dalla Kay per il Multi-Speech è il «AKG Acoustic Model C-410» posizionato a 5 cm dalle labbra (per evitare interferenze del rumore ambientale) con una angolazione di 45° (per evitare perturbazioni del flusso aereo).L’uso di un preamplificatore microfonico esterno protegge il basso livello del segnale microfonico dal rumore del computer, ottenendo un aumento del rapporto segnale/rumore di circa 6 dB. Fra i microfoni a condensatore di ultima generazione meritano di essere ricordati, per le specifiche caratteristiche tecniche, il «Rode NTK», lo «Shure KSM-44» e lo «Sennheiser MKH800». Per uniformare il metodo di campionamento, su una acquisizione vocale di almeno 6 secondi, (/a/ tenuta) vanno presi in considerazione solo i 2 secondi centrali sia per evitare le interferenze dell’attacco e dello stacco vocale che per analizzare almeno 110 cicli di vibrazione delle corde vocali. Campioni vocali di 3 secondi permettono di analizzare circa 200 cicli di vibrazione delle corde vocali anche in presenza di voci molto gravi. L’intensità di emissione della /a/ deve essere eguale alla voce di conversazione, senza variazioni di intensità o frequenza, possibilmente fra i 50 e i 65 dB; infatti emissioni vocaliche eguali o maggiori di 70 dB di intensità, tendono a «saturare» l’oscillogramma alterando la successiva valutazione dei parametri vocali quali jitter, shimmer ed H/N ratio. Le schede sonore multimediali hanno tre frequenze di campionamento standard (11025 Hz, 22050 Hz e 44100 Hz); con il Multi-Speech possiamo effettuare acquisizione e campionamento a qualsiasi valore fino alla frequenza più alta supportata dalla scheda sonora. Alte frequenze di campionamento comportano campioni vocali di notevoli dimensioni ed occupanti quindi grandi quantità di memoria nell’HD (disco rigido); la capacità di memoria degli HD attuali (30-40 GB) e la diffusa presenza di sistemi di back-up a basso costo (masterizzatori) hanno risolto il problema dell’acquisizione di dati ad alte frequenze di campionamento e della loro successiva archiviazione. Il «sampling rate» (frequenza di campionamento) ottimale è di 20 kHz (le informazioni linguistiche sono significative fino a circa 8-10 kHz) ma per l’analisi di classi di fonemi come le vocali, l’informazione pregnante è tutta contenuta al di sotto dei 4-5 kHz quindi è sufficiente utilizzare una frequenza di campionamento di 10- 12 kHz (Ferrero FE, Accordi M, 1998). Una volta ottimizzato il sistema di acquisizione (livello del rumore ambientale, caratteristiche del PC, scheda sonora, microfono professionale con preamplificatore), il metodo e la frequenza di campionamento, va effettuata una «normativa personale » sulla apparecchiatura, analizzando da 50 a 100 soggetti eufonici con anamnesi ed obiettività negative per patologia vocale. I valori ottenuti con la «normativa personale» debbono rappresentare il «default» di riferimento del sistema per la successiva valutazione dei casi patologici. Il Multi-Speech permette anche l’analisi del segnale vocale in «tempo reale» (con il modulo opzionale Real-Time Spectrogram). È possibile ottenere uno spettrogramma (con scala di grigi o a colori) del segnale vocale a «finestra di analisi» (window o frame) lunga o corta, a seconda che si voglia porre in evidenza la componente armonica o quella formantica. Inoltre le applicazioni di base permettono di calcolare la Fo (frequenza fondamentale), il Pich syncronous LPC, il Cepstrum, l’Energy contour (intensità vocale), l’LPC (linear predictive coding), l’FFT (fast Fourier transform) (Figg. 1 e 2). Non manca la possibilità di ottenere i valori di Shimmer, Jitter e del rapporto H/N. Per un approfondimento delle possibili varianti dei quadri spettrografici, per i criteri della loro interpretazione e di quella degli altri indici di fonazione si rimanda ai dati della letteratura.

Per il Multi-Speech sono disponibili software aggiuntivi, acquistabili separatamente, utilizzabili sia con finalità diagnostiche, quali MDVP (Multi dimensional voice program) e Motor speech profile che riabilitative (Games – Auditory feedback tools – Sona mactch). Recentemente è diventato disponibile anche il software per l’effettuazione del fonetogramma (Voice Range Profile). In conclusione il «Multi-Speech 3700» è un software di analisi vocale «low-cost » dalle elevate potenzialità. I parametri ottenibili dall’analisi del campione vocale non permettono una diagnosi sulla tipologia della condizione patologica ma risultano indispensabili per monitorare nel tempo l’evoluzione della condizione patologica, quantizzare gli eventuali miglioramenti ottenuti dopo un trattamento chirurgico e/o un ciclo di riabilitazione logopedia, aumentare infine la compliance del paziente nella comprensione della propria affezione e nella accettazione del trattamento proposto.

Videokinografia

  • Categoria: Esami
  • Pubblicato: Mercoledì, 28 Marzo 2012 05:15
  • Visite: 20974

Simultaneamente all’affinarsi delle tecniche diagnostiche e terapeutiche in ambito

foniatrico e fonochirurgico, si è progressivamente reso sempre più necessario il
poter disporre di metodiche di valutazione oggettiva del ciclo vocale e delle sue alterazioni,
sia patologiche che iatrogene post-trattamento.
La videolaringostroboscopia (VLS), pur essendo oggi considerata un esame di
prima scelta nell’inquadramento diagnostico di numerose patologie funzionali laringee,
risulta gravata da alcuni limiti intrinseci che ne condizionano l’applicazione
clinica. L’immagine stroboscopica della vibrazione mucosa della corda vocale è innanzi
tutto infatti un’illusione ottica risultante dalla ricostruzione virtuale da parte
dell’occhio umano di fasi contigue di diversi cicli vocali, colti dai flash stroboscopici
in istanti successivi. Per questo, in condizioni quali un’importante compromissione
dell’intensità o un’aperiodicità del segnale vocale emesso, il meccanismo di
illuminazione, regolato sulla frequenza fonatoria, risulta inefficace nella rappresentazione
di fasi successive del ciclo vocale. L’immagine che in queste condizioni ne
deriva risulta dunque sovrapponibile a quella ottenuta in una semplice videolaringoscopia
mediante luce alogena, con assenza di informazioni sulle caratteristiche
della vibrazione mucosa. La valutazione dell’esame VLS risulta inoltre sempre
gravata da un’elevata variabilità intersoggettiva, ampiamente determinata dalla specifica
esperienza svolta dall’operatore nel settore . Una quantificazione dei parametri
di vibrazione mucosale e chiusura glottica al fine di confrontare i dati nell’ambito
di una medesima popolazione o di casistiche appartenenti a differenti Istituti
è inoltre difficile e di necessità da ricondursi a sistemi di punteggi più o meno
personalizzati che, introducendo un’ulteriore variabile, complicano maggiormente
l’espressione dei risultati .
Per superare questi limiti, la ricerca applicata si è evoluta in due direzioni: la laringoscopia
indiretta ad alta velocità e la videochimografia (VCG). Non tratteremo
della prima tecnica in quanto di interesse quasi esclusivamente sperimentale per gli
elevati costi, il notevole ingombro e la scarsa praticità e maneggevolezza della strumentazione necessaria. La VCG, invece, ideata e descritta per la prima volta nel
1984 da Gall e successivamente sviluppata dalla Scuola Olandese, quantunque
a tutt’oggi poco diffusa, presenta potenzialità che ne fanno intuire il futuro largo impiego
nella diagnostica laringologica.

Il principio che consente di ovviare ai sopradescritti limiti della VLS è la possibilità
di fotografare ad alta velocità (poco meno di 8000 scatti al secondo) una sottile
porzione trasversale del piano glottico, indipendentemente dalle caratteristiche
di emissione del segnale sonoro. La selezione della striscia del piano cordale da
prendere in esame durante la VCG, viene eseguita passando da un’immagine videolaringoscopica in bianco e nero (Fig. 1) alla registrazione ad alta velocità mediante
un comando a pedale, nel momento in cui il margine superiore della videata è in corrispondenza del punto desiderato.
In tal modo, la porzione del piano cordale corrispondente alla striscia selezionata
viene ripresa durante tutti i movimenti compiuti in senso medio-laterale nel
corso di vari cicli vocali. Sul monitor appaiono, quindi, in tempo reale ed in sequenza
verticale, tutti gli istanti successivi del movimento della striscia di glottide
prescelta. Su una singola schermata, dunque, il tempo risulta rappresentato lungo
l’asse delle ordinate (asse-y), mentre quello delle ascisse (asse-x) corrisponde ad
una singola fotografia della striscia di glottide prescelta (Fig. 2).

Mediante la registrazione digitale di queste immagini e la loro successiva valutazione
al rallentatore, è così possibile analizzare in modo molto accurato le caratteristiche
del movimento del punto prescelto del piano cordale durante più cicli vocali (Fig. 3). Il fermo immagine delle videate più significative e la loro stampa su carta consentono infine il confronto diretto tra un Paziente e l’altro o tra quadri laringoscopici dello stesso caso in momenti differenti della storia clinica (pre- e post-trattamento, ad esempio). Come vedremo in seguito, su questa base sono inoltre possibili una serie di misurazioni oggettive ulteriormente confrontabili tra loro. Limiti principali della VCG sono a tutt’oggi un costo aggiuntivo rispetto a quello della VLS, un maggior ingombro e peso della telecamera rispetto a quella normalmente utilizzata per la laringostroboscopia e la necessità di una maggior «compliance » da parte del Paziente. È infatti necessaria una notevole inclinazione in avanti ed in basso dell’ottica al fine di inquadrare le porzioni più anteriori della glottide e non è infrequente il riscontro di soggetti che tollerano a fatica l’esame anche dopo un’adeguata anestesia locale per contatto. Per questo motivo, particolarità anatomiche come un’epiglottide alta o conformata in modo atipico, un’ipertrofia o un’iperadduzione delle false corde e/o delle aritenoidi possono addirittura impedire una corretta esecuzione dell’esame. Nella VCG la messa a fuoco della telecamera e l’orientamento dell’ottica rispetto al piano cordale risultano inoltre di maggiore importanza rispetto a quanto osservato durante la VLS, rendendo l’esecuzione dell’esame tecnicamente più complessa. La scelta della porzione di glottide che si vuole esaminare è spesso difficile per la necessità di passare continuamente dall’immagine laringoscopica (in cui si seleziona la striscia glottica da valutare) a quella VCG (in cui si apprezza il movimento medio-laterale del punto selezionato). Per ovviare a tale inconveniente e per semplificare la metodica di esecuzione, alcuni Autori hanno ibridizzato la VLS e la VCG in una tecnica da loro definita videostrobochimografia. Quantunque più semplice e fattivamente identico ad una normale valutazione laringostroboscopica, questo esame non consente, a nostro parere, di ottenere gli stessi risultati della VCG quanto ad accuratezza e definizione dell’immagine ottenuta. Il superamento delle difficoltà tecniche della VCG potrebbe invece essere ottenuto, come già in fase di studio negli Stati Uniti, mediante la selezione e registrazione «off-line» della striscia glottica desiderata (Dati non pubblicati). La valutazione dei parametri della VCG è al presente svolta in modo sostanzialmente qualitativo, basandosi sulla percezione soggettiva della simmetria della vibrazione cordale, della presenza o meno di un’insufficienza glottica costante in ogni fase del ciclo e dell’ampiezza della vibrazione di una corda rispetto alla controlaterale. Queste valutazioni, quantunque utilissime nel singolo caso, rendono difficili le comparazioni tra differenti soggetti, diverse condizioni patologiche e casistiche multicentriche. Per ovviare a questa limitazione, presso la nostra Clinica, dove la VCG è routinariamente applicata come esame complementare alla VLS dal Luglio 1999 , sono state standardizzate varie misurazioni oggettive volte ad ottenere parametri numerici facilmente confrontabili tra loro. La misurazione in millimetri, eseguita su stampe di diverse videate di uno stesso esame, dell’ampiezza della vibrazione cordale di un lato rispetto al controlaterale e l’espressione di questo valore mediante un rapporto consentono infatti di quantificare le caratteristiche dell’onda mucosa di entrambe le corde, sia prese singolarmente che l’una in relazione all’altra. Tale rapporto (R ampiezza) è un indice di asimmetrie nella vibrazione di una corda vocale rispetto alla controlaterale. Nel caso di patologia glottica unilaterale, il rapporto viene per convenzione calcolato mettendo al numeratore l’ampiezza misurata a livello della corda sana (Fig. 4). Nello stesso modo si possono misurare l’ampiezza di un’insufficienza glottica o di una sovrapposizione compensatoria dei margini liberi superiori delle corde vocali. Un altro parametro utile all’oggettivazione di quei dati precedentemente valutati in modo esclusivamente soggettivo è inoltre il rapporto tra la lunghezza d’onda della vibrazione di entrambe le corde vocali. Tale rapporto (R lambda) è un indice inversamente correlato alla variazione di frequenza dovuta alle alterazioni strutturali patologiche della corda (Fig. 5).

L’introduzione in un software dedicato di queste misurazioni, per ora eseguite soltanto manualmente, renderà in futuro più rapide, precise e riproducibili tali valutazioni numeriche. L’esecuzione di queste misurazioni in una vasta popolazione di controllo consentirà inoltre di stabilire parametri numerici «normali» al di fuori dei quali definire un pattern VCG di vibrazione cordale patologico. Si potrebbero di conseguenza definire precisi pattern vibratorii tali da inquadrare in modo specifico i diversi elementi nosologici ed apprezzare le modificazioni indotte dal trattamento logopedico e/o chirurgico nell’ambito di queste stesse patologie.