CAMPIONAMENTO E DINAMICA

« Torna all'indice

La dinamica è definita come la differenza fra il suono più forte e quello più debole che un'apparecchiatura (o un componente) può registrare e/o riprodurre; viene misurata in dB.
In pratica è la capacità di graduare nitidamente l'intensità dei suoni nel contesto dell'esecuzione complessiva, riproducendo con uguale naturalezza e nel giusto rapporto i picchi di elevata intensità e segnali di bassissimo livello.
Esempio: i brani di musica classica hanno un'elevata dinamica perché troviamo suoni appena percettibili ottenuti con un solo strumento, e suoni molti forti ottenuti con tutti gli strumenti dell'orchestra; un brano di musica dance, invece, ha un dinamica molto limitata.
Nel caso di audio digitale il tipo di campionamento che viene utilizzato determina anche il range dinamico (cioè la dinamica) che il sistema (Telecamera, VCR, Computer) è in grado di registrare e/o di riprodurre.
La seguente tabella mostra il valore della dinamica in funzione del tipo di campionamento (bits per sample) di un segnale audio.

Bits per sample Valori possibili Dinamica
2 4 12dB
3 8 18dB
4 16 24dB
8 256 48dB
12 4096 72dB
16 65536 96dB
24 1677216 145dB
32 4294967296 193dB

Considerazioni sul campionamento audio dello standard DV

Lo standard DV prevede la registrazione audio in 2 diversi modi: il primo registra 2 tracce audio (canale sinistro e canale destro) con un campionamento di 16 bit, l'altro prevede 4 tracce con campionamento a 12 bit.
Dalla tabella precedente è possibile notare come un campionamento a 12 bit abbia una dinamica di 24 dB più bassa (il 25% in meno!) rispetto ad un campionamento effettuato a 16 bit.
Questo si traduce in una perdita di qualità su suoni che variano di molto la loro ampiezza (tipo applausi, urli, esplosioni, ecc..) rispetto a quelli più bassi.
Se vogliamo la massima qualità audio, l'utilizzo del campionamento a 12 bit può essere adatto solamente per interviste ad una singola persona; in tutti gli altri casi e bene utilizzare il campionamento a 16 bit.

Segnali analogici

Un segnale è detto analogico quando è analogo alla forma d'onda che lo produce: un corpo in stato di eccitazione (per esempio: la corda pizzicata di una chitarra, oppure un battito con le mani) genera una pulsazione dell'aria che vibra secondo una certa frequenza al secondo e con una certa forma di pulsazione che costituisce una invisibile forma d'onda. Questa rarefazione dell'aria giunge al nostro orecchio, una formidabile "scheda audio" di cui la natura ci ha forniti, e ci fa percepire i diversi suoni. Una nota singola avrà quindi una forma d'onda semplice mentre il suono di una intera orchestra ne avrà una complicatissima.
L'idea di fotografare questa forma d'onda su un supporto venne alla fine dell'Ottocento a Thomas Edison il quale capì che era possibile incidere dei supporti per via meccanica eccitando un meccanismo con l'aria che pulsa: ecco un rudimentale microfono.

|top|

Campionamento e segnali digitali

I computer possono usare solamente quantità discrete, pacchetti finiti, nel descrivere le grandezze: in un sistema analogico la variazione da x a x1 comprende tutti i valori intermedi, che ovviamente sono infiniti essendo esso una variazione continua. Un PC deve per forza usare una approssimazione (tra x e x1 userà n numeri per descrivere gli intervalli di grandezze intermedie) altrimenti il calcolo non avrebbe mai fine!
Veniamo all'audio: un segnale analogico (catturato ad esempio da un microfono) deve essere approssimato e tradotto in grandezze finite di numeri: questo processo prende il nome di campionamento del segnale. Il metodo in realtà è molto antecedente i computer, è stato formulato negli anni Venti da Nyquist; in pratica si tratta di "saggiare" il segnale in diversi punti equidistanti e ad ogni punto effettuare una misurazione di intensità per ricostruire la forma d'onda.
La quantità di campioni al secondo viene misurata in Hertz (Hz) che in fisica indica l'unità di misura standard per i cicli al secondo.
Ogni campione prelevato è una misura: esso deve avere un numero corrispondente all'intensità misurata. Qui entrano in gioco i bit: se si assume che un segnale possa variare da n a -n questa variazione è continua, e il campione non potrà sempre essere esattamente la misura perfetta del segnale originale. Il numero di bit crea una griglia di riferimento, maggiore è il suo numero, minore sarà l'approssimazione nelle misure, ovvero l'errore di quantizzazione.
Ad esempio 16 bit ci danno 65536 valori disponibili (sono per l'esattezza 2, il valore del bit, alla sedicesima potenza).

|top|

La maggioranza dei sistemi di registrazione digitale lavora essenzialmente allo stesso modo.
Un segnale audio in ingresso e' inserito in quello che e' noto come un convertitore Analogue-to-Digital (A-D). Questo convertitore A-D prende una serie di misurazioni del segnale a intervalli regolari, e le memorizza come un numero.
La lunga serie di numeri risultanti e' immagazzinata in un supporto dal quale puo' essere recuperato con il playback, essenzialmente lo stesso processo invertito: una lunga serie di numeri e' recuperata da un mezzo di deposito, ed e' passato a quello che e' conosciuto come convertitore Digital-to-Analogue (D-A). Il convertitore D-A prende i numeri ottenuti dalla misurazione del segnale originale, e li usa per costruire un'approssimazione molto vicina al segnale originale, che puo' essere trasferito ad un amplificatore e quindi ad un sistema di diffusori acustici per l'ascolto.
Il nome generico per il sistema di registrazione digitale, e' Pulse Code Modulation (PCM), ed e' usato in tutti i moderni campionatori, registratori digitali ed interfacce audio per computer. Per ottenere una riproduzione fedele di un segnale audio, la codifica PCM mira ad effettuare un'accurata lettura della forma d'onda del segnale. Chi ha visto un oscilloscopio, o ha familiarita' con campionatori e software di audio-editing, avra' avuto modo di vedere le tipiche forme d'onda: linee ondulate usate per rappresentare il suono. In termini piu' semplici, una forma d'onda e' un tipo di grafico dove l'asse orizzontale rappresenta il tempo, e l'asse verticale rappresenta l'ampiezza (in figura a destra e' rappresentato un semplice segnale).
L'ampiezza, e' legata al livello del suono. Per esempio quando un ad un oscilloscopio viene collegato un microfono posto in un ambiente rumoroso, l'ampiezza dell'onda corrisponde all'ammontare della pressione dell'aria sul diaframma del microfono, e questa al volume del suono (misurato strumentalmente).
Generi diversi di suono corrispondono a caratteristiche e diverse forme d'onda. La forma d'onda di certi suoni strumentali puo' spesso essere chiaramente visibile come una ripetizione di cicli (l'onda mostrata in figura si ripete piu' volte), e la quantita' di ripetizioni in un dato intervallo di tempo variera' secondo il tono del suono (i cicli che si ripetono con maggior frequenza saranno udibili come suoni di alta frequenza). Suoni che non hanno un tono distinto, d'altra parte, corrispondono a forme d'onda piu' irregolari.
Prendendo e memorizzare una serie molto accurata di misurazioni di una forma d'onda analogica, il sistema di codifica PCM puo' ricostruire un'approssimazione molto vicina del suono corrispondente a quella forma d'onda. In un sistema PCM di alta-qualita', l'approssimazione puo' essere cos" accurata che un suono registrato e' praticamente indistinguibile dalla sua sorgente.
Comunque, perche' il sistema lavori bene, deve operare fra determinati limiti. Per questo, ci sono essenzialmente due variabili da considerare. La prima di queste e' nota come frequenza di campionamento, e la seconda e' nota come profondita' di bit.
La frequenza di campionamento descrive il numero di volte che un segnale audio in ingresso e' misurato o "campionato" in un dato periodo di tempo.
E' tipicamente indicata in kilohertz (kHz, migliaia di cicli per secondo) e per registrare in "CD-quality" audio, e' richiesta una frequenza di campionamento di 44.1kHz.La profondita' di bit determina l'accuratezza con quale e' effettuata ciascuna misurazione o campione. Quando in un sistema PCM di audio digitale il convertitore A-D misura un segnale in ingresso e memorizza la misurazione come un numero, questo numero e' rappresentato come una serie di 0 e 1, anche noti come numeri binari.
La profondita' di bit, percio', si riferisce alla lunghezza delle parole binarie (cioe' sequenze di 0 e 1) usate per descrivere ciascun campione del segnale d'ingresso preso dal convertitore A-D. Parole piu' lunghe permettono la rappresentazione di una serie piu' ampia di numeri, e quindi misurazioni piu' accurate e riproduzioni piu' fedeli di un segnale (maggior dinamica e minor distorsione).
In un sistema a 16-bit, ciascun campione e' rappresentato come una parola binaria lunga 16 cifre. Poiche' ciascuna di queste 16 cifre puo' essere uno 0 o un 1, sono possibili 65.536 (216) valori per ciascun campione.

|top|

Il teorema di Furier

Un importante teorema la cui conoscenza intuitiva e' necessaria per comprendere l'importanza della frequenza di campionamento, e' dovuto a Fourier.
La figura sotto, illustra visivamente i risultati del Teorema di Fourier: qualsiasi onda puo' essere considerata come la somma di un insieme di onde, di cui la prima e' detta fondamentale, e le onde successive prendono il nome di armoniche.
Nell'esempio illustrato, si e' scelta un'onda quadra perche', pur trattandosi di un caso particolare, permette di chiarire facilmente il senso del teorema di Fourier.
Come si vede, l'onda risultante segue un andamento con profilo "quadrato". In effetti, non e' quadrato, ma lo approssimerebbe in modo migliore se invece di usare la somma di una fondamentale e tre armoniche di ordine dispari, avessimo considerato un numero molto maggiore di armoniche (almeno 21).
In particolare, le armoniche sono frequenze multiple della frequenza fondamentale e di minore ampiezza (intensita'). Ad esempio, se il LA fondamentale "internazionale" vibra a 440 kHz, la seconda armonica avra' frequenza di 880 kHz, la terza 1760 kHz, e così via. In questo caso, la sesta armonica ha una frequenza di 28160 kHz e dunque si trova ben oltre il limite di frequenza udibile dall'orecchio umano; d'altra parte, la sua presenza - sommandosi alle armoniche udibuli - puo' avere effetti udibili sul timbro del suono.
Il numero delle armoniche ed i loro rapporti di intensita' determinano il timbro, cioe' la ricchezza del suono (si possono distinguere le stesse note emesse da strumenti differenti). Un "do" puo' essere emesso sia da un violino che da una sirena... e' la presenza delle armoniche con le loro rispettive intensita' che ci permettono di distinguere le sorgenti.

|top|

Fattori che determinano le dimensioni dei file audio

Per rendere piu' maneggevoli i file audio, e' necessario ridurre la loro dimensione, e ci sono vari modi per farlo. Un metodo e' ridurre la frequenza di campionamento: se e' dimezzata (22.05 k Hz invece di 44.01 kHz), viene considerata la meta' delle misurazioni del segnale in ingresso, e così e' prodotta solo la meta' dei dati (un altro modo e' una registrazione monofonica, che dimezza ulteriormente la quantita' di dati necessaria). Tuttavia, queste scelte hanno alcuni seri effetti collaterali sulla qualita' del suono.
Il range della voce umana varia dai 500 Hz ai 2 kHz. L'orecchio umano percepisce le frequenze che vanno dai 20 Hz ai 20 kHz, ed e' piu' sensibile tra i 2 e i 4 kHz.
Il range dinamico, ossia l'intervallo dal suono piu' basso al piu' alto percepibile, e' di 96 dB (Decibel).

In generale, frequenze di campionamento di 11025 Hz sono adatte per la registrazione del parlato, 22050 Hz per ottenere una qualita' tipo radio (o dei vecchi dischi 78 giri caratterizzati da risposta in frequenza tra 50-8000 kHz), mentre 44100 Hz per registrazioni di qualita' CD.
Ridurre a meta' (da 44.1 a 22.05 kHz) la frequenza di campionamento comporta una perdita di risoluzione, e quindi una minore fedelta' durante la riproduzione. Sarebbe un'esagerazione dire che la qualita' del suono e' ridotta a meta', ma la registrazione e' comunque in alcuni punti meno accurata per la meta'. In particolare, la risposta in frequenza del sistema di registrazione e' dimezzata. In effetti questo comporta che molte delle altre frequenze contente nel suono originale sono perdute e con esse molte armoniche, portando a registrazioni scarse per brillantezza e chiarezza.
La correlazione tra frequenza di campionamento e risposta in frequenza e' data dal "Teorema di Shannon-Nyquist", secondo il quale, perche' un segnale sia accuratamente riprodotto da PCM, devono essere presi almeno due campioni di ciascun ciclo di forma d'onda.
In pratica percio', la frequenza piu' alta che puo' essere accuratamente registrata e' la meta' della frequenza di campionamento usata. Questo e' conosciuto come il Limite di Nyquist. Un "CD-quality" convenzionale ottenuto dal tradizionale sistema di registrazione digitale, usa una frequenza di campionamento di 44.1 kHz, e quindi puo' solo riprodurre frequenze fino a 22.05 kHz. Tutte le frequenze sopra questo limite sono scartate. Questo non e' generalmente considerato un problema, dal momento che le ricerche hanno mostrato che la maggior parte degli esseri umani sono capace di udire poco o nulla sopra quella frequenza.
Pero', se la frequenza di campionamento e' ridotta a 22.05 kHz, tutte le frequenze oltre 11.025 kHz saranno scartate, e questo comportera' una degradazione ben udibile nella qualita' del suono. Molti strumenti musicali producono frequenze oltre questo intervallo, e le registrazioni fatte con una frequenza di campionamento ridotta possono restituire immagini sonore scarse per brillantezza e chiarezza.
Un metodo alternativo di ridurre la dimensione di un file audio e' ridurre la profondita' di bit del sistema di registrazione usato per crearli. Per esempio, un campionamento a 8-bit puo' essere usato invece di uno a 16-bit.
Proprio come la riduzione della frequenza di campionamento, questo ha indubbiamente l'effetto desiderato di ridurre l'ammontare di dati generati per fare una registrazione. Se ciascun campione del segnale in ingresso e' memorizzato come un 8-bit piuttosto che un 16-bit di parola binaria, allora la registrazione produce solo un byte per campione piuttosto che due.
Questo virtualmente raddoppia la capacita' del mezzo del supporto di memorizzazione usato, in quanto dimezza realmente la grandezza dei file.
Una riduzione nella profondita' di bit, pero' comporta alcuni effetti indesiderabili per la qualita' del suono.
Come abbiamo visto, un sistema a 16-bit permette 65.536 o (216) valori possibili per ciascun campione preso. Si potrebbe pensare che un sistema a 8-bit permetta esattamente la meta' della risoluzione audio, ma questo sarebbe ottimistico: una parola bianaria di 8-bit ha in effetti solo 256 (28) valori possibili.
Cio' comporta un campionamento notevolmente meno accurato del segnale in ingresso, e, per conseguenza, registrazioni di qualita' inferiore. Infatti, con meno valori possibili per definire ciascun campione, un sistema di registrazione a 8-bit e' a volte forzato a rappresentare male una quantita' piuttosto significativa (vedi figura sopra).
Questo travisamento puo' essere descritto come una riduzione nel rapporto segnale/disturbo del sistema, e conduce a registrazioni che producono un suono aspro, innaturale e con scarsa dinamica.
A dispetto dei problemi inerenti la riduzione nella frequenza di camponamento e la profondita' di bit del PCM audio, questi metodi sono usati spesso in applicazioni dove la qualita' del suono e' considerata un minore priorita' rispetto alla conservazione delle risorse del sistema (per esempio, in commenti parlati, un camponamento a 8 bit e 22.05 kHz e' del tutto accettabile).
Varie altre raffinate varianti della PCM, quali DPCM (Differential Pulse Code Modulation) ed ADPCM (Adaptive Differential Pulse Code Modulation), sono state sviluppate anche allo scopo di ridurre le dimensioni dei file senza sacrificare troppo la qualita' del suono. Questi formati, fondamentalmente aiutano a migliorare l'ordinaria PCM con metodi piu' efficienti di gestione e memorizzazione dei dati.
Tuttavia, al meglio delle loro prestazioni, non producono riduzioni sufficienti nella dimensione dei file per risolvere il problema di come offrire registrazioni sonore di alta qualita' in applicazioni per opere multimediali e per Internet. Per fare questo, e' richiesto un approccio completamente diverso.

|top|

Il problema della dimensione dei file

Un sistema a 16-bit con una frequenza di campionamento di 44.1kHz e' largamente accettato come riferimento per l'audio digitale consumer, e quando i fabbricanti offrono "CD-quality" audio, descrivono fondamentalmente un sistema che opera, o e' capace di funzionare, fra questi limiti. Comunque, uno svantaggio dell'audio PCM e' che mentre la qualita' del suono puo' essere eccellente, la memorizzazione delle registrazioni richiede notevoli risorse qualunque mezzo sia usato.
Questo e' matematicamente inevitabile: 44.100 campioni per secondo a 16-bit produrranno 88.200 bytes di dati (poiche' ci sono 8 bit per ogni byte) per secondo e due volte questo valore (176.400 bytes per secondo) per un segnale stereofonico. Cos", registrare un minuto di audio stereofonico richiede 10.584.000 bytes (circa 10 megabytes) di spazio disponibile su un supporto di registrazione (hard disk o CD-ROM).
Mentre queste dimensioni sono accettabile per quanto riguarda i convenzionali audio CD (in quanto possono memorizzare circa 74 minuti di registrazione musicale), per altre applicazioni la cosa puo' essere problematica. In situazioni dove le registrazioni sonore devono essere registrate e memorizzate in file su un computer, e' di solito necessario ridurre la dimensioni di un file quanto piu' possibile, per sfruttare al massimo le limitate risorse del sistema.
Per la memorizzazione e lo scambio, si puo' anche ricorrere ad un tradizionale processo di compressione (per esempio, file in formato Zip), ma in questo modo il file prodotto non puo' essere letto (riprodotto) in tempo reale ed inoltre, la riduzione delle dimensioni e' generalmente inferiore al 30 per cento.
Quando i computer sono connessi a Internet, la necessita' di ridurre le dimensioni dei file diviene pressante.
Lo spazio a disposizione sui server web e' limitato e puo' essere costoso; inoltre, le linee del telefono non hanno la larghezza di banda necessaria per permettere la trasmissione di file molto grandi a meno di accettare tempi biblici.
Per soddisfare le esigenze di spazio, si ricorre alla Perceptual Coding.

|top|

Fonte:la rete e i tecnici di Videostudio1

Via Rossini 2, 42010 Veggia di Casalgrande (RE) tel.0536/824704 fax 0536/824765