La compressione dei dati

Le tecniche di compressione sembrano così promettenti che alcuni si domandano se le reti telefoniche attuali, associate a qualche satellite di comunicazione, non potrebbero essere sufficienti alla gran parte delle applicazioni evitando le spese di infrastruttura legate alle famose autostrade dell'informazione

Spieghiamo come, mediante qualche convenzione di codice ben scelta, si esplorano le regolarità dei dati informatici per diminuirne la grandezza. Immaginiamo di dover conservare un testo che contiene delle ripetizioni e non utilizza i simboli "[" e "}" Conveniamo di mettere tra parentesi i pezzi ripetuti seguiti dal numero delle ripetizioni, si trasformerà il testo:
ainsi font font font les petites marionettes,
ainsi font font font les petites marionettes,
di 94 caratteri (contando gli spazi vuoti) in un nuovo testo:
[ainsi[font]3 les petites marionettes,]2
che è formato da 43 caratteri.

Per utilizzare un tale metodo di codifica si scrivono due algoritmi, uno realizza la compressione, cioè passa dal testo in chiaro al testo ridotto, l'altro realizza la decompressione, cioè restituisce il testo in chiaro a partire da quello ridotto.

Esaminiamo un altro codice di compressione. In una prima parte del testo compresso si tolgono le sequenze ripetute si scrive il testo restante in parti più corte separate dal simbolo # (che si suppone non sia utilizzato nel messaggio da comprimere). Poi in una seconda parte, che comincia quando il simbolo # è utilizzato due volte di seguito, si indica quale sequenza deve essere utilizzata e in quale ordine. Il messaggio diviene:
#ainsi#font#les petites marionettes,
##1#2#2#2#3#1#2#2#2#3
Il messaggio compresso è formato da 62 caratteri.
Il risultato è meno buono per questo esempio, ma il metodo si applica in un gran numero di casi, perché codifica le ripetizioni anche quando non sono consecutive. Questo secondo metodo somiglia inoltre ai metodi per dizionari utilizzati negli algoritmi che realizzano i miracoli evocati all'inizio del testo.