20 gennaio 2021

Come “curare” la fragilità della memoria digitale

Markus Spiske su Unsplash.com

«I would say if there are photos you are really concerned about create a physical instance of them. Print them out». Vinton Gray Cerf, vice presidente e Internet Evangelist di Google, considerato uno dei padri di Internet di cui progettò il protocollo TCP/IP assieme a Bob Kahn, pronunciò queste parole nel corso di una sua conferenza dal titolo «Digital Vellum» tenuta il 13 febbraio 2015 all’annual meeting dell’American Association for the Advancement of Science (AAAS). In realtà questo grido d’allarme, declinato in forme diverse, è sempre presente nei suoi articoli, nelle conferenze e nei talks tenuti in tutto il mondo. Il tema del “Bit rot rappresenta un problema complesso che non riguarda solamente la corretta conservazione dei bit che costituiscono l’enorme quantità di oggetti, testi e dati digitali che vengono creati ogni giorno al mondo, ma anche e soprattutto la possibilità che i bit che li costituiscono possano venire nel tempo correttamente interpretati, garantendo la possibilità di visualizzarli e utilizzarli.

La tecnologia per garantire la corretta conservazione dei bit che costituiscono i file è sempre più efficace; grazie, infatti, ai i sistemi di storage nel cloud, le flash memory e l’abitudine sempre più diffusa, supportata da sofisticati sistemi, di effettuare il backup dei file su dispositivi esterni dedicati alla memorizzazione, sia le persone che le istituzioni hanno la possibilità di salvare copie dei loro file, o addirittura di intere biblioteche digitali, «in a redundant and well-spread-out manner». Tuttavia, il problema, e il rischio che stiamo correndo, è dovuto al fatto che tali file perfettamente conservati, potrebbero non essere più utilizzabili a causa dell’obsolescenza dei formati, soprattutto, ma anche dei supporti su cui potrebbero essere stati registrati. Ad esempio, un file di testo scritto con il programma WordStar 4.0 – un word processor molto diffuso e leader del mercato negli anni 80 del secolo scorso, funzionante con un ambiente operativo MS DOS e, nella versione 4.0, scritto esclusivamente per PC IBM compatibili – oggi non potrebbe essere letto perché non sono disponibili dei software in grado interpretare i bit che costituiscono file in quel formato. Se poi fosse stato registrato su un floppy disc da 5 ¼” trovato in fondo a un cassetto, incontreremmo grosse difficoltà anche per trovare un dispositivo in grado leggere quel supporto in quel particolare formato. In sostanza tutti noi dipendiamo dalla disponibilità e dall’operatività del software ogni qualvolta abbiamo bisogno di accedere a qualsiasi tipo di informazione digitale.

Le aziende investono principalmente nella realizzazione di nuove applicazioni sempre più potenti e performanti che utilizzano formati innovativi e dunque  spesso, per questa ragione, non standardizzati, ponendo invece pochissima attenzione alla compatibilità con i formati precedenti. Inoltre, quando un’azienda, come è successo per la MicroPro International per WordStar, esce dal mercato, abbandonando le applicazioni e i relativi formati, nessuna delle altre aziende ha interesse nel garantire la leggibilità dei file creati con quelle applicazioni.

Se estendiamo questa criticità alla crescente disponibilità di oggetti, dati, testi e metadati digitali, a cui hanno contribuito le massicce campagne di digitalizzazione di testi e documenti avviate e realizzate dalle istituzioni della memoria fino ad arrivare all’impressionante quantità di dati prodotti e trasmessi ad esempio per la comunicazione tra le persone, (ad esempio i quasi 300 miliardi di e-mail inviate e ricevute giornalmente nel 2019 da circa tre miliardi di utilizzatori del servizio di posta elettronica, oppure i messaggi generati dalla messaggistica istantanea o dai social network) stiamo assistendo ad un vero e proprio diluvio di informazioni digitali per loro natura intrinsecamente fragili.

Secondo Vint Cerf questa fragilità, dovuta principalmente all’incapacità di poter garantire la disponibilità e la possibilità di interpretare, visualizzare e riutilizzare nel medio e lungo termine la grande maggioranza di ciò che è prodotto in forma digitale, è l’alba di una nuova età oscura, una Digital dark age che impedirà, agli storici e a chiunque ne possa essere interessato, di poter accedere a ciò che è stato prodotto nell’era digitale.

A supporto di questa sua visione, porta l’esempio della scrittrice e storica contemporanea Doris Kearns Goodwin che, nel suo libro Teams of Rivals, riesce a dimostrare come Abrahm Lincoln sia riuscito a convincere e coinvolgere nella sua squadra di governo i suoi competitors alla presidenza, ricostruendone le conversazioni grazie alle lettere cercate e trovate in centinaia di biblioteche. Cerf immagina inoltre come la studiosa avrebbe potuto procedere o cosa avrebbe scoperto se fosse invece vissuta nel XXII secolo e avesse cercato di indagare fatti accaduti nel XXI secolo: cosa le avrebbero messo a disposizione gli archivi e le biblioteche e cosa, in una visione più estesa, potranno mai sapere di noi, della vita nel XXI secolo le generazioni future?

Per affrontare e vincere questa minaccia Cerf propone di realizzare un digital vellum, basato su standard aperti, identificatori permanenti, preservando bit, metadati, software, hardware e sistemi operativi resi disponibili in Rete avvalendosi della tecnologia delle virtual machine; nel contempo Cerf non nasconde le future sfide tecnologiche che la potranno rendere possibile, legate all’architettura delle macchine virtuali, alla velocità delle strutture di Rete, alla disponibilità di emulatori specifici e molto altro, concludendo che «we are a long way from being ‘done’».

In attesa che lo sviluppo tecnologico consenta di poter disporre del digital vellum, ciò che è possibile fare per porre rimedio a questa fragilità, ma che non sempre viene considerato, se non nel momento, a posteriori, in cui ci si rende conto che un bene digitale non è più riutilizzabile e i suoi bit non più interpretabili, può in generale prendere due direzioni. La prima è quella di provvedere alla creazione di un ambiente che emuli il software specifico con cui è stato creato un oggetto digitale in un particolare formato, o anche il sistema operativo, nel caso si tratti di un software (come ad esempio l’applicazione DosBox che emula l’ambiente MS DOS e, tra le altre cose, permette di far girare il software TinLib, uno dei primi integrated library management software sviluppato agli inizi degli anni 80 per funzionare su personal computer); la seconda opportunità consiste invece nel far migrare i file registrati in un formato diventato obsoleto o non più supportato dall’azienda, verso un formato più recente, non proprietario, supportato da comunità internazionali aperte, riconoscibile e utilizzabile da più software.

 

Fabio Venuda
Università degli Studi di Milano