Siri: non un semplice sistema di riconoscimento vocale


Tutti coloro che hanno avuto modo di provarlo concordano: la vera novità del nuovo iPhone 4S si chiama Siri. Di cosa stiamo parlando? Di un sistema di riconoscimento vocale? Non proprio. Di un’applicazione analoga a Google Azioni Vocali? Nemmeno. Dunque cos'è Siri? Cerchiamo di capirne di più. Sistemi che recepiscono le istruzioni vocali e le trasformano in testo (o in comandi) ce ne sono già da qualche tempo, anche sui telefonini. Lo stesso iPhone, ancora prima di Siri, aveva il suo personalissimo applicativo in grado di interpretare la voce del padrone. L’obiettivo di Siri, però, è molto più ambizioso. Non a caso Apple parla di "assistente digitale", come a sottolineare che il nuovo sistema non si limita a mettere per iscritto ciò che diciamo ma vuole agire anche dopo che la nostra voce è stata trasformata in testo. Si potrebbe quasi parlare di comprensione, se non fosse che stiamo pur sempre parlando di un telefono. Ma il concetto è quello. Sì perché oltre a fare ricerche, fissare e spostare impegni e promemoria, gestire messaggi di vario tipo e riprodurre musica, Siri è in grado di fornire informazioni anche su argomenti spinosi , capisce le citazioni , risponde alle battute , si schernisce dai complimenti e risponde a tono agli impertinenti . In realtà, come sottolinea Mike Schramm su Tuaw , non possiamo parlare di vera intelligenza artificiale. L’iPhone non capisce effettivamente ciò che diciamo ma si limita a identificare un set di parole che l’utente pronuncia, estrapolandone alcuni dati basati proprio su quelle parole. Può essere un ristorante nei dintorni, l’orario di un film o magari una frase spiritosa che gli ingegneri Apple hanno già programmato nel sistema. C’è però qualcosa che ci fa sembrare Siri come un’entità dalle doti superiori. Ed è la sua capacità di rimanere attaccato al contesto. Insomma, se chiedo al mio iPhone di "mettere in agenda per le 20 una cena con Mario Rossi" sto attivando un “semplice” comando vocale. Ma se aggiungo “e ricordati pure di mandargli una mail” significa che sto chiedendo a Siri di eseguire una sorta di ragionamento, mettendo insieme due pezzi distinti del mio discorso. È qualcosa che richiede una grande quantità di logica e di elaborazione. E in effetti, andando a vivisezionare quello che c’è dentro Siri copriamo che c’è un motore di ricerca contestuale, semantico e personalizzato. Chi lo ha creato lo chiama affettuosamente un Do engine (un motore del fare), un motore che non si limita a considerare le stringhe di testo e a cercare una corrispondenza con dei risultati ma che in più mantiene la consapevolezza dell'utente e tutto ciò che sa su di lui, elaborando le stringhe nel contesto che lo riguardano. C’è poi un altro aspetto che rende Siri più umano di qualsiasi altra tecnologia presente in un telefonino: la sua capacità di apprendimento. Di fatto, quel che vediamo di Siri sull’iPhone 4S è solo una piccola parte di ciò che avviene dietro le quinte. Disperso da qualche parte nel mondo c’è infatti un grosso server che raccoglie tutte le domande e le risposte degli utenti con i propri iPhone, e che si arricchisce di giorno in giorno di dati. "Perché il sistema sia efficace", sottolinea Jon Pielak , Director Studio di Vectorform, una delle società che sviluppa apps per Apple, "occorre che Siri impari il più possibile dell’utente. Se Siri sa dove lavori, dove vivi e in che tipo di luoghi ti piace andare, può iniziare a personalizzarsi e a diventare esperto di quello che sei individualmente". Ovviamente si tratta di un aspetto che va a toccare le delicate corde della privacy. Ma per fortuna c’è Apple, una delle poche società al mondo della quale gli utenti si fidano (quasi) ciecamente. E alla quale possono pure concedere la facoltà di "spiare" nei personalissimi dialoghi con il proprio assistente digitale, purché questo serva a offrire un servizio migliore. Quanto migliore non lo sappiamo ancora. L’impressione però è che Siri abbia ancora notevoli margini di miglioramento. Chissà mai che fra qualche anno non si parli di una nuova rivoluzione sensoriale dopo quella del “touch”: quella del dialogo uomo-macchina.