da SFI, Bollettino n. 149

Nicola Mastidoro e Maurizio Amizzoni
LINGUISTICA APPLICATA ALLA LEGGIBILITÀ: CONSIDERAZIONI TEORICHE E APPLICAZIONI<

0. Premessa

È un'esperienza comune trovarsi di fronte a libri di testo o a manuali che dovrebbero essere diretti agli studenti e che, invece, presentano serie difficoltà anche per un lettore esperto. Così accade spesso che gli studenti vivano l'esperienza della lettura con un senso di frustrazione che li porta di frequente all'abbandono della lettura in generale. Marino Livolsi nel suo studio sulle letture degli italiani, Almeno un libro: gli italiani che (non) leggono (La Nuova Italia 1986), conclude affermando che "più della metà degli italiani continua a non leggere almeno un libro". E la situazione si fa tanto più grave quando poi gli stessi studenti usciti dalla scuola si rivolgono al mondo del lavoro e scoprono con delusione che sono richieste loro capacità di analisi e di sintesi che possono essere acquisite solo attraverso grandi quantità di letture .

Dunque, è evidente l'importanza di disporre di strumenti che consentano di sapere in anticipo, cioè prima di verificarlo attraverso l'esperienza del lettore, in che misura un testo sia difficile da capire. Questi strumenti sono particolarmente utili per valutare le difficoltà che i testi scolastici possono opporre al lettore inesperto. Applicando la valutazione della leggibilità, I'insegnante ha la possibilità di organizzare il materiale didattico secondo percorsi di lettura attraverso i quali lo studente possa migliorare gradualmente le proprie competenze e capacità di apprendimento.

In questo articolo vogliamo dare un quadro generale degli studi sulla leggibilità e mostrare un esempio di applicazione pratica. Riportiamo i risultati di un'analisi della leggibilità condotta a titolo esemplificativo su un testo di Ludovico Geymonat, La filosofia e la filosofia della scienza, apparso per la prima volta nel 1960 ed edito da Feltrinelli.

L'analisi è stata condotta usando il Sistema Eulogos, un programma per Windows per la valutazione della leggibilità e l'elaborazione di statistiche sui testi.

 

1. La valutazione della leggibilità

Attraverso i rilevamenti statistici è stato dimostrato che solo una parte ben delimitata del grande pubblico, dell'indiscriminata massa dei possibili lettori/ascoltatori, è in grado di affrontare con successo la lettura o l'ascolto di gran parte dei testi oggi disponibili; questo a causa della distanza tra leggibilità del testo e capacità di comprensione del lettore.

Il concetto di leggibilità nasce dall'esigenza pratica di poter predire, con criteri quantitativi, la facilità o difficoltà di lettura di un testo rispetto alla capacità di comprensione del lettore.

Teoricamente, la migliore valutazione della leggibilità di un testo è l'analisi puntuale del lessico e delle strutture sintattiche. Tuttavia, una valutazione di questo genere pone seri problemi di competenza specialistica dell'analizzatore e di costo, poiché richiede una procedura di analisi necessariamente laboriosa. Per questo motivo, sin dai primi lavori sulla leggibilità, si è cercato di stabilire metodi per la predizione della leggibilità.

La predizione della leggibilità ha le sue basi nella relazione tra alcuni aspetti linguistici del testo, o variabili linguistiche, e l'effettiva comprensibilità, verificata sperimentalmente su un campione di lettori. Sulla base delle classificazioni che i linguisti hanno ritenuto essenziali, si possono riconoscere diverse variabili linguistiche. Henry (Henry 1987,pp.165-168) riporta un elenco di ventisei variabili. Egli raggruppa le variabili secondo la caratteristica predominante che esse hanno nel testo. Tra i gruppi di variabili considerati dall'autore, ve ne sono due che sono stati utilizzati nella costruzione degli indici di leggibilità fin dalle prime ricerche: il gruppo delle variabili lessicali e quello delle variabili formali. Questi due gruppi di variabili hanno dato risultati soddisfacenti sia perché forniscono un criterio abbastanza generico e universale da essere applicato nell'analisi di un testo, sia perché la loro applicazione è relativamente semplice.

 

1.1. L'aspetto lessicale

Il rapporto tra il lessico usato nella comunicazione verbale e la buona comprensione dei contenuti della comunicazione stessa è molto stretto. Infatti, l'uso di una parola coinvolge direttamente il grado di conoscenza della lingua posseduto dal ricevente. I1 livello di conoscenza della lingua, inteso come repertorio di parole delle quali si conosce e utilizza il significato, è dunque il parametro fondamentale da valutare quando si cerca di misurare e predire la comprensibilità di un testo, o quando si vogliono stabilire criteri di scrittura la cui applicazione consenta un miglior esito della comunicazione, specialmente nei confronti del grande pubblico, in media poco scolarizzato: 

"Pour rédiger des textes destinés à une grand diffusion, dans une population non étroitement spécialisée, on ne peut cependant pas tenir compte de motivations particulières à chaque individu. I1 importe donc de trouver un niveau de difficulté optimum pour des couches définies et nombreuses de la population.[...]

Beaucoup d'adultes ou d'enfants comprennent lentement ce qu'ils lisent, non que les concepts soient trop difficiles ou que la motivation et le skill fassent défaut, mais seulement à cause de la complexité de la syntaxe et de la difficulté du vocabulaire utilisé." (Henry 1987, pp. 11-12).

Sin dalle prime considerazioni sulla leggibilità dei testi scritti, che risalgono al 1852, anno di pubblicazione delle ricerche di R. Spencer per l'inglese, è stata messa in evidenza la necessità di stabilire i criteri per decidere in quale misura una determinata parola può essere letta e compresa con successo da una certa fascia di lettori. Spencer sottolineava l'importanza del "degré de familiarité" (Henry 1987, p. 18) delle parole. Già nel 1923, B. A. Lively e S. L. Pressey prendevano in considerazione nella loro formula di leggibilità la frequenza di parole del vocabolario di base di E. L. Thorndike,

"dont la fréquence et la dispersion avaient été scientifiquement établies à partir d'un vaste échantillon de textes anglais [...]." (Henry 1987, p. 74).

Nell'ottocento, dunque, compaiono le prime liste di frequenza. In Henry (Henry 1987, pp. 18-32 e 74) sono citati i primi esempi di vocabolari di base, compilati secondo criteri di frequenza, contenenti le parole più usate (principalmente per l'inglese). I primi lavori furono opera di pedagogisti e si basavano su criteri di sola frequenza e solo su testi scritti.

A queste prime opere cominciarono a interessarsi anche linguisti e statistici, come G. K. Zipf, che fu uno dei primi a studiare le caratteristiche della distribuzione delle parole (De Mauro 1961, p. 821). Sin dagli inizi del '900 furono posti in evidenza i problemi metodologici fondamentali: scelta del campione, necessità di riferirsi anche al linguaggio parlato, necessità di completare il dato sulla frequenza con un fattore di dispersione, per evitare di considerare molto usate parole che lo sono, e per cause accidentali, solo in alcuni testi del campione: 

"Il procedimento di stratificare il corpus, suggerisce immediatamente l'idea di "completare la nozione di frequenza con quella della stabilità della frequenza, o, se si preferisce, di correggere la frequenza con il modo nel quale si distribuisce nel corpus": è inevitabile che la frequenza globale di un elemento sia soggetta a degli accidenti che porterebbero a sopravvalutarla, per esempio nel caso che una situazione prevedibile accumuli in una parte del corpus un numero elevato di occorrenze di questo elemento." (Bortolini-Zampolli 1971, p. 643), citazione da Muller, Fréquence, 1965, p.34.

Fino al 1972 la maggior parte delle liste di frequenza riguarda l'inglese, il francese, il tedesco e lo spagnolo, mentre 

"l'italiano è stato una lingua un po' dimenticata in questi spogli di frequenza; finora sono stati fatti solo due brevi saggi, quello di T. M. Knease, An italian word list from literary sources, Toronto 1933 e quello di B. Migliorini, Der grundlegende Wortshatz des Italienischen, Marburg 1943." (Bortolini et a. 1972, p. 7).

Nel 1971 è stato elaborato dall'IBM il Lessico italiano di frequenza (Bortolini et a. 1972), citato anche con la sigla LIF. Esso è il risultato dello spoglio di un corpus di 500.000 occorrenze della lingua italiana contemporanea, dal quale sono stati ricavati dati statistici di diverso tipo su circa 5.000 lemmi. Il corpus dei testi sottoposti allo spoglio è stato scelto in modo da avere 

"delle fonti scritte che si avvicinassero il più possibile alla realtà dell'italiano contemporaneo, non solo per la prevalenza del dialogo, ma anche per gli argomenti trattati" (Bortolini et a. 1972, p. 16).

Il corpus del LIF si basa su cinque gruppi di testi (teatro, romanzi, cinema, periodici, sussidiari), dai quali sono state tratte le 500.000 occorrenze del campione, 100.000 per gruppo.

Poco dopo il LIF è realizzato il Frequency Dietionary of Italian Words di A. Juilland e V. Traversa (Juilland-Traversa 1973), anch'esso elaborato sulla base di un corpus di 500.000 occorrenze e con criteri analoghi a quelli impiegati per il LIF, che ha comunque ereditato i criteri stabiliti da Juilland nei suoi lavori precedenti.

Nel 1977 è stata elaborata una terza lista di frequenza: il Vocabolario Fondamentale della lingua italiana, di A. G. Sciarone (Sciarone 1977). Questa lista è stata ricavata dall'analisi di un corpus di 1.500.000 occorrenze, ottenuto aggiungendo a un nuovo corpus di 500.000 occorrenze i corpora del LIF e del Frequency Dietionary of Italian Words.

Recente è la pubblicazione del Vocabolario Elettronico della lingua Italiana, abbreviato VELI   (VELI 1989), realizzato dall'IBM, che propone i valori di uso dei primi 10.000 lemmi risultati dallo spoglio di un corpus di 40 milioni di occorrenze. Il corpus è costituito da testi orientati prevalentemente al linguaggio giornalistico-finanziario: notizie economiche dell'ANSA e testi da Il Mondo, Europeo, Domenica del Corriere.

Pochi mesi fa è stato presentato il Lessico di frequenza dell'italiano parlato (LIP), realizzato da Tullio De Mauro, Massimo Vedovelli, Miriam Voghera e Federico Mancini. Esso è il risultato dello spoglio di registrazioni di conversazioni di diverso tipo, e costituisce il primo esempio di analisi statistica in grande scala della lingua italiana parlata.

Il Lessico italiano di frequenza è stato la base per la compilazione del Vocabolario di Base della lingua italiana di Tullio De Mauro (De Mauro 1989, pp. 153-183), abbreviato VdB. Esso è composto, nella versione attuale, da 7.950 lemmi classificati in tre livelli. Nei primi due livelli (vocabolario fondamentale e vocabolario di alto uso) sono classificati la maggior parte dei lemmi del LIF, dei quali è stata verificata 

"la reale comprensibilità [...] da parte di ragazzi e ragazze di terza media e di adulti con non più della licenza media" (De Mauro 1989, p. 150).

Nel terzo livello, il vocabolario di alta disponibilità, sono stati inseriti circa 3.000 Iemmi che sono stati isolati interrogando gruppi diversi di parlanti: si tratta dei lemmi che ricorrono con frequenza bassissima nella comunicazione verbale scritta e orale, e quindi non risultano nella lista di frequenza, ma che sono presenti con notevole frequenza nel patrimonio linguistico degli intervistati, e fanno quindi parte del vocabolario di base della lingua.

Sia per i criteri di classificazione dei lemmi che per la scelta del corpus, il Vocabolario di Base della lingua italiana è il riferimento fondamentale per il controllo del lessico di testi scritti in italiano, quando si vuole verificare la rispondenza del lessico ai criteri di comprensibilità sopra indicati. Esso mette a disposizione del linguista, del ricercatore e di chi in generale si occupa del lessico di testi uno strumento per mezzo del quale poter aumentare la probabilità che il messaggio trasmesso con un testo sia compreso anche dall'ampia fascia di lettori o ascoltatori che hanno competenze linguistiche ridotte. Infatti, l'applicazione sistematica di un confronto del lessico dei testi con il VdB consente di individuare le parole che hanno minore probabilità di essere comprese. Attraverso questo tipo di controllo è possibile isolare i punti di difficile comprensione, aumentando considerevolmente la leggibilità dei testi.

 

1.2. L'aspetto sintattico

Nel valutare la leggibilità dal punto di vista sintattico, si considera la lunghezza di alcune delle unità linguistiche che compongono un testo come un fattore predittivo della maggiore o minore difficoltà di lettura. Le unità scelte finora dagli studiosi della leggibilità sono la frase e la parola (Amizzoni 1991, p. 45).

La lunghezza di una frase fornisce un indizio del grado di complessità sintattica di un testo. Infatti, esiste una stretta relazione tra la lunghezza della frase e la possibilità che essa ha di essere compresa dal lettore: la difficoltà di comprensione di una frase cresce con il crescere della sua lunghezza. Questa relazione si fonda principalmente su due assunti. Il primo, di ordine linguistico, può essere formulato nel modo seguente: minore è la lunghezza di una frase, maggiore è la probabilità che essa presenti una struttura sintattica più semplice e lineare. Il secondo assunto, di ordine psicologico, fa appello alla capacità di assimilazione immediata del lettore durante il processo di lettura.

Per quanto riguarda l'altro fattore, cioè la lunghezza delle parole, vale all'incirca ciò che è stato già detto delle frasi. La lunghezza delle parole come specchio della quantità di informazione

" se manifeste particulièrement dans la distributi on des marques grammaticales" (Henry 1987, p. 72).

La presenza o l'assenza di morfemi all'interno della parola, costituisce un carico di informazione rispettivamente maggiore o minore.

A questo proposito si può constatare che la maggior parte delle parole contenute nei vocabolari di base sono brevi; inoltre, esiste una precisa correlazione tra la brevità dei vocaboli e la loro frequenza. Questa correlazione è espressa da due leggi della statistica linguistica: la legge armonica di Zipf-Estoup (Lepschy 1982, p. 192; Guiraud 1959, p. 75), e la legge di Zipf-Guiraud (De Mauro 1961, p. 821).

Questi due fattori sono usati come variabili linguistiche in molti indici statistici di leggibilità. Un indice di leggibilità è una formula matematica che attraverso un calcolo di tipo statistico è in grado di predire la reale difficoltà di un testo in base a una scala predefinita di valori. L'indice di leggibilità che ha avuto più successo, sia nella versione originale per la lingua inglese che negli adattamenti fatti per molte lingue, italiano compreso, è l'indice di Flesch, dal nome del suo autore Rudolf Flesch che lo pubblicò per la prima volta in un articolo del 1948. La caratteristica fondamentale di questo indice è la semplicità di applicazione e la sua brevità: prendendo in considerazione come variabili linguistiche la lunghezza delle parole in sillabe e la lunghezza delle frasi in parole, l'indice di Flesch si presta ad un computo manuale relativamente rapido ed affidabile.

L'automazione di questo indice si scontra con la difficoltà di progettare un esauriente algoritmo di sillabazione delle parole. Tutti gli algoritmi di sillabazione finora adottati dai sistemi automatici di scansione di un testo lasciano alcuni margini di errore, che possono essere più o meno gravi a seconda dei casi; in particolare il punto critico più rilevante nella sillabazione delle parole rimangono i dittonghi, per i quali la scansione in sillabe è legata alla collocazione dell'accento nella parola. In campo italiano, uno dei pochi tentativi riusciti di automazione del calcolo dell'indice di Flesch è rappresentato dalla ricerca condotta da parte di una équipe di giuristi e politologi all'Istituto per la Documentazione Giuridica di Firenze sulla leggibilità di documenti giuridici. Per l'analisi dei documenti giuridici è stato adottato un algoritmo di sillabazione artificiale, che utilizza istruzioni di calcolo molto semplici.

Per aggirare il problema della sillabazione sono stati elaborati altri indici che utilizzano come misura della lunghezza delle parole le lettere, anziché le sillabe. Uno di questi, tarato sulla lingua italiana, è l'indice Gulpease. Gulpease è il risultato del lavoro svolto negli anni 1987-1989 dal GULP (Gruppo Universitario Linguistico Pedagogico) presso l'Istituto di Filosofia dell'Università "La Sapienza" di Roma. Questo è l'unico indice costruito sulla base di testi in lingua italiana. Inoltre, possiede la particolarità di considerare anche l'abilità del lettore. Infatti, la scala di riferimento dell'indice consente di interpretarne i valori in modo diverso, a seconda del grado di scolarità raggiunto dal lettore.

L'indice presenta un'alta correlazione con l'adattamento dell'indice di Flesch alla lingua italiana, condotto da Roberto Vacca nel 1972 (FranchinaVacca, 1986). Come affermano gli autori, 

"la formula sembra [...] offrire una risposta sufficiente all'esigenza di una formula facile e facilmente accessibile sia per il calcolo manuale che computerizzato . " (Lucisano-Piemontese 1988, p . 122)

L'indice è il seguente:

GULPEASE = 89-LP/10 + 3 * FR,

dove:

—LP = (totale lettere* 100)/totale parole;

—FR = (totale frasi * 100)/totale parole.

Per calcolare l'indice su un testo si devono considerare le seguenti tre variabili linguistiche:

a) la lunghezza delle parole calcolata in numero di lettere;

b) numero delle parole componenti il testo;

c) numero delle frasi componenti il testo.

 

2. Il campionamento

Il testo che abbiamo esaminato ci era disponibile solo in formato cartaceo. Perciò abbiamo inserito un campione del testo al calcolatore per condurre l'analisi con Èulogos.

Per quanto riguarda i criteri di scelta dei campioni, abbiamo considerato il 10% dell'intero testo per avere una campionatura rappresentativa, e abbiamo utilizzato come unità di misura per questo calcolo il numero di pagine. In questo caso il 10% del testo, che è costituito da 185 pagine, tolta L 'Avvertenza iniziale dell'autore, equivale a 18,5 pagine. Stabilita la quantità di testo da campionare, restava da decidere la dimensione dei campioni.

In "Misurare le parole" (Lucisano 1992, p. 82) si suggerisce di usare lo stesso metodo di campionamento indicato da Rudolf Flesh per l'uso del suo indice. A questo proposito Flesch adotta due definizioni differenti di campione, procedendo analogamente a due sistemi distinti di computo delle variabili linguistiche: uno per il computo delle sillabe e un altro per quello delle parole e delle frasi. Infatti, per quanto riguarda il computo delle parole e delle frasi egli considera come campione di testo il gruppo di frasi intere che si avvicina di più al limite delle 100 parole sia per difetto che per eccesso. Mentre per il computo delle sillabe, egli considera il numero totale di sillabe presenti esattamente nel campione di 100 parole, indipendentemente dal fatto che il campione per le parole e le frasi sia minore o maggiore di questo.

Diversamente da Flesch, noi abbiamo scelto di considerare una definizione unica di campione, procedendo così a un computo univoco delle variabili linguistiche. Abbiamo deciso di considerare come campione il gruppo contiguo di frasi intere che si avvicinassero sempre per eccesso alle 100 parole. Questo criterio ci è stato dettato, oltre che dalla semplificazione del calcolo, soprattutto dal fatto che abbiamo riscontrato in alcune sperimentazioni che il calcolo dell'indice dà risultati più affidabili se condotto sul numero delle frasi, anziché sul numero delle parole. In tal modo la quantità di 100 parole rimane per noi solo una misura indicativa della grandezza del campione, mentre la misurazione reale del campione ci è fornita unicamente dal numero di frasi contenute in esso.

Partendo dalla constatazione che ogni pagina del testo non poteva contenere mediamente più di 2 campioni di frasi di circa 100 parole, il prodotto di questo numero per la dimensione della campionatura (18,5 pagine) ci ha fornito il numero dei campioni da estrarre dal testo (18,5 x 2 = 37 campioni). Infine, abbiamo deciso di scegliere i campioni all'interno del testo ad intervalli regolari. Questo è il modo più semplice di procedere rispetto a quello alternativo di fare ricorso ad una tabella di numeri casuali, per il quale bisogna fare attenzione a escludere di prendere due volte uno stesso campione. L'intervallo tra i campioni si calcola dividendo il totale delle pagine del testo per il numero dei campioni (185 pagine: 37 campioni = 5 pagine di intervallo): I'intervallo è naturalmente misurato in numero di pagine. 

Il calcolo fatto è, dunque, il seguente:

testo = 185 pagine     
10% testo = 18,5 pagine
1 pagina = 2 campioni di circa 100 parole campionatura (18,5 * 2) = 37 campioni
intervallo tra campioni (185/37) = 5 pagine

 

3. La leggibilità sintattica

L'analisi della leggibilità sintattica è stata condotta su ciascun campione separatamente. Poi, è stato calcolato il valore medio tra tutti i campioni per avere il dato complessivo indicante la leggibilità dell'intero testo.

Per la valutazione della leggibilità sintattica abbiamo calcolato dapprima l'indice Gulpease su ciascun campione e poi abbiamo fatto la media tra i valori dell'indice di tutti i campioni. La moda, cioè il valore più frequente tra gli indici dei campioni è circa 36. Gli estremi della distribuzione degli indici dei campioni, cioè i valori massimo e minimo, non sono molto distanti tra loro. Infatti, essi variano da un minimo di 34,15 per il 26° campione a un massimo di 48,75 per il 35° campione con un'ampiezza del campo di variazione di appena 14,6 punti. La loro media risulta uguale a 39,70. Inoltre, la deviazione standard ci offre una misura della dispersione dei valori nella distribuzione degli indici dei campioni. Essa è molto bassa, essendo uguale a 3,44. Ciò significa che i diversi valori dei campioni non si discostano molto dalla loro media.

In conclusione, il testo si dimostra omogeneo, senza grandi differenze nel periodare e nelle scelte stilistiche.

Riteniamo di dover fare una precisazione riguardo al valore medio degli indici da noi calcolato. Per il calcolo della media abbiamo considerato la media ponderata degli indici dei campioni, anziché la loro media semplice. Il calcolo della media ponderata dà una valutazione più approssimata del valore medio degli indici dei campioni, poiché tiene conto del diverso peso di ciascun campione, in relazione a ciò che si è detto sul metodo di campionamento. Infatti, la media semplice sarebbe adatta se tutti i campioni pesassero in egual misura sulla media, cosa che si verificherebbe se essi avessero tutti lo stesso numero di parole. Ma considerato che i campioni sono costituiti da frasi intere e che la quantità di 100 parole è solo una misura indicativa per la loro selezione, il numero di parole oltre il limite delle 100 gioca un ruolo importante ai fini del calcolo statistico della media.

A questo punto è necessario proiettare il valore medio degli indici sulla scala di leggibilità per avere la visualizzazione del grado di difficoltà di lettura del testo. In base alla scala della leggibilità scopriamo che il testo si presenta come molto difficile per un lettore con livello di scolarità di licenza media, mentre appare meramente difficile per un lettore in possesso del diploma di scuola superiore. Accanto alla scala della leggibilità del testo, esiste anche un'altra scala di valori, divisa in tre zone, che consente di avere l'informazione circa il tipo di lettura. La proiezione del valore medio dell'indice su questa seconda scala ci dà le seguenti informazioni: uno studente di terza media proverà, nel leggere il testo, la frustrazione di non essere in grado di comprenderlo (livello di frustrazione), mentre uno studente di scuola superiore sarà in grado di comprendere bene il testo, ma solo sotto la guida delI'insegnante (livello di lettura scolastica).

Durante la battitura del testo, ci siamo accorti che l'autore fa frequentemente ricorso agli incisi per correggere o precisare l'informazione contenuta nella frase principale. Infatti, ben 32 campioni sui 37 complessivi contengono incisi per un totale di 68 incisi, in media 2 incisi per campione. In generale gli incisi allungano la frase e quindi hanno l'effetto di diminuire la leggibilità di un testo. Per questo stesso motivo, quando le frasi sono molto lunghe e articolate, la maggior parte dei lettori tralasciano gli incisi durante la prima lettura del brano, riservandosi di tornare sugli incisi in un secondo tempo, dopo avere compreso il senso dell'intero brano. In connessione a tutto ciò, abbiamo pensato che sarebbe stato interessante analizzare la leggibilità dello stesso testo, escludendo da esso gli incisi.

Per questo secondo tipo di analisi abbiamo utilizzato la stessa campionatura omettendo dal computo delle variabili linguistiche i dati numerici relativi agli incisi. Abbiamo escluso come incisi tutti i gruppi di parole, delimitati dalle lineette o dalle parentesi, che occorrendo come parti all'interno di frasi intere, non costituiscono frasi essi stessi. Dunque, varia solo la quantità di lettere e di parole occorrenti nei campioni, mentre la quantità delle frasi rimane immutata. La media ponderata dei valori dell'indice dei campioni senza incisi è uguale a 40,85.

La media degli indici dei campioni senza incisi mostra solo un piccolo incremento di circa un punto rispetto a quello originale. Abbiamo cercato di scoprire il motivo di questo risultato così discreto. Nella nostra ricerca siamo partiti dalle differenze tra i due insiemi di campioni: quello dei campioni originali del testo e quello degli stessi campioni senza gli incisi. La prima differenza che abbiamo rilevato è che, mentre le lettere e le parole sono sempre maggiori nei campioni originali rispetto a quelle dei campioni senza incisi, ciò non è sempre vero per quanto riguarda la lunghezza media in lettere delle parole. Infatti, ben 12 campioni senza gli incisi mostrano una quantità media di parole superiore a quella presente nei campioni originali. Ciò significa che in questi 12 campioni gli incisi contengono mediamente parole brevi, e in ó campioni sui 12 appena accennati, la densità di parole brevi negli incisi è così alta da influire positivamente sulla leggibilità dei campioni stessi: infatti, questi ó campioni mostrano un valore di leggibilità più alto di quello degli stessi campioni presi senza gli incisi.

Gli strumenti statistici ci permettono di focalizzare meglio il peso che gli incisi hanno sulla determinazione della leggibilità dei singoli campioni. Due sono le serie di dati da prendere in considerazione: la serie delle differenze tra gli indici di leggibilità dei campioni corrispondenti e la serie delle lunghezze medie in parole degli incisi. Mettendo a confronto le due serie di dati in un sistema di assi cartesiani, si scopre che esiste una stretta correlazione tra di esse, per cui a differenze negative nella leggibilità corrispondono in genere incisi con parole brevi. Infatti, la forma della configurazione di punti presente nel grafico ci fa pensare che la differenza tra gli indici dei campioni corrispondenti cresce linearmente con la lunghezza media delle parole presenti negli incisi. Per ottenere un'immagine più chiara, è sufficiente tracciare una retta ideale attraverso la configurazione di punti seguendo più o meno la direzione individuata nel caos. Il calcolo statistico della regressione tra le due serie di dati fornisce le indicazioni necessarie per tracciare la retta. Tuttavia dal nostro punto di vista appare più utile il calcolo del coefficiente di correlazione che ci dà una misura generale della dipendenza fra le due serie di dati. Il coefficiente di correlazione da noi trovato è 0,41, che corrisponde a una buona correlazione.

 

4. Leggibilità lessicale

 

ll sistema Èulogos, per la parte lessicale, confronta il testo con il Vocabolario di Base della lingua italiana di Tullio De Mauro. Oltre ai 7.950 lemmi registrati nel VdB cartaceo Èulogos contiene una descrizione morfologica dettagliata anche di altri 1.200 lemmi circa, che sono stati aggiunti per ricostituire il corpus originale del VdB. Infatti nel VdB, per esempio, non sono riportati gli avverbi con terminazione in "-mente" derivati da aggettivi o i nomi propri. Così attualmente Èulogos è in grado di riconoscere e lemmatizzare circa 120.000 forme di 9.162 lemmi, e il suo vocabolario intemo è continuamente aggiornato e arricchito sia di lemmi che di forme. Per esempio, delle oltre 120.000 forme, circa 5.500 sono forme alterate di sostantivi o aggettivi, che sono state progressivamente aggiunte.

Il sistema Èulogos, per la sua parte lessicale, è un lemmatizzatore (Mastidoro 1991, pp. 81-216; Mastidoro 1992, pp. 135-137), cioè un sistema che a partire da una parola qualsiasi della lingua è in grado di ricondurla a un vocabolo, purché abbia in memoria il vocabolo stesso. Per esempio, quando il sistema esamina la parola vado, segnala che essa è una forma del lemma andare. Questo processo è ripetuto per ogni parola del testo o, più rigorosamente, per ogni occorrenza del testo. Tuttavia solo per la metà circa delle occorrenze di un testo ognuna di esse è ricondotta a un solo lemma. Negli altri casi capita che una stessa occorrenza possa essere ricondotta a più forme di più lemmi. Questo è il caso, per esempio, di stato, che può essere ricondotta a due verbi (stare e essere) e a un sostantivo (stato). Un programma di calcolatore, con le tecnologie attuali, non è in grado di risolvere i casi di omografia. Perciò il sistema Èulogos mette a disposizione una serie di strumenti attraverso i quali segnalare all'utente i casi di omografia e consentire una rapida valutazione delle possibilità di lemmatizzazione.

Veniamo all'analisi del testo di Geymonat. L'analisi della leggibilità lessicale è stata condotta sull'insieme dei campioni, e non su ogni campione separatamente. Questo perché un primo esame dei campioni ha evidenziato una relativa omogeneità lessicale, e perché inoltre l'analisi lessicale di un solo campione non è molto significativa.

I campioni contano in tutto 5.131 occorrenze lemmatizzate, escluse le cifre espresse in forma numerica, che ai fini della valutazione del lessico sono ininfluenti.

Dal punto di vista generale, osserviamo che i campioni contengono 525 occorrenze non appartenenti al VdB (10,2% sul totale). Piuttosto significativa è l'analisi delle occorrenze non riconosciute, che Èulogos registra in una base dati a parte:

—23 di esse (il 4,4% delle non riconosciute) è costituito da cognomi di diversi autori. Il più citato è Carnap (4 occorrenze), seguito da CalEleo (3 occorrenze) e da altri nomi, tra i quali Preti, Aristotele e Genti/e (2 occorrenze per ciascuno).

—138 (il 26,3%) termini del linguaggio filosofico e matematico. I più frequenti sono filosofo (7), dialettico (6), nozione (6), filosofico (5), concezione (5), e non mancano termini prettamente logico-matematici, come assioma e assiomatico (5), algebra, algebrico, antecedente, assiomatizzato, assiomatizzazione, equazione, teorema. Sono anche presenti diversi aggettivi derivati da cognomi di personaggi: aristotelico, baconiano-galileiano, cantoriano, copernicano, pitagorico (2), platonico, tolemaico, per un totale di 8 occorrenze;

—364 (il 69,3% delle non riconosciute, il 7,1% del totale delle occorrenze) occorrenze di lemmi non di base di ogni tipo, da abbozzare a vocabolo. Di queste, 54 sono forme verbali e il resto si distribuisce tra i sostantivi e gli aggettivi, con pochi avverbi.

Per quanto riguarda le occorrenze riconosciute, cioè quelle del VdB, esse nel complesso coprono quasi il 90°10 del totale. Va innanzi tutto osservato che questa percentuale, pur alta in valore assoluto, non è, in sé, indice di grande leggibilità lessicale.

Il VdB contiene al suo interno, soprattutto nel vocabolario fondamentale, le cosiddetteparole vuote, cioè articoli, congiunzioni, ecc. Ciò comporta il fatto che comunque in un testo la maggior parte delle parole risulta essere di base. Questo valore, inoltre, deve essere depurato delle occorrenze di lemmi omografi e di lemmi polisemici: in questo caso accade che una occorrenza può essere effettivamente forma di un lemma di base, ma quella particolare occorrenza è invece forma di un lemma non di base. Per esempio, occorrenze come Nostro nell'espressione "il Nostro", proposizione in un contesto logico, ecc. Non è possibile valutare questi aspetti con un programma di calcolatore, ma è necessaria l'analisi attenta del testo. Poiché tuttavia questo aspetto lessicale è funzione dello stile dell'autore e dell'argomento trattato, è sufficiente un'analisi a campione per quantificare, a grandi linee, I'entità di questo fattore. Comunque, nel testo di Geymonat ciò accade in non più del cinque percento delle occorrenze.

Nel testo in esame quindi possiamo considerare sicuramente di base circa 1'85% delle occorrenze.

Per quanto riguarda la distribuzione delle 4.606 occorrenze lemmatizzate nei tre livelli del vocabolario di base, osserviamo che:

—1'81,6% delle forme è del vocabolario fondamentale, delle quali 2.021 corrispondenti a una sola forma di un solo lemma (pari al 43,9% del totale);

—il 17,0% delle forme è del vocabolario di alto uso, delle quali 420 corrispondenti a una sola forma di un solo lemma (pari al 9,1% del totale);

—1'1,7% delle forme è del vocabolario di alta disponibilità, delle quali 36 corrispondenti a una sola forma di un solo lemma (pari allo 0,8%).

In sintesi, dal punto di vista lessicale il testo richiede che il lettore abbia dimestichezza con la terminologia scientifica, soprattutto quella logicofilosofica; diversamente può essere in alcuni passi frustrante. Se sottoposto a studenti della scuola media superiore, è necessario guidare la lettura.

Considerando il fatto che si tratta di un testo dichiaratamente filosofico e "introduttivo in senso teoretico>> (Avvertenza, p. 7), si tratta comunque di un esempio di testo relativamente chiaro, sicuramente ben scritto rispetto alI'argomento.

 

5. Conclusioni

In questo articolo abbiamo descritto brevemente gli scopi e i metodi della valutazione della leggibilità e abbiamo illustrato una applicazione pratica di questi metodi a un testo che molti di noi possono trovarsi a leggere o aver già letto.

In particolare, abbiamo descritto i risultati dell'analisi di un testo di un autore molto letto come Geymonat usando il sistema Èulogos, un programma per Windows appositamente studiato per questo tipo di rilevamenti.

L'obiettivo di questo scritto è dimostrare l'utilità di questi strumenti e la semplicità con la quale è possibile applicarli all'attività quotidiana di studio, ricerca o insegnamento.

 

Nota

Gli autori sono responsabili in comune dei paragrafi 0, 1, 2 e 5; Nicola Mastidoro ha redatto i paragrafi 1.1 e 4; Maurizio Amizzoni, invece, i paragrafi 1, 2 e 3.

 

 

Richiami bibliografici 

Sono qui elencate le opere citate nel presente lavoro.

Amizzoni 1991 = Maurizio Amizzoni, Calcolo automatico della leggibilità: I'indice GULPEASE, tesi di laurea, cattedra di Filosofia del linguaggio, Istituto di Filosofia, Università degli studi di Roma "La Sapienza", Roma 1991;

Bortolini et a. 1972 = Umberta Bortolini, G. Tagliavini e Antonio Zampolli, Lessico italiano di frequenza, Garzanti, Milano 1972;

Bortolini-Zampolli 1971 = Umberta Bortolini e Antonio Zampolli, Lessico di frequenza della lingua italiana contemporanea: prospettive metodologiche, in Società di linguistica italiana, L'insegnamento dell'italiano in Italia e all'estero, Atti del quarto convegno internazionale di studi, Roma, 1-2 giugno 1970, due Voll., Vol. Il, pp.639-648, Bulzoni, Roma 1971;

De Mauro 1961 = Tullio De Mauro, Statistica linguistica, in "Enciclopedia Italiana", Ill Appendice (1949-1960), Istituto della Enciclopedia Italiana, Roma 1961, pp. 820-821;

De Mauro 1989 = Tullio de Mauro, Cuida all 'uso delle parole, Editori Riuniti, Roma 1980'...1989'° (si cita dalla decima edizione); 

Franchina-Vacca 1986 = V. Franchina e R. Vacca, Taratura dell'indice di Flesch su testo bilingue italiano-inglese di unico autore, in Atti dell'incontro di studio su: Leggibilità e Comprensione, "Linguaggi" Ill, 3 (1986), Coop. Spazio Linguistico, Roma 1986, pp. 47-49;

Guiraud 1959 = Pierre Guiraud, Problèmes et méthodes de la statistique linguistique, D. Reidel Publishing Company, Dordrecht 1959;

Juilland-Traversa 1973 = A. Juilland e V. Traversa, Frequency Distionary of Italian Words, Mouton, I'Aia 1973;

Henry 1987 = Georges Henry, Comment mesurer la lisibilité, Editions Labor, Bruxelles 19872;

Lepschy 1982 = G. Lepschy, Lalinguisticastrutturale, Einaudi, Torino 1966'...19823 (si cita dall'ultima edizione);

Lucisano 1992 = Pietro Lucisano, Misurare le parole, Kepos, Roma 1992;

Lucisano-Piemontese 1988 = Pietro Lucisano e Maria Emanuela Piemontese, CULPEASE: una formula per la predizione della difficoltà dei testi in lingua italiana, in "Scuola e città", 3, 31, La Nuova Italia, marzo 1988;

Mastidoro 1991 = Nicola Mastidoro, Rilevamento automatico del tasso di vocabolario di base, tesi di laurea, cattedra di Filosofia del linguaggio, Istituto di Filosofia, Università degli studi di Roma "La Sapienza", Roma 1991;

Mastidoro 1992 = Nicola Mastidoro, ll sistema Èulogos per la valutazione automatica della leggibilità, in Lucisano 1992, pp. 125- 140;

Sciarone 1977 = A. G. Sciarone, Vocabolario fondamentale della lingua italiana, Minerva Italica, Bergamo 1977;

VELI 1989 = AA. VV., VELI, vocabolario elettronico della lingua italiana, IBM Italia 1989;

Zampolli 1977 = Antonio Zampolli, Trattamento automatico di dati linguistici e linguistica quantitativa, in Società di linguistica italiana, Dieci anni di linguistica italiana (1965-1975), pp. 349-370, Bulzoni, Roma 1977.