Valutazione: è più efficace quella descrittiva o sintetica? Ne parliamo con Benedetto Vertecchi [INTERVISTA]
Valutazione descrittiva o sintetica? Cosa cambia e qual è il modello più efficace? Per dare una risposta a questi quesiti ne abbiamo parlato con il Professor Benedetto Vertecchi, Professore emerito di Pedagogia sperimentale presso Università Roma Tre, autore di centinaia di pubblicazioni e voce autorevole della docimologia in Italia.
Professor Vertecchi, lei ha scritto diverse pubblicazioni sul tema della valutazione, ci spiega innanzitutto cosa si intende per valutazione scolastica e qual è il suo scopo?
Quando oggi si parla di valutazione in un contesto educativo ci si riferisce essenzialmente al significato che la parola è venuta assumendo nel corso dell’Ottocento e si è ulteriormente affermato nel Novecento. Si tratta di un significato che esaspera la sineddoche che si opera quando un termine che designa qualcosa di più esteso viene usato per indicare una realtà più circoscritta. Di per sé, valutazione designa un’attribuzione di valore che varia fra un minimo e un massimo e può riferirsi a qualunque settore di esperienza. Ma, nel linguaggio educativo, il significato della parola si riferisce soprattutto ad aspetti dell’apprendimento degli allievi.
Più di recente, si è avviato un processo inverso, che tende di nuovo ad ampliare la gamma dei contesti in cui si parla di valutazione. Alla valutazione che aveva come riferimento principale i comportamenti degli allievi, si sono andate aggiungendo altre dimensioni del processo educativo, che in precedenza non si riteneva che dovessero essere oggetto di una espressione separata di giudizi, soprattutto se formalizzati. All’attribuzione scolastica tale più complessa interpretazione dell’attività valutativa ha aggiunto la specificazione di sistema ed ha aggiunto alla considerazione delle variabili connesse apprendimento quelle che si riferiscono agli altri soggetti che interagiscono nella pratica dell’educazione e nella organizzazione dei processi, nonché alla qualificazione dei contesti e alla presenza in essi delle dotazioni che si ritengono necessarie.
Alla base della crescente rilevanza assunta dalla valutazione ci sono importanti cambiamenti sociali, economici e politici che hanno segnato lo sviluppo dei sistemi d’istruzione da quando, nel 1793, la Convenzione che aveva assunto il ruolo di suprema fonte legislativa nella Francia rivoluzionaria aveva sancito il principio del diritto universale all’istruzione. Se si seguono gli sviluppi successivi del dibattito (ovviamente nei paesi in cui in modi espliciti o impliciti il diritto all’istruzione è stato riconosciuto e, soprattutto, si è incominciato ad attuare), si colgono i legami fra l’ampliarsi dell’offerta di istruzione e l’affermarsi di un senso comune valutativo, generalmente collegato a pratiche di certificazione frutto di orientamenti politici. Già in età napoleonica, in Francia si accendeva il confronto sul modo di condurre gli esami di baccalauréat, ovvero sulle prove conclusive dell’istruzione secondaria e sulle conseguenze che la loro struttura avrebbe comportato nel formarsi dei profili culturali degli studenti.
Il significato politico della valutazione emerse con tutta evidenza negli anni ’30 dell’Ottocento, quando nello Stato del Massachusetts fu condotto il prototipo di quelle che oggi siamo soliti indicare come valutazioni comparative. Nella città di Boston il numero di allievi che frequentava le scuole secondarie aveva raggiunto le 7.000 unità, un numero che sembrava essere enorme, e lo era se si considera che solo una frazione modesta degli adolescenti seguiva percorsi di istruzione che si prolungava fin quasi al termine del secondo decennio di vita. Il commissario di Stato per l’educazione del Massachusetts era Horace Mann, il primo a ricoprire un incarico di governo per la scuola. Successivamente, Mann fu eletto nel Congresso degli Stati Uniti, dove si impegnò nel realizzare un sistema educativo aperto a tutte le fasce della popolazione e per questo suo intento è considerato il padre della scuola americana. Ma, tornando alla sua responsabilità nel Massachusetts, si trovò in seria difficoltà per il conflitto che contrappose le famiglie alle scuole, due istituzioni che si scambiavano l’accusa di non aver saputo contrastare la caduta qualitativa degli studi. Per trarsi d’impaccio, Mann organizzò un’ampia ricognizione degli apprendimenti conseguiti dagli allievi di Boston, ai quali era chiesto di rispondere ad un questionario contenente 150 domande, tese a saggiare l’acquisizione di un’ampia gamma di nozioni, concetti e capacità operative. Le domande erano formulate in modo che la risposta corretta non potesse dar luogo ad ambiguità nella fase di rilevazione dei dati. Non mi soffermo sui risultati ottenuti: in queste note ciò che mi sembra più importante è rilevare che si afferma uno dei requisiti centrali delle prove di valutazione, quello della attendibilità. È il requisito sul quale si è rivolta più di frequente l’attenzione di quanti successivamente hanno fatto della valutazione oggetto di ricerca. Dal mio punto di vista, sarebbe stato necessario, anche se meno agevole, rivolgere la medesima attenzione all’altro irrinunciabile requisito, quello della validità, i cui limiti continuano ad essere evidenti e determinano molta della confusione che si determina nel confronto sulla valutazione.
Il problema della valutazione è diventato sempre più complesso a misura del crescere delle quote di popolazione scolarizzata, dell’estendersi dei diritti civile e politici, del mutare dell’organizzazione sociale, dei cambiamenti che hanno coinvolto i processi produttivi. C’è il rischio di non cogliere quanto di diverso si presenta da una generazione alla successiva (ma ormai anche all’intento della stessa generazione), se non si riflette sulle ragioni di tale diversità e sui modi in cui essa si manifesta. La valutazione sembra interessare l’effetto di insiemi decisionali già sostanzialmente definiti, mentre si dovrebbe riflettere sui nuovi indirizzi degli eventi quando essi sono ancora in corso, e meglio ancora al primo apparire di segni dei quali si possa immaginare uno sviluppo consistente in tempi relativamente brevi.
Finita la Prima Guerra Mondiale, le potenze vincitrici sottoscrissero a Washinton un documento, in forza del quale si impegnavano a promuovere per tutti un percorso di istruzione di otto anni. In alcuni paesi quell’obiettivo corrispondeva già ad una realtà diffusa, in altri era ben lungi dall’essere conseguito (è il caso dell’Italia). Non era difficile immaginare che dopo un percorso di base di otto anni la domanda di istruzione sarebbe cresciuta ulteriormente, fino a colmare l’intervallo fra l’istruzione secondaria inferiore e il conseguimento di un diploma di scuola superiore. I paesi a più alta scolarizzazione si ponevano sia interrogativi a carattere tecnico (come sottoporre gli allievi a prove che consentissero di apprezzare il livello di apprendimento raggiunto, sia – più ampiamente – di carattere strategico (come far fronte al crescere dell’esigenza di istruzione per assecondare i processi di cambiamento in atto e quelli attesi). Una Fondazione di New York (la Carnegie Corporation) sostenne un imponente programma di indagini, che ebbero luogo in vari paesi d’America e d’Europa, per rilevare come si svolgessero le prove finali dell’istruzione secondaria. Sono gli esami che, con nomenclature locali differenti, consentono di ottenere il diploma di Baccalauréat, Abitur, General Certificate of Education, Matura eccetera. Quel che emerse con maggiore evidenza fu la bassa attendibilità degli esiti che le prove consentivano di rilevare. Se prendiamo in considerazione la ricerca svolta in Francia (l’Italia non prese parte alla ricerca, anche perché l’esigenza di porre in evidenza le caratteristiche delle prove era avvertita soprattutto nei paesi che si distinguevano per tassi di scolarizzazione più elevati, mentre il sistema scolastico italiano era alle prese con l’attuazione della riforma Gentile, il cui proposito si riassumeva nel motto “poche scuole ma buone”), svolta sotto la direzione di studiosi di grande valore, tra i quali Henri Piéron (considerato il padre della docimologia, ossia della scienza che studia la valutazione nei percorsi di istruzione) mise a nudo i limiti dei giudizi espressi dalle commissioni giudicatrici: poteva risultare che la stessa prova ottenesse un giudizio positivo o uno negativo, e che in alcuni casi portasse al conseguimento del diploma e in altri si dovesse ripetere l’esame.
Si parla spesso di valutazione scorporandola, erroneamente, da quello che dovrebbe essere il progetto educativo nella sua interezza. Ma come si costruisce una valutazione efficace?
Nella risposta alla domanda precedente ho considerato la valutazione come funzione volta a rilevare gli esiti dell’attività educativa e ad assumere decisioni orientate al conseguimento degli obiettivi definiti per il macro-livello. Si tratta ora di passare al micro-livello, quello direttamente coinvolto nelle pratiche quotidiane dell’educazione formale, e indirettamente di quella informale. Premetto che, a mio parere, molte delle posizioni che nel dibattito valutativo si presentano come negazioniste, e fanno riferimento (spesso solo in modo allusivo) ad una condizione irenica, nella quale non c’è posto per i giudizi di valutazione, confondono dimensioni diverse del problema. La valutazione è per un verso una componente essenziale del linguaggio, in assenza della quale sarebbe arduo collegare il pensiero (e sarebbe certo un pensiero molto povero) all’azione (altrettanto povera). In assenza di valutazione, mancherebbero criteri di scelta. Saremmo costretti a muoverci entro spazi condizionati, perché non avremmo nessun argomento per giustificare qualcosa di diverso da quanto stabilito da algoritmi del tutto definiti. L’esperienza quotidiana presenta una serie ininterrotta di valutazioni, dal risveglio mattutino alla conclusione della giornata. Sono valutazioni cui seguono scelte: può accadere (ed è ciò che avviene anche nelle pratiche quotidiane dell’educazione) che si sia consapevoli delle scelte, ma meno della valutazione che le sostiene. Tuttavia, ciò non significa che non vi sia a monte l’espressione di un giudizio di valutazione; vuol dire solo che l’abbiamo naturalizzato. In altre parole, si fa riferimento a giudizi che sono entrati a far parte di un repertorio che si è stabilizzato attraverso l’esperienza, o è stato incrementato acquisendo elementi di senso comune.
Quel che si fa passare come superamento della valutazione dovrebbe più correttamente essere indicato, secondo i contesti, come sostituzione di giudizi convenzionalmente formalizzati (per esempio, tramite scale numeriche, successioni alfabetiche, serie di aggettivi che esprimono un apprezzamento più o meno ampio) con formulazioni verbali di tipo descrittivo. Potremmo discutere sulla reale assenza di caratteristiche scalari in giudizi di valutazione espressi secondo tale modalità, ma sarebbe un’ennesima discussione sul sesso degli angeli. Così come è unna soluzione da teologi bizantini quella che pretende di sciogliere le tante ambiguità che si trascinano nel confronto sulla valutazione aggiungendo al nome questo o quell’aggettivo qualificativo. Nella sua domanda fa riferimento ad una valutazione efficace. Potrei replicare, argomentando, che tutte le valutazioni lo sono, oppure che non lo sono: dipende, infatti, dal punto di vista in cui ci si pone nel considerare la valutazione, ma anche dallo spazio di libertà (o dall’autonomia) entro il quale si definisce il giudizio. È questo il punto di snodo a partire dal quale si riconosce da un lato la funzione sociale del sistema educativo, dall’altro lo spazio di libertà di chi interpreta tale funzione e la traduce in attività. Di conseguenza è efficace, ma non autonoma, la valutazione che interpreta fedelmente gli intenti del sistema, ma non lo è l’espressione di giudizi che persegue altri intenti, per esempio quello di uno sviluppo centrato sulle caratteristiche degli allievi. È evidente, in questo secondo caso, che il sistema definisce cornici molto generali, mentre si accetta una variabilità locale derivante dall’autonomia di cui fruisce chi assume decisioni che hanno più diretto impatto con l’assumere di tratti desiderati da parte degli allievi.
Non credo che per stabilire quali caratteristiche debba aveva la valutazione sia importate l’aggettivazione cui si si ricorre per qualificarla. Più importante è stabilire con chiarezza l’orientamento del sistema e individuare il compromesso più opportuno tra il perseguimento di intenti di sistema e l’autonomia di chi ha il compito di interpretarli e di sviluppare azioni didattiche coerenti. Quello che occorre precisare è un percorso in cui si sia sempre consapevoli della coerenza delle azioni con gli intenti da una fase iniziale (T0), nella quale si riscontra la maggior distanza fra le caratteristiche degli allievi e gli obiettivi del disegno educativo, ad una terminale (Tn), nella quale tale distanza dovrebbe essere minima. Gran parte della ricerca valutativa, della quale ho indicato alcune fasi rilevanti nella risposta precedente, ha avuto come riferimento il tempo terminale (che finisce col riprodurre quello iniziale in percorsi di studio sequenziali), mentre solo più di recente la maggiore attenzione, almeno dal punto di vista didattico e della ricerca che ad esso si collega, si è riversata sul tempo intermedio (Ti). Ci sono due ragioni per un simile spostamento dell’attenzione:
- la prima è di carattere statistico. Se si esamina la distribuzione dei risultati di apprendimento conseguiti da un campione di allievi (o delle caratteristiche della quali essi erano originariamente accreditati) si osserva un andamento sostanzialmente casuale, più o meno quello che si potrebbe ottenere considerando il peso dei bambini alla nascita o l’altezza raggiunta dopo un certo numero di anni nell’età dello sviluppo. Ha senso pensare che una attività in sé artificiale, com’è quella educativa, dia luogo ad effetti qualificabili come casuali? Quando si precisano quali sono gli intenti che l’educazione formale si prefigge, per esempio quando si stabiliscono i programmi di integramento (comunque li si voglia designare), una loro rappresentazione grafica mostrerebbe un istogramma con un’unica figura che collega i dati riportati sull’asse delle ascisse e su quello delle ordinate. Dai dati empirici si ricava invece una rappresentazione a campana, che corrisponde al riscontro di una variabilità che vede raggruppata una maggioranza dei dati in posizione intermedia e frazioni gradualmente meno consistenti a misura che ci si allontana da essa. Ha senso che ciò avvenga? Non sarebbe più ragionevole pensare che fra l’esito desiderato (tutti gli allievi conseguono un successo pieno) e quello osservato (frazioni di allievi si discostano da tale esito) la differenza debba essere limitata e riferirsi alle particolari circostanze che distinguono lo stato in cui alcuni allievi seguono il percorso di apprendimento? Un quesito sub-implicato ci porterebbe a chiedere perché per tanto tempo si è accreditata una nozione di qualità dell’educazione scolastica rivelata dalla severità dei giudizi e dall’ampiezza degli scarti;
- per capire l’altra ragione occorre riflettere sul diverso modo di intendere la capacità di apprendere che si è venuto affermando negli anni successivi alla Seconda Guerra Mondiale. Purtroppo si è trattato di uno sviluppo interpretativo che si è ben affermato nel campo della ricerca, ma ha avuto scarsa incidenza sul senso comune. Lo stereotipo più consueto cui si ricorre per spiegare i livelli diversi di apprendimento che gli allievi conseguono nel loro percorso scolastico consiste nel riferire il risultato osservato (al termine di un periodo più o meno lungo) al livello di attitudine del quale ciascuno è accreditato. Tale accreditamento può derivare da stime a carattere intuitivo, o dai dati che si ottengono tramite prove psicometriche. Poiché la distribuzione dei dati psicometrici segue un andamento a campana, si ritiene che anche i risultati di apprendimento debbano distribuirsi in modo analogo. In un certo senso, ciò equivale ad affermare che ciascun allievo reca con sé un microprogramma di apprendimento che condiziona, in positivo o in negativo, secondo i contesti in cui ha luogo l’educazione scolastica. Questo argomento è stato sottoposto a due revisioni critiche. La prima è consistita nella denuncia di un determinismo che trova maggiori argomenti nel condizionamento sociale che nel modo di apprendere; l’altra revisione critica ha potuto giovarsi dei risultati di importanti ricerche empiriche, dalle quali emergeva che il livello di attitudine di cui un allievo è accreditato non è invariabile, ma subisce modifiche anche vistose. Menzionerò solo una di queste ricerche, che è stata effettuata in Italia da una studiosa di psicologia dell’educazione, Ornella Andreani Dentici. L’Andreani si era soffermata su questo argomento, che derivava da una rigorosa applicazione del principio di causa ed effetto: se il condizionamento offrisse una spiegazione accettabile, i dati attitudinali e quelli di apprendimento dovrebbero dar luogo ad una medesima sequenza, ma se la sequenza presenta posizioni ordinali diverse, si deve validare una delle seguenti ipotesi, che il livello di apprendimento sia maggiore o minore del livello dell’attitudine. È evidente che se il livello fosse minore (under-achievement) potremmo spiegare la differenza fra risultato atteso e risultato osservato in base a circostanze personali sfavorevoli (malattia, problemi famigliari, necessità di contribuire al bilancio domestico eccetera), ma se fosse maggiore (over-achievement) ci troveremmo di fronte ad un paradosso, quello di un allievo che apprende più di quanto possa apprendere. Ma se si verifica questa circostanza, va in crisi l’intero castello argomentativo.
In conclusione, è una concezione molto astratta della valutazione quella che prescinde da una accurata ricognizione delle variabili che segnano il contesto, o che si rifanno a feticci parascientifici che non resistono a una critica teorica, né ad una empirica.
È vivo il dibattito nella scuola primaria sul modello più efficace di valutazione tra chi sostiene la valutazione descrittiva per il suo valore pedagogico e chi, invece, ritiene più comprensibile la valutazione sintetica. Ci aiuta a comprendere meglio la differenza?
Francamente non capisco bene i termini del conflitto che periodicamente oppone i due tipi di valutazione. Dal mio punto di vista la differenza reale è quella che oppone una valutazione volta a facilitare pratiche retroattive da una che considera il giudizio come separato dalla revisione del processo di apprendimento. Se il criterio più importante per qualificare la valutazione è la sua valenza retroattiva, si riconosce l’esigenza di una revisione dell’impianto didattico capace di incontrare le esigenze di ciascun allievo. Ritengo che le continue revisioni del modo di formulare i giudizi abbiano generato una confusione dalla quale sarà difficile uscire. Ha impedito, infatti, che si affermasse una cultura condivisa della valutazione. Non solo, si sono gabellate come innovazioni revisioni delle scale che per lo più altro non sono state che riformulazioni di quelle precedentemente in uso. La verbosità degli interventi sulla valutazione ha coperto la reale assenza di una ricerca istituzionale nel settore, relegato a terreno di esercitazione per tablerondisti. Mi si consenta di sviluppare un esempio virtuoso dopo le critiche negative che ho richiamato in precedenza. Tutti sanno (ma spesso non conviene che se ne parli) che i bambini (specie quelli socialmente meno favoriti) presentano oggi problemi di depauperamento dei repertori verbali. E tutti sanno (se non lo sanno sarebbe opportuno che si dedichino ad altro) che l’ampiezza del lessico favorisce l’apprendimento. Mi chiedo: chi è in grado di indicare l’evoluzione dei repertori lessicali di cui dispongono gli allievi? Eppure, dati collegati al lessico sarebbero fondamentali per operare scelte didattiche consapevoli. Come dobbiamo considerare gli elementi che si ricavano dall’esplorazione dei repertori verbali? Descrittivi o sintetici?
La questione non mi appassiona per nulla. Mi rattrista, invece, pensare ai tanti bambini che trascorrono in isolamento le ore di permanenza in casa, le cui interazioni coi pari e con gli adulti sono ridotte a poche o nulle, che sono esposti a messaggi che li trovano del tutto passivi, che gesticolano disordinatamente imitando, senza comprenderli, i comportamenti di personaggi alla moda.