Università degli Studi Suor Orsola Benincasa - Napoli
Dipartimento di Scienze umanistiche
Modalità di navigazione
Percorso
Contenuto

Servizio LePrE
Informazioni in tempo reale su orari delle Lezioni, Programmi di studio e appelli d'Esame

Versione stampabile

Linguistica computazionale
Corso di Laurea in Digital Humanities. Beni culturali e materie letterarie (Laurea magistrale)
CFU: 12
SSD: L-LIN/01
Docenti: Antonio Perri, Teresa Numerico
Anno Accademico 2023/2024

 

Versione italiana

Prerequisiti
È richiesta un’adeguata conoscenza della terminologia, delle metodologie e dei livelli d’analisi elaborati dalla linguistica sincronica o descrittiva, oltre a una conoscenza delle nozioni logico-matematiche di base necessarie a comprendere l’analisi quantitativa di dati linguistico-testuali e comportamentali. Il sussistere di tali prerequisiti è, in parte, automatica conseguenza dei requisiti curriculari previsti per la frequenza al CdS (il superamento di insegnamenti di Linguistica generale), ma sarà comunque oggetto di accertamento diretto da parte del docente durante le prime lezioni del corso.

Obiettivi
In conformità con quanto stabilito dagli indirizzi formativi del CdS, il corso si propone far sì che gli studenti conoscano e comprendano nozioni “mirate” di linguistica e statistica in vista dell’implementazione pratiche per il trattamento automatico e l’analisi dei testi e dell’informazione. In particolare, l’insegnamento favorirà l’approfondimento di concetti relativi a strumenti e algoritmi che analizzano corpora testuali di varia natura, consentendo agli studenti di acquisire le competenze necessarie per analizzare criticamente la riorganizzazione della conoscenza promossa dalla digitalizzazione.

Contenuto
Nel primo modulo introduttivo, muovendo dalle “classiche” riflessioni di Zellig Harris, verrà delineato il contesto storico in cui, a partire dalla fine degli anni Cinquanta del XX secolo, si posero le basi per un approccio formale allo studio del linguaggio destinato a porre in evidenza fenomeni quantitativi circa la probabilità di occorrenza di elementi in relazione con altri. L’idea che regolarità statistiche governino la formazione delle frasi e la lingua possa essere studiata con metodi computazionali (delineando in particolare una teoria semantica su basi distribuzionali antitetica a quella sviluppatasi nell’ambito dello strutturalismo europeo) e il contemporaneo sviluppo delle tecnologie dedicate alla computazione ha creato i presupposti per il definirsi delle aree della linguistica computazionale propriamente detta e del Natural Language Processing (NLP), ossia l’analisi computazionale applicata alla risoluzione di specifici task. Dopo aver riproposto le nozioni essenziali di linguistica e statistica per affrontare l’analisi automatizzata dei testi, ci si concentrerà sui problemi legati al machine learning e sulla cosiddetta semantica distribuzionale a vettori. Si passeranno in rassegna, infine, le tecniche di annotazione dei testi (ai diversi livelli di analisi linguistica), i principali task di NLP e gli strumenti digitali disponibili a portare avanti l’analisi.

Nel secondo modulo, di approfondimento, verranno affrontate le tecniche usate nell’ambito dell’intelligenza artificiale (con particolare riguardo a quelle di machine learning e deep learning) allo scopo di comprendere le nuove strategie di validazione della conoscenza basate sull’analisi statistica di grandi quantità di dati (siano essi corpora linguistici o altri dati prodotti dagli utenti attraverso la loro impronta digitale).
La promessa dell’IA basata sull’apprendimento e non sul ragionamento è stata rivoluzionare la produzione di conoscenza, con particolare riguardo all’ambito delle scienze sociali e ai comportamenti delle persone: la retorica dell’innovazione e della disruption digitale promossa dalle grandi aziende internet abbandona il modello della spiegazione nella validazione delle conoscenze, considerando che la grande quantità di dati consenta di anticipare e prevedere comportamenti senza dover dare effettive spiegazioni circa le conclusioni raggiunte.
L’illusione collettiva promossa dall’IA e dalla datificazione è poter sostituire completamente l’analisi del mondo sociale e linguistico reale con i dati prodotti dalle interazioni digitali degli utenti delle app social e di tutte le altre forme di produzione di contenuti digitali. Il modulo mira a discutere criticamente questa dimensione illusoria, pur mantenendo la consapevolezza che la distinzione tra realtà e sua rappresentazione è sempre aleatoria e problematica. Obiettivo è sostenere la capacità critica e rinunciare agli automatismi che per millenni ci hanno consentito di considerare che, se un agente è in grado di risponderci in una conversazione, allora condivide necessariamente il nostro ambiente di organismi viventi dotati di intelligenza e capacità linguistica.
L’avvento dei Large Language Models, per esempio, obbliga a mettere in discussione questo automatismo, così come i grandi programmi per la produzione di immagini mandano in crisi la nostra sicurezza che la fotografia di un evento significhi essere certi sia veramente successo. Questi cambiamenti ci spingono a ripensare alle nostre tecniche di validazione della conoscenza: occorre la possibilità che la testualità e le immagini possano non essere prodotte, rispettivamente, da esseri umani o dal “riflesso” di stati di cose reali. Abbiamo, insomma, bisogno di un nuovo patto cognitivo per sostenere e accreditare le nostre credenze.
Il modulo propone delle strategie di ripensamento della struttura epistemica delle nostre conoscenze con particolare riguardo all’analisi della produzione linguistica.

Testi adottati
Zellig Harris, Linguaggio e informazione, Milano, Adelphi, 1995.
Elisabetta Ježek, Rachele Sprignoli, Linguistica computazionale. Introduzione all’analisi automatica dei testi, Nologna, il Mulino, 2023.
Teresa Numerico, Big data e algoritmi. Prospettive critiche, Bologna, il Mulino, 2022.

Durante il secondo modulo verranno consigliate dalla docente ulteriori letture per gli studenti frequentanti, in vista della preparazione della tesina.

Gli studenti non frequentanti dovranno inoltre completare il programma con lo studio del seguente volume: Malvina Nissim, Ludovica Pannitto, Che cos’è la linguistica computazionale, Roma, Carocci, 2022.

Bibliografia di riferimento
Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli, Testo e computer. Elementi di linguistica computazionale, Roma, Carocci, 2005 (nuova ediz. 2016).
Malvina Nissim, Ludovica Pannitto, Che cos’è la linguistica computazionale, Roma, Carocci, 2022.

Metodo di insegnamento
Lezioni frontali (due moduli di 36 ore erogati in ciascun semestre).

Metodo di valutazione
Prova scritta
Prova orale
Prova scritta (per studenti frequentanti, relativa al secondo modulo di corso)
Prova orale (per il primo modulo)
Produzione e discussione di un testo scritto (tesina) su uno dei temi trattati nel corso del secondo modulo, concordato durante le lezioni con la docente. Esame orale relativo al primo modulo di corso.
Gli studenti non frequentanti sosterranno oralmente l’intero esame su tutti i testi in programma.
Gli studenti frequentanti che ne facciano richiesta potranno sostenere la prova orale relativa al primo modulo come prova intercorso già in occasione degli appelli di gennaio-febbraio.

 

English version

Prerequisites
Students are expected to have an appropriate knowledge of synchronic and descriptive linguistics, in terms of terminology and levels of analysis, and of basic logical-mathematical notions to correctly understand quantitative analysis of linguistic, textual, and behavioural data. These notions are, for the most part, considered as curricular prerequisites for the admission to the MA (i.e., students are supposed to have passed exams in General of Descriptive Linguistics); however, they will be also assessed by the teacher at the beginning of the course.

Learning outcomes
In compliance with the lines of study promoted by the Master Degree of Digital Humanities, the course is aimed at a full understanding of targeted notions in Linguistics and Statistics, to implement practices of NLP and of information processing.
More specifically, topics related to algorithms devised for the analysis of textual corpora of different kind will be illustrated in detail. Students are, therefore, provided with relevant competences to make a broad and critical inspection of knowledge reassessment promoted by digitalization.

Course contents
The first course module will introduce the basic notions of quantitative approaches to language with the aid of technologies, defining Computational Linguistics and Natural Language Processing fields. Topics such as machine learning and distributional semantics are dealt with, reviewing the main techniques of text annotation (at different levels of analysis) and digital tools to perform NLP tasks.

The second course module will introduce an in-depth scrutiny of AI techniques (more specifically machine learning and deep learning), to critically assess new validation strategies of knowledge based on statistical analysis of large masses of data (either linguistic corpora, or other sorts of data produced by users through their digital fingerprints). The main purpose is debunking the datafication illusion promoted by AI, which strives for turning linguistic and social analyses of the real world into mere statistical trends, elicitable from big data but lacking scientifically tested interpretive backgrounds.

Text Books
Zellig Harris, Linguaggio e informazione, Milano, Adelphi, 1995.
Elisabetta Ježek, Rachele Sprignoli, Linguistica computazionale. Introduzione all’analisi automatica dei testi, Nologna, il Mulino, 2023.
Teresa Numerico, Big data e algoritmi. Prospettive critiche, Bologna, il Mulino, 2022.

During the second course module, students attending the course will be provided by the teacher of further readings to prepare their written paper.

Non-attending students will also have to complete the program with the study of the following volume: Malvina Nissim, Ludovica Pannitto, What is computational linguistics, Rome, Carocci, 2022.

Bibliography
Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli, Testo e computer. Elementi di linguistica computazionale, Roma, Carocci, 2005 (nuova ediz. 2016).
Malvina Nissim, Ludovica Pannitto, Che cos’è la linguistica computazionale, Roma, Carocci, 2022.

Teaching methods
Classroom-taught lessons (two course modules of 36 hours each, delivered in two terms)

Assessment methods
Written Examination
Oral Examination
Written test (for attending students, relating to the second course module)
Oral test (for the first module)
Students attending the course are expected to write and discuss a written text (paper) on a specific topic among those illustrated during the second course module, agreed with the teacher. The first course module, introducing general concepts, will be evaluated through an oral exam.
Students NOT attending lessons will be evaluated through an oral exam on the whole texts in the syllabus.
Attending students who request it will be able to take the oral test relating to the first module as a test already taken during the January-February exam sessions.

Ultimo aggiornamento: 29.1.2024 ore 11:49

Menù del Dipartimento
Menù rapido
Menù principale
Conformità agli standard

XHTML 1.0CSS 3 | Conforme alle linee guida per l'accessibilità ai contenuti del Web - livello tripla A


© 2004/24 Università degli Studi Suor Orsola Benincasa - Napoli  | Crediti