Computationele lexicografie (B-KUL-F0SV1A)
Doelstellingen
In het college Computationele Lexicografie verwerven de studenten inzicht in de verschillende soorten elektronische lexicale databanken die er bestaan, welke types vorm-, betekenis- en gebruiksinformatie deze databanken bevatten en vooral hoe deze informatie met behulp van taaltechnologie en computationele data-analyses uit corpusdata wordt geëxtraheerd en binnen een lexicografisch proces wordt bewerkt tot gestructureerde kennis over de woordenschat met uiteenlopende toepassingen. De studenten verwerven enerzijds op conceptueel niveau inzicht in de opbouw van lexicale databanken en de computationele methodes die daarbij gebruikt worden, en anderzijds verwerven ze praktische kennis en vaardigheden tijdens het maken van een eigen lexicaal databankje waarbij ze met de belangrijkste lexicografische software en analysetechnieken leren werken.
Aan het eind van het college is de student vertrouwd met de volgende begrippen en onderwerpen:
- Computationele lexicografie als onderdeel van de digitale taalinfrastuctuur
- Lexicografische datamodellering en dataformaten (UML, XML, LLOD)
- Verschillende types lexicale databanken en lexicale informatiecategorieën
- Het lexicografische proces met zijn verschillende componenten
- Het gebruik van Natuurlijke Taalverwerking (NLP), Artificiële Intelligentie (AI) en corpuslinguïstische analysemethodes binnen het lexicografisch proces: corpuscompilatie, corpusverrijking, informatie-extractie
- Lexicografische software: Corpus Query Systems, Dictionary Writing Systems
- Toepassingen en gebruik van lexicale databanken
Begintermen
Vertrouwdheid met de basisbegrippen van de algemene taalwetenschap, alsook met het werken met tekstgegevensbanken, zoals behandeld in het vak Informatiekunde uit BA2.
Plaats in het onderwijsaanbod
- Master in de taalkunde (Leuven) (Computationele en formele benaderingen) 60 sp.
- Master in de taalkunde (Leuven) (Taalgebruiks- en corpusgebaseerde benaderingen) 60 sp.
- Master in de taal- en letterkunde (Leuven) 60 sp.
- Master in de taal- en letterkunde: verkort programma derde taal (Leuven) 30 sp.
- Educatieve master in de talen (Leuven) 120 sp.
Onderwijsleeractiviteiten
6 sp. Computationele lexicografie (B-KUL-F0SV1a)
Inhoud
(voorlopig college-overzicht op basis van vorige jaren)
College 1: Computationele Lexicografie: Digitale woordenboeken en lexicale databanken
College 2: Lexicografische datamodellering: macro-, medio, microstructuur / Hands-on: Kennismaking met Corpus Query Systems, begin compilatie eigen lexicaal databankje
College 3: Corpuslinguïstiek voor Lexicografie (1) / Hands-on: De CLARIN-tools en corpusverrijking
College 4: Corpuslinguïstiek voor Lexicografie (2) / Hands-on: corpuscompilatie, annotatie, frequentielijsten, keywords
College 5: Lexicografische Informatie-extractie / Hands-on: extraheren van collocaties, meerwoordsuitdrukkingen
College 6: Betekenismodellering (Word Sense Induction) / Hands-on: distributionele semantiek
College 7: lexicografisch analyseren en definiëren / Hands-on: Dictionary Writing System (DWS)
College 8: XML en formaten voor lexicografische data / Hands-on: XML editing binnen een DWS
College 9: Neologismen en detectie van betekenisverandering / Hands-on: afronding compilatie van eigen lexicale databankje
College 10: Conceptgebaseerde databanken: Wordnet en Framenet / Hands-on: NLTK in python
College 11: Gastlezing over een type woordenboek dat gebaseerd is op andere data dan tekstcorpora (gebarentaal, dialectwoordenboeken, etnografische woordenboeken,...)
College 12: Combinatiewoordenboeken / Hands-on: treebanks als data voor valentiewoordenboeken
College 12: Neologismen en detectie van betekenisverandering
College 13: Toepassingen van lexicale databanken
Studiemateriaal
Slides bij de colleges, achtergrondliteratuur en online webinar- en instructievideo’s
Toelichting onderwijstaal
Nederlands
Toelichting werkvorm
De nadruk ligt op de computationele aspecten van het maken van elektronische woordenboeken en andere lexicale databanken. We benaderen de problematiek hoofdzakelijk vanuit de praktijk, maar koppelen deze steeds aan de theorie.