Spraakverwerking en compressie (B-KUL-YI1328)
Doelstellingen
Doelstellingen:
- De student verwerft voldoende diepgaande kennis en inzicht in diverse spraakverwerkingsalgoritmes, [MK2]
- De student kan inschatten wat de hardware- en rekenkrachtconsequenties zijn van de spraakverwerkingsalgoritmes, [MI1,MI2]
- De student moet creatief zijn en kan kritisch reflecteren bij het modelleren en beschrijven van de spraakverwerking algoritmes [MI1,MI2]
- De student moet creatief zijn en kan kritisch kunnen interpreteren van simulatie resultaten van de spraakverwerkingsalgoritmes [MI1,MI2]
- De student kan inschatten wat de hardware- en rekenkrachtconsequenties zijn van de spraakverwerkingsalgoritmes, [MI1,MI2]
- De student moet creatief zijn en kan kritisch reflecteren bij het modelleren en beschrijven van de spraakverwerking algoritmes gebruikmakend van Matlab processing toolbox en –blockset [MI1,MI2]
- De student moet creatief zijn en kan kritisch interpreteren bij het visualiseren in MATLAB van de simulatie resultaten van spraakverwerkingsalgoritmes [MI1,MI2]
- De student kan een gestructureerde en efficiënte MATLAB code opstellen [MI1]
- De student moet zelfredzaamheid zijn bij het gebruik van diverse MATLAB functies en de interpretatie van hun parameters, [MI1,MI2]
- De student moet resultaatgericht zijn en kan de beeld- en spraakverwerking concepten demonstreren [MI1,MI2]
- De student heeft inzicht in diverse compressie algoritmes en het gecombineerd gebruik ervan. (MK2)
- De student kan inschatten wat de consequenties op hardware en rekenkracht zijn van decompressiealgoritmes. (MI1, MI2)
- De student is creatief en interpreteert kritisch bij het modelleren en beschrijven van de compressiealgoritmes gebruik makend van MATLAB en de image processing toolbox en signal processing toolbox. (MI1, MI2, MG3)
- De student is creatief en interpreteert kritisch bij het visualiseren in MATLAB van de simulatieresultaten van de compressiealgoritmes. (MI1, MI2, MG3)
- De student kan gestructureerde en efficiënte MATLAB-code opstellen. (MI2, MP2)
- De student is zelfredzaam bij het gebruik van diverse MATLAB-functies en de interpretatie van hun parameters. (MI1, MI2, MP1)
- De student kan de functionaliteit van de compressiealgoritmes demonstreren op de vooropgestelde deadline. (MI1, MI2, MG5)
Leerresultaten:
MK2: Voldoende diepgaande kennis bezitten en inzicht hebben
MI1: Problemen analyseren en oplossen
MI2: Ontwerpen en/of ontwikkelen
Begintermen
"Datacommunicatie" EN "Digitale signaalverwerking" gevolgd hebben of volgen.
Plaats in het onderwijsaanbod
- Master in de industriële wetenschappen: elektronica-ICT (programma voor studenten gestart vóór 2023-2024) (Sint-Katelijne-Waver) (Afstudeerrichting elektronica) 60 sp.
Onderwijsleeractiviteiten
2 sp. Spraakverwerking en compressie: theorie (B-KUL-YI6847)
Inhoud
Spraakverwerking:
Basisbegrippen van spraakverwerkingalgoritmes worden aangebracht en geanalyseerd. Het betreft fundamentele begrippen, zoals acquisitie, sampling, quantisatie en reconstructie die zowel in beeld- als audio omgeving worden toegelicht en met elkaar vergeleken. Specifiek voor spraakverwerking wordt dieper ingegaan op frequentie analyse, equalization, spectrogram representatie, het LPC spraakmodel en modellen voor audio effecten. Ook spraakherkenning via deep learning komt aan bod.
Compressie:
Compressie is een bewerking waarbij men afbeeldingen en/of audio in grootte beperkt om opslagcapaciteit te besparen en datatransmissie te versnellen. De manier waarop een originele afbeelding (bitmap bmp) of audiosequentie gecomprimeerd wordt, bepaalt de bestandsindeling. Veelvoorkomende bestandsindelingen voor afbeeldingen zijn JPEG, JPEG2000 en GIF en voor audioinformatie zijn de populaire indelingen MP3 en WMA. Men onderscheidt twee soorten compressietechnieken: met kwaliteitsverlies (lossy) en verliesvrij (lossless).
Bij beeld- en spraakcompressie zijn de meest voorkomende technieken:
-Lempel-Zif-Welch: LZW is een verliesvrije compressietechniek ondersteund door TIFF, PDF en GIF. Deze techniek wordt het meest gebruikt voor afbeeldingen met grote éénkleurige oppervlaktes.
-Entropie encodering: Het principe is gebaseerd op variable length codering waarbij veelvoorkomende symbolen met weinig bits worden voorgesteld en weinig voorkomende symbolen met veel bits. De Huffman codering is hiervan een voorbeeld.
-Joint Photographic Experts Group: JPEG is een veelgebruikte compressietechniek waarbij men onderscheid kan maken in verliesloze zowel als verlieshebbende kwaliteit van beelden. Deze techniek wordt ondersteund door JPEG en PDF.
-Run Length Encoding: RLE is een verliesvrije compressietechniek ondersteund door Photoshop en TIFF bestandsformaten.
-JPEG 2000: Dit is een nieuwe standaard voor compressie van digitale beelden. JPEG 2000 levert superieure codeerprestaties bij lage bitdebieten, de compressie van continue-tint en binaire beelden, een grote dynamische range van de pixels, grote beelden en een groot aantal beeldcomponenten,verliesloze en verlieshebbende compressie, bitdebietoptimalisatie, progressieve transmissie in termen van kwaliteit en resolutie, interesseregio-codering, willekeurige toegang en bewerkingen in het gecomprimeerde domein, object gebaseerde functionaliteit, robuustheid tegen bitfouten (foutresistentie), mogelijkheid tot sequentiële codering, een fileformaat (JPX) en de mogelijkheid tot beeldbeveiliging.
-MP3: perceptuele coding voor audio-signalen
Studiemateriaal
cursustekst/slides van de docent, beschikbaar op Toledo
Toelichting werkvorm
Discussie
Na een reeks klassiek gedoceerde lessen over compressie en de basis van spraakverwerking, hebben de lesmomenten over geavanceerde spraakverwerking een andere invulling. Bij deze lessen moeten de studenten op voorhand een academische publicatie doornemen, waarover we in het lesmoment een klasdiscussie voeren.
1 sp. Spraakverwerking en compressie: practicum (B-KUL-YI6848)
Inhoud
Verschillende algoritmes van spraakverwerking worden met Matlab in de labozittingen geïmplementeerd en gesimuleerd. Daarna werken de studenten individueel een eigen algoritme uit dat ze implementeren en demonstreren.
Studiemateriaal
cursusmateriaal op Toledo
Toelichting werkvorm
Presentatie
Na de geleide oefenzittingen, waar de studenten dezelfde reks algoritmes implementeren, kiest elk van hen een individueel projectonderwerp in het kader van de lesinhoud. Dit onderwerp wordt creatief ingevuld, voor het gekozen algoritme binnen spraakverwerking en compressie werkt de student zelfstandig een implementatie en experimenten uit. Dit presenteert en demonstreert hij/zij in de laatste les.
Evaluatieactiviteiten
Evaluatie: Spraakverwerking en compressie (B-KUL-YI8328)
Toelichting
Spraakverwerking en compressie, theorie:
Mondeling examen met schriftelijke voorbereiding, gesloten boek.
Spraakverwerking en compressie, labo:
Tijdens de labozittingen implementeren de studenten verschillende compressie-algoritmes in Matlab. Als afsluiter krijgen de studenten enkele labo-zittingen de tijd om een project naar keuze te implementeren in Matlab. Dit werk wordt geëvalueerd a.h.v. een presentatie en demonstratie die de studenten tijdens de laatste labo-zitting brengen.
Toelichting bij herkansen
Binnen dit opleidingsonderdeel zijn er deeloverdrachten bij een geslaagd deelresultaat:
- YI6847 - Spraakverwerking en compressie: theorie (binnen en over academiejaar)
- YI6848 - Spraakverwerking en compressie: practicum (binnen en over academiejaar)
Spraakverwerking en compressie, theorie:
Mondeling examen met schriftelijke voorbereiding, gesloten boek. Indien de epidemiologische toestand dit niet toelaat, wordt dit vervangen door een volledig schriftelijk examen on-campus.
Spraakverwerking en compressie, labo:
Als evaluatie van de tweede examenkans herdoen de studenten een presentatie en demonstratie van hun zelf gekozen en geïmplementeerde algoritme, eventueel via Skype.