2e-jaars-project taalverwerving, 2007


Doelstelling is het modelleren van taalverwerving als "semantisch/pragmatische bootstrapping". We nemen aan dat de volwassen taalgebruiker taal-uitingen interpreteert en genereert door het combineren van fragmenten van de boomstructuren van eerder ervaren taal-uitingen ("Data-Oriented Parsing"). De vraag is nu, hoe het taal-lerende kind geleidelijk zijn eerste corpus opbouwt, met structuren die nog niet aan een eerder corpus kunnen zijn ontleend, maar die tot stand komen doordat het kind zijn model van de uitingssituatie "projecteert" op woordsequenties die uit de volwassen uitingen ge-extraheerd worden.

Een eenvoudig model van een semantisch bootstrapping proces is al eens geïmplenteerd door Chang & Gurevitch. Mike de Kreek (master-scriptie) heeft een variant van deze benadering voor Data-Oriented Parsing geschetst. Mart van Santen (bachelor-scriptie) heeft een begin gemaakt met een implementatie; zijn algoritme leert nog uitsluitend betekenissen van losse woorden. Dit werk vormt het uitgangspunt van het project.

Mogelijke onderwerpen:

1. Quantitatieve uitbreiding van de corpus-annotatie, zodat een geïmplementeerd model aan interessantere testjes onderworpen kan worden: meer uitingen annoteren, en het domein wat uitbreiden.

2. Qualitatieve uitbreiding van de corpus-annotatie. (Zulke uitbreidingen kunnen natuurlijk doorwerken op het algoritme!)
(a.) Verrijking van de situatie-beschrijvingen: meer details; subsumptie-hiërarchie van concepten. 
(b.) Pragmatische dimensie toevoegen. Er komen verschillende taalhandelingen voor in het corpus (b.v.: asserties, opdrachten, vragen). Waarschijnlijk heeft een kind zonder de inhoud van een uting te snappen al een idee over welke taalhandeling er aan de hand is (op grond van gebaren en intonatie). Dat betekent dat de taalhandeling (of de informatie waar die uit afgeleid zou moeten worden) bij de child-directed speech in het corpus geannoteerd zou moeten worden. 
(Taalhandelings-annotatie kun je laten zitten als je uit het corpus alleen de asserties selecteert.)

3 . Ontwikkel en implementeer algoritmes voor het 2-woord stadium. 
	Interpretatie. Als een zin 2 bekende woorden, bevat, ???projecteert??? het algoritme die woordcombinatie op de uitingssituatie. Bij woorden die al eerder in 2-woord-combinaties gezien zijn, probeert het systeem de eerder suksesvol gebruikte ???frames??? te hergebruiken. Alle suksesvolle interpretaties worden onthouden.
	Generatie. Gegeven een uitingssituatie, zeg er iets over. Match de situatie met de situaties in je database en vind een passend woordpaar.
	Question-answering. Gegeven een situatie en een vraag (???Wat doet beertje????, ???Is de bal rood????) geef een antwoord. [Bekijk in CHILDES wanneer kinderen dit kunnen!]

4. Modelleer de doorstart naar het multiwoord-stadium. Sequenties van drie of meer bekende woorden in de input kunnen verantwoord worden door de binaire structuurtjes van het 2-woord-stadium recursief te combineren.

5. Uitbreiding van het interpretatie van het interpretatie-algoritme van het 2-woord-stadium: Het algoritme construeert ook tentatieve interpretaties voor woord-combinaties met een nieuw woord erin.