Digitale Menswetenschappen: Een programmaverklaring

Waarom betekenen digitale corpora, en linguïstische computerprogramma's om ze te helpen analyseren, juist een verrijking voor de menswetenschappen? Op deze pagina, die nadrukkelijk als een soort 'kladblok' functioneert, presenteer ik enkele argumenten ten gunste van wat Franco Moretti heeft benoemd als distant reading -- het vermogen van het computerprogramma om praktisch oneindig veel documenten uiterst oppervlakkig, maar zeer volledig, te analyseren.

De digitale aanpak lijkt haast diametraal tegenover de methode van de close reading te staan, die zo goed in filosofie, geschiedkunde, literatuur- en theaterwetenschap is ingeburgerd. Maar misschien loont het meer de moeite om beide pistes als complementair op te vatten, dan als concurrenten.

De computer als hulpmiddel bij omvangrijke corpora

Om een grondige discoursanalyse te maken van een uitgebreide verzameling teksten -- bijvoorbeeld alle krantenartikels die tijdens een periode van vijf jaar over een bepaald onderwerp werden gepubliceerd, of de hele kritische output van een bepaalde recensent, of een volledige jaargang van een literair-kritisch tijdschrift -- heeft zelfs de meest erudiete lezer heel wat tijd nodig om dit te verwerken. Bovendien kan hij niet anders dan het grondig verwerken. Hij ontcijfert de tekst meteen als een betekenisstructuur waaraan hij een netwerk van interpretaties vastmaakt. Dat proces voltrekt zich slechts gedeeltelijk bewust. Pas na een enigszins gevorderde lectuur kan de lezer ook een metareflectie over de methode van zijn eigen lectuur aanvatten.

De menselijke lezer is overwegend (en gelukkig maar) een dieptelezer. Diagonaal lezen vergt een bewuste inspanning en geeft meestal tamelijk willekeurige resultaten. Daarom zijn menselijke lezers, om in een lange tekst hun weg te vinden, afhankelijk van inhoudstafels, tussentitels en indexen. Een omvangrijk corpus overschouwen -- dus snel en oppervlakkig, maar wel volledig lezen -- is een moeilijke opdracht. Hier wordt het interessant om de eerste analyse van een omvangrijk corpus door een computerprogramma te laten uitvoeren.

De jongste decennia hebben computerlinguïsten nuttige instrumenten ontwikkeld voor de analyse van de enorme hoeveelheden digitale tekst die mee door het internet beschikbaar geworden zijn. Met name teksten die sterk door jargon gekleurd worden, lenen zich voor dit soort methoden. Bij een wetenschappelijk, filosofisch of kritisch discours maken auteurs dikwijls gebruik van een welbepaald vocabularium. Om een grote hoeveelheid van dit soort documenten in kaart te brengen, is de ‘minst erudiete’ lezer -- de volstrekt onhermeneutische computer -- zelfs de meest aangewezen kandidaat. Een computerprogramma analyseert teksten oppervlakkig, maar razendsnel en tot op de laatste letter.

Niet alleen voor de linguïsten, maar ook voor theaterwetenschappers, historici, filsofen en literatuurwetenschappers opent de digitalisering van omvangrijke corpora nieuwe onderzoekspistes. Dit betekent in geen geval dat de computer op termijn menselijke onderzoekstaken gaat vervangen. Wel kan de onderzoeksinformatie nu verwerkt en gepresenteerd worden op manieren die voorheen erg veel arbeid vergden. Concordantielijsten opstellen (elk voorkomen van een bepaald woord weergeven in zijn context) zijn op basis van een gedigitaliseerde tekst het werk van enkele minuten. In de genetische tekststudie worden computerrepresentaties van de beschikbare klad- en drukversies gebruikt om de ontwikkeling van een literair werk weer te geven op een uiterst flexibele manier, wat in de conventionele ‘historisch-kritische uitgaven’ op papier onmogelijk bleef.

Wat betreft de studie van woordfrequenties, toont het geval van de literatuur ook heel duidelijk de beperkingen van de computationele methode. Door woorden te tellen kan je wel uitsluitsel geven over het geprefereerde vocabularium van een auteur, maar daarmee is meestal nog maar een erg kleine stap gezet in de analyse van zijn oeuvre. Bovendien zijn literaire corpora vaak beperkt qua omvang, en gebruiken schrijvers de taal vaak op een atypische manier. Woordkeuze en zinsbouw zijn zorgvuldig overwogen. Een computerprogramma blinkt net uit in het berekenen van gemiddelde waarden over een zeer groot aantal woorden. Vandaar is de studie van grote corpora eerder aan de orde in de algemene studie van taal dan in de studie van zo’n bijzonder taalgebruik als het literaire.

Voor de studie van een technisch corpus daarentegen -- zoals een wetenschappelijk, filosofisch of kritisch discours -- ligt de situatie helemaal anders. De hermeneutische blindheid van een computer blijkt dan juist een troef. Hij laat zich in geen geval door semantische overwegingen van de wijs brengen, maar versnippert efficiënt de tekst op zoek naar het gevraagde.

Eén benadering bestaat er bijvoorbeeld in om de frequenties van de buurwoorden van een welbepaald sleutelwoord (i.c. vormingstheater) te berekenen, om zo het semantische veld van dat woord in kaart te brengen.

Om na te gaan welke woorden vaak voorkomen in de buurt van een sleutelwoord, moet de digitale tekst eerst worden ontleed naar zinsbouw en woordsoort. Uit de output van linguïstische parsers kunnen vervolgens alle functiewoorden (voorzetsels, lidwoorden, bijwoorden...) en werkwoorden worden geëlimineerd, zodat alleen de naamwoorden (adjectieven en substantieven) overblijven. Vervolgens dient geëxperimenteerd te worden met het aantal naamwoorden dat vóór en na elk geval van het sleutelwoord bekeken moet worden (wat men gebruikelijk aanduidt als KWiC of 'KeyWord in Context' ± n, voor n woorden vóór en na).