Kollokationen und maschinenlesbare Korpora

Kollokationen und maschinenlesbare Korpora Ein operationales Analysemodell zum Aufbau lexikalischer Netze

Andrea Lehr1996
In der Phraseologieforschung, der Fremdsprachendidaktik und der Metalexikographie werden Kollokationen zumeiste als Elemente der langue aufgefaßt und im Graubereich zwischen freien Wortverbindungen und Phrasemen angesiedelt. Wenig Gemeinsamkeiten mit dieser Auffassung zeigt die kollokationstheorie des britischen Kontextualismus, die zum Ausgangspunkt der vorliegenden Arbeit genommen wurde. Kollokationen in diesem Sinne basieren, gemäß dem kontextualistischen Postulat, nur den tatsächlichen Sprachgebrauch zu untersuchen, auf Elementen der parole. Sie werden zu Zwecken lexikalischer Analyse eigens gebildet und bestehen aus beliebigen Zusammenfassungen sprachlicher Einheiten, die in konkreten Texten in syntagmatischer Nähe zueinander vorkommen. Ziel der Arbeit ist es, die Kollokationstheorie des Kontextualismus in ein operationales lexikalisches Sprachanalysenmodell, welches auch für die maschinelle Sprachverarbeitung nutzbar ist, umzusetzen. Dieses Sprachanalysemodell soll insbesondere dazu dienen, die maschinelle Disambiguierung im Falle polysemer oder homonymer Wörter sowie die maschinelle Identifizierung von Phrasemen - Aufgaben, die die maschinelle Sprachverarbeitung noch immer vor große Probleme stellen - handhabbarer zu machen. Bisherige Problemlösungsstrategien bestanden vor allem darin, entweder Restriktionen für die Textproduktion vorzusehen oder spezielle Basen zur Repräsentation sprachexternen Wissens zu kompilieren. Das hier entwickelte Analysemodell stützt sich dagegen auf die Annahme, daß die Identifizierung und Charakterisierung sprachlicher Einheiten allein auf der Grundlage des kollokativen Verhaltens von Formativen in konkreten Texten, wie es sich anhand von Häufigkeit und Signifikanz ihres Miteinandervorkommens bestimmen läßt, geleistet werden kann. Die Miteinbeziehung von Wissen über außersprachliche Entitäten wird somit nicht als notwendig erachtet. Endergebnis eines Analyseverfahrens der hier projektierten Form ist ein lexikalisches Netz, das im Anschluß als Datenbasis für vielerlei Arten von Textgenerierungs- und Textanalyseaufgaben genutzt werden kann.
Sign up to use