07. September 2006
Posted in Internet News
Der irische Wissenschaftler Tony Veale hat eine Software
entwickelt, die ein Problem der Sprachentwicklung angehen soll (
Forschungsbericht, PDF). Das Problem besteht darin, dass Wortneuschöpfungen oft erst Jahre lang ein Dasein im Verborgenen führen, bis sie in den offiziellen Wörterbüchern Aufnahme finden. Das gilt auch für lexikalische Quellen wie das
WordNet. Dieser Wortschatz der englischen Sprache wird immer weiter entwickelt und soll auch dazu dienen, die natürliche Sprache für Computer verständlich zu machen. Dazu werden die gesammelten Worte unter anderem in "Synonym Sets" in semantische Beziehung gesetzt. Wie man sich das bildlich vorzustellen hat, zeigen beispielhaft
Java-Visualisierungen der WordNet-Daten. Veales Ansatz ist es nun, die Online-Enzyklopädie Wikipedia zu benutzen, um die WordNet-Entwicklung zu optimieren. Dazu überprüft seine Software "Zeitgeist" zunächst, welche Begriffe WordNet noch nicht kennt. Bei neuen Begriffen wird dann weiter geprüft, welche Links von diesem Wikipedia-Artikel ausgehen, beziehungsweise auf ihn gerichtet sind. Aufgrund der bei diesen Links verwandten Texte kann Zeitgeist dann eine Art semantischer Bestimmung vornehmen, um den neuen Begriff in die WordNet-Strukturen einzupassen. Der Begriff "
Gastropub" für ein Pub, das über ein gehobenes Angebot an Speisen verfügt, könnte beispielsweise schon durch die bei WordNet bekannten Begriffe "Pub" und "Gastronomie" mit den dortigen Eintragungen und Synonymen in Beziehung gesetzt werden. Das gelingt allerdings nicht in jedem Fall so einfach. Schwieriger ist schon das Beispiel "
Feminazi", das die Begriffe "Feminist" und "Nazi" verbindet, um eine rigide Männerhasserin zu bezeichnen. Dieser Neologismus ist inhaltlich selbst noch lange nicht gefestigt, hat aber keineswegs etwas mit Nationalsozialismus zu tun. An diesem Beispiel würde Zeitgeist also im Grunde scheitern. Doch Veale ist der Meinung, dass Zeitgeist in diesem Fall zumindest eine grobe Einordnung im Wörterbuch möglich machen könnte. Denn die Benutzung von "Nazi" liefert den Hinweis, dass es sich hier um eine negative Konnotation handelt. Und das könnte dem Computer bei einzelnen Einsatzzwecken schon als Verständnishilfe ausreichen.
Dieser Beitrag wurde gesperrt. Es kann kein Kommentar abgegeben werden.