2011. október 13., csütörtök

KIEFER FERENC A nyelvészet és a számítástudomány



Anyelvészet és a számítástudomány kapcsolata az ötvenes években kezdődött, amikor amerikai kutatók a gépi fordítás lehetőségét felvetették. Az elképzelés egyszerû és logikus volt: mivel a számítógép mindenfle jelrendszer elemzésére képes, a természetes nyelvi jelekből álló rendszerek elemzése is megoldható a számítógép segítségével. Nem kell tehát mást tennünk, mint a szóban forgó nyelv nyelvtanát és szókészletét betáplálni a számítógépbe. Ahhoz, hogy ezt megtehessük, a nyelvtan szabályait formalizálva, a matematika szabályaihoz hasonlóan kell megadnunk, és természetesen a nyelv szavainak tulajdonságait megfelelő kódokkal kell ellátnunk. Egyszerûbb esetekben ez nem jelenthetett problémát, mivel a mondatok szerkezetét könnyen ki lehetett fejezni szimbólumok segítségével. Ha például n-nel jelöljük a főnév, és s-sel a mondat kategóriáját, és n\s-sel azt a kategóriát, amely n-nel kombinálva s-t eredményez (magyarán: a mondat az alanyi főnévi szerkezetből és az állítmány szerepét játszó igei szerkezetből áll össze), akkor a Jancsika alszik mondat szerkezete:

1.ábra
Az n\s-ben szereplő ferde vonal azt jelzi, hogy a szóban forgó kategória balról veszi magához az n kategóriájú elemet. Ennek megfelelően az s/n azt jelenti, hogy az n kategóriájú elem jobb oldalon szerepel. Ezzel a jelölésmóddal az összetevők szórendi helye is kifejezhető.

Ez a szerkezeti felépítés kiterjeszthető a Kis Jancsika szépen alszik mondat esetére is: a kis melléknévi jelző kategóriája n/n, mivel egy n kategóriájú elemből újból egy n kategóriájú elemet állít elő (a kategóriák kombinációja a törtekkel való mûveletekre hasonlít), a szépen módhatározóé pedig (n\s)/(n\s), mivel egy igei szerkezetből (jobbról) ismét egy igei szerkezetet állít elő. Tehát:

2.ábra
A vázolt elemzési dszer kategoriális grammatikaként vált ismertté (Lambek, Bar-Hillel). A szótár felépítéséről azt kell tudnunk, hogy n/n kategóriát kap az n kategóriájú főnevet balról módosító melléknév és (n\s)/(n\s) kategóriát az n\s kategóriájú állítmányt balról módosító határozószó. A kategoriális grammatika ugyan nem váltotta be a hozzá fûzött reményeket, de elindítója volt egy ma is virágzó kutatási irányzatnak, amelynek fő célja a természetes nyelvek grammatikájának formalizálása.

Ha egy A nyelvről (a forrásnyelvről) kívánunk egy B nyelvre (a célnyelvre) fordítani, akkor a megfelelő kétnyelvû szótáron kívül az A nyelvre egy elemző, a B nyelvre egy szintetizáló (generáló) rendszert kell kidolgoznunk. Az ötvenes évek végére a gépi fordítás lehetőségével kapcsolatban ugyan komoly kételyek merültek fel, az elemző, illetve szintetizáló rendszerek kutatása azonban tovább folyt. Ezek a kutatások a nyelvtudomány további fejlődésére is hatással voltak. A hatvanas évek elejétől a „számítógépes nyelvészet" (computational linguistics) elfogadott terminussá vált. A számítógépes nyelvészet a természetes nyelvek számítógépes feldolgozásával (natural language processing) foglalkozik. A megszokott klasszikus nyelvészeti területeken (hangtan, alaktan, mondattan, jelentéstan) kívül a fordítást, az automatikus kivonatolást, az információs és dokumentációs nyelvek kérdését, az automatikus indexelést, az automatikus kivonatolást, a mesterséges intelligenciakutatást, a párbeszédes rendszerek vizsgálatát is bizonyos mértékig nyelvészeti problémának kell tekintenünk. A számítógép és a nyelvészet szerteágazó kapcsolatairól tehát a jelen áttekintés nem adhat számot, meg kell elégednünk néhány jellemző példa bemutatásával. 
 

Nincsenek megjegyzések:

Megjegyzés küldése