Magyar Pszichológiai Szemle 21. (1964)

1964 / 1. szám - TOVÁBBKÉPZÉS ÉS VITA - SZÁNTÓ ÉVA: A beszédfelismerés egyik modelljéről

amely a hangok ember általi felismerésének modelljének tekinthető. Így tehát a sémában az a feltevés jut kifejezésre, hogy eleinte a hangok auditív képe (1) és a beszédapparátust irányító utasítások (2) között a kapcsolatok nem rögzítettek, hanem a véletlenen alapszanak. Majd próbák és hibák kijavítása során, e véletlen kapcsolatok közül rögződnek azok, amelyeknél az utánzás útján létrejött hang a legkevésbé tér el a hallottól. A különbség a hallott és produkált hang között a kiejtést az auditív képekkel összehasonlító sémán (4) keresztül korrigálódik, ahol a bemeneti szignál rövid időre az emlékezetbe vésődik és ezalatt az utánzott hangokkal összeegyeztetődik. Ekkor már a hallott hangok közül mindegyik egy bizonyos artikuláció utasítás-kombinációt vált ki, ahol mindegyik utasítás a beszédapparátus különböző paramétereire irányul (nyelv, ajak stb. stb.) (5,3). A bemeneti szignál által kiváltott utasítások létrejöttét nevezi Csisztovics — első osztályozásnak. A bemeneti szignál átkódolása utasítás-kombinációvá lehetővé teszi a bemeneti szignál további — második osztályozását, ami már fonémaosztályozás és másodlagos az elsővel szemben, mert azon alapszik. Ennek a második — fonémaosztályozásnak — már nincs közvetlen kapcsolata az akusztikai tényekkel, hanem csak az artikulációsokkal. Így ,,ha egy bizonyos г-utasítás-kombináció mindig reakció formájában lép fel egy meghatározott hangcsoport hallatára, akkor ezt a hangcsoportot egy osztályba lehet sorolni, még akkor is, ha ezek a bemeneti szignálok semmi más közöst nem tartalmaznak, mint egy bizonyos -i- utasítás-kombinációt.” (A beszédhangok osztályozása a gyors ismétlés folyamatában, 398. lap.) Csisztovics szerint, aki általában szorosabban a hallásrendszer pszichofiziológiai folyamatával foglalkozik, a beszédfolyamatban az egyedüli követelmény a hallásrendszerrel szemben az, hogy a bemeneti szignálról a maximális információt megkapja; megállapítsa az azonosságot vagy különbséget a hallott és utánzott hang között, valamint megállapítsa az azonosságot, illetve a különbséget az egymás után következő szignálok között ugyancsak a fent leírt séma szerint, amelyben az artikuláció játssza a döntő szerepet. A szerző sémáját alkalmasnak látja, hogy felhasználják a beszédfolyamat gépi felismerése szempontjából. A séma előnyét Csisztovics abban látja, hogy ebben a modellállásban a hangot artikulációs paramétereivel lehet rögzíteni (ha tökéletes az utánzás). Ezenkívül a modellnek még az az előnye — a szerző szerint —, hogy az efajta szignál-elemzés (a rendszer paraméterének ,,terminus-technicus”-aiban) lényegében véve azonos azzal az elemzési módszerrel, amelyet az önmagát korrigáló szűrőberendezéseknél alkalmaznak, ti. ebben az esetben a rendszer kimeneti szignálja közel áll (azonos) az elemezendő bemeneti szignálhoz. Ez pedig egy automatikus gépi beszédfelismerő rendszernél felhasználható módszer. Visszatérve a cikk elején írottakra, tehát Csisztovics szerint a beszédfolyamat fél bemeneti szignál kimeneti szignál 1. a hangok auditív képzeteinek sémája; 2. az artikulatorikus mozzanatokat irányító utasítások sémája; 3. a beszédapparátus sémája; 4. a kiejtést az auditív képekkel összehasonlító séma; 5. az artikulatórikus mozzanatirányítások szabályozója; 6. az artikulatórikus utasítások osztályozójának sémája