Beszédkutatás 2013 (2013)

Olaszy Gábor: Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése és szolgáltatásai

262 Olaszy Gábor rom szótagos egyszavas mondatig. Ez a szöveges anyag 522 mondatot, 1985 szót, 5534 hangot, ezen belül 1844 magánhangzót tartalmaz. A kibővítéssel az volt a célunk, hogy időszerkezetileg is, és a beszéddallam vonatkozásában is minél széleskörűbben reprezentáljuk a magyar beszéd sajátosságait. Mindkét szöveges anyagot 10 beszélő, 5 nő (Nő) és 5 férfi (FF) olvasta fel, életkoruk 30-65 év között oszlik el, mindannyian Budapestiek, a köznapi magyart beszélik. Foglalkozásuk: tanár, színész, adminisztrátor, kutató, mérnök, zenész, énekművész. A teljes beszédadatbázis tartalma mintegy 900 000 beszédhang, ebből közel 350 000 magánhangzó. A beszédadatbázis rövidített neve PPBA. A hangfelvételeket egységesen a BME Híradástechnikai Tanszék Rezgésakusztikai Laboratóriumának professzionális hangstúdiójában készítettük 44,1 kHz-es mintavételezéssel és 16 bites lineáris kvantálással. A hangrögzítés közvetlenül számítógépre történt. A hangfelvételeket annotáltuk és szegmentáltuk saját fejlesztésű kényszerített gépi beszédfelismerő programmal (Mihajlik et al. 2002). Ezután, szintén saját fejlesztésű hibadetektálóval (Olaszy-Bartalis 2008) ellenőriztük a kapott adatokat és a hibás hangkódokat, illetve hanghatárokat kézzel, vizuális és auditív ellenőrzés segítségével korrigáltuk. Az ellenőrzéshez és javításhoz a Plant program megjelenítési algoritmusait használtuk (Boersma-Weenink 2005). A kombinált annotálási és szegmentálási módszer végeredménye, hogy a beszédadatbázis pontos adatokat tartalmaz (ezért precíziós), tehát referenciaként használható. A hanghullám akusztikai tartalma és a hozzá rendelt hangszimbólumok és címkék pontosan megfelelnek egymásnak. Az annotálás háromféle jelölési csoportot foglal magába: beszédhangszimbólumok, nem beszédhez tartozó részek jelölése „sil” jellel (szünet, krákogás, levegővétel stb.), ejtési eltérés jelölése (például glottalizáció) a hangszimbólum mellé tett csukó zárójellel. A hangjelöléseket mind LAMPA, mind TMIT jelöléssel (Németh-Olaszy 2010: 77) megadtuk. A beszédhullámmal párhuzamos szegmentálás (címkézés) feldolgozási szintjei a következők: zöngés hangperiódusok (pitch marks, PM) egyenkénti jelölése, hanghatárok és a „sil” jellel jelölt szakaszok határai, valamint szóhatárjelölések. Az annotálásra és címkézésre támaszkodva formánsadatok meghatározását is elvégeztük. Öszszességében mintegy 4,5 millió formánsadatról van szó. Itt is célunk volt a precíz adatmeghatározás. Ezért első lépésben a Plant programot használtuk, majd a kapott formánsértékeket saját algoritmussal ellenőriztük (Abari- Olaszy 2012), és a hibás értékeket manuálisan javítottuk. A mondat szerkezetéből adódó hangsúlyok jelölése is célunk volt. A beszédalbázis szövegkorpuszának kijelentő mondatait szó szinten bináris (hangsúlyos/nem hangsúlyos) címkékkel láttuk el. A feldolgozáshoz gépi támogatásként a Profivox TTS rendszer hangsúlymeghatározó modulját használtuk, mivel más ilyen szoftver nem áll jelenleg rendelkezésre. A Profivox mintegy 72%-os pontossággal végzi a hangsúlybesorolást (Tamm-Olaszy 2005). Manuálisan is ellenőriztük