Beszédkutatás 2013 (2013)

Olaszy Gábor: Precíziós, párhuzamos, magyar beszédadatbázis fejlesztése és szolgáltatásai

262 Olaszy Gábor rom szótagos egyszavas mondatig. Ez a szöveges anyag 522 mondatot, 1985 szót, 5534 hangot, ezen belül 1844 magánhangzót tartalmaz. A kibővítéssel az volt a célunk, hogy időszerkezetileg is, és a beszéddallam vonatkozásában is minél széleskörűbben reprezentáljuk a magyar beszéd sajátosságait. Mind­két szöveges anyagot 10 beszélő, 5 nő (Nő) és 5 férfi (FF) olvasta fel, életko­ruk 30-65 év között oszlik el, mindannyian Budapestiek, a köznapi magyart beszélik. Foglalkozásuk: tanár, színész, adminisztrátor, kutató, mérnök, ze­nész, énekművész. A teljes beszédadatbázis tartalma mintegy 900 000 be­szédhang, ebből közel 350 000 magánhangzó. A beszédadatbázis rövidített neve PPBA. A hangfelvételeket egységesen a BME Híradástechnikai Tan­szék Rezgésakusztikai Laboratóriumának professzionális hangstúdiójában készítettük 44,1 kHz-es mintavételezéssel és 16 bites lineáris kvantálással. A hangrögzítés közvetlenül számítógépre történt. A hangfelvételeket annotáltuk és szegmentáltuk saját fejlesztésű kényszerített gépi beszédfelismerő prog­rammal (Mihajlik et al. 2002). Ezután, szintén saját fejlesztésű hibadetektáló­­val (Olaszy-Bartalis 2008) ellenőriztük a kapott adatokat és a hibás hangkó­dokat, illetve hanghatárokat kézzel, vizuális és auditív ellenőrzés segítségével korrigáltuk. Az ellenőrzéshez és javításhoz a Plant program megjelenítési al­goritmusait használtuk (Boersma-Weenink 2005). A kombinált annotálási és szegmentálási módszer végeredménye, hogy a beszédadatbázis pontos adato­kat tartalmaz (ezért precíziós), tehát referenciaként használható. A hanghul­lám akusztikai tartalma és a hozzá rendelt hangszimbólumok és címkék pon­tosan megfelelnek egymásnak. Az annotálás háromféle jelölési csoportot foglal magába: beszédhangszim­bólumok, nem beszédhez tartozó részek jelölése „sil” jellel (szünet, krákogás, levegővétel stb.), ejtési eltérés jelölése (például glottalizáció) a hangszimbó­lum mellé tett csukó zárójellel. A hangjelöléseket mind LAMPA, mind TMIT jelöléssel (Németh-Olaszy 2010: 77) megadtuk. A beszédhullámmal párhu­zamos szegmentálás (címkézés) feldolgozási szintjei a következők: zöngés hangperiódusok (pitch marks, PM) egyenkénti jelölése, hanghatárok és a „sil” jellel jelölt szakaszok határai, valamint szóhatárjelölések. Az annotálásra és címkézésre támaszkodva formánsadatok meghatározását is elvégeztük. Ösz­­szességében mintegy 4,5 millió formánsadatról van szó. Itt is célunk volt a precíz adatmeghatározás. Ezért első lépésben a Plant programot használtuk, majd a kapott formánsértékeket saját algoritmussal ellenőriztük (Abari- Olaszy 2012), és a hibás értékeket manuálisan javítottuk. A mondat szerkeze­téből adódó hangsúlyok jelölése is célunk volt. A beszédalbázis szövegkorpu­szának kijelentő mondatait szó szinten bináris (hangsúlyos/nem hangsúlyos) címkékkel láttuk el. A feldolgozáshoz gépi támogatásként a Profivox TTS rendszer hangsúlymeghatározó modulját használtuk, mivel más ilyen szoftver nem áll jelenleg rendelkezésre. A Profivox mintegy 72%-os pontossággal végzi a hangsúlybesorolást (Tamm-Olaszy 2005). Manuálisan is ellenőriztük

Next