LITERATURA - A MTA BTK Irodalomtudományi Intézetének folyóirata, 2020 (46. évfolyam, 1-4. szám)

2020 / 3. szám

342 SZEMES BOTOND 2. Az előkészítést követően az R Studio programkörnyezetben a tokenize20 csomag se­gítségével a regényeket mondatokra bontva, majd a bennük lévő szavakat összeszá­molva kaptam meg az egyes szövegek átlagos mondathosszúságát.21 A korpusz elő­készítése során úgy kívántam a szövegeket átalakítani, hogy az azonos formátumok összehasonlíthatóvá váljanak. Ezt az összehasonlíthatóságot azonban több tényező is megnehezíti: ilyen a helyesírás változása (például 19. századi szövegek esetében gyakori az „ahol”, „amikor” stb. kötőszavak külön írott verziója a helyhatározói mellékmondatban: „a hol”, „a mikor”), a párbeszédek jelölése (a narrátori szólamot az olyan esetekben, mint: Ez olyan hülye, hogy ketyeg! - mondta egy vastag hang”, a megszólalással egy mondatként kezeltem, ám ha nagy kezdőbetű követi a mondatvégi írásjelet és a szólamváltást, mint: A­mi tehetségemben áll, azt meg­teszem.­­ Biztató tanácsnokát a bojár”, a narrátori szólamot külön mondatnak szá­mítottam), vagy a zárójeleken belüli mondatok kérdése (ekkor, ha csak egy beékelt mondat szerepel a zárójelen belül, akkor azt a főmondat mondatrészének tekintet­tem: „... a harsány kamaszhang [A jegyeket kérem!] végre kiszabadította e szégyen­letes csapdából,ugyanakkor ha több megszólalást tartalmaz a zárójel, akkor azo­kat külön mondatként számoltam: „meg sem hallotta Schmidtné szavait [Mi van, megsüketült? Hé, Futaki, maga rosszul van?], aki...”). A módszer tehát nem hibát­lan, ahogyan semmilyen statisztikai kutatás sem az - amin keresztül a digitális adat­­feldolgozás vélt objektivitására is rákérdezhetünk. Beszédes, hogy a két magyar Szerző Cím Év Ottlik Géza Buda 1993 Závada Pál Jadviga párnája 1997 Bodor Ádám Az érsek látogatása 1999 Darvasi László A könnymutatványosok legendája 1999 Esterházy Péter Harmónia coelestis 2000 Nádas Péter Párhuzamos történetek 2005 20 Lincoln A. Mullen, Kenneth Benoit, Os Keyes, Dmitry Selivanov and Jeffrey Arnold, „Fast, Consistent Tokenization of Natural Language Text”, Journal of Open Source Software 23, 3. sz. (2018): 655-657, 655. 21 Az átlagos mondathosszúságot a mondatok számát a szavak számával elosztva is megkaphatjuk, de a későbbi elemzések és más metrikák szempontjából a jelzett módszer a célravezető. A lefut­tatott kódok a függelékben megadott helyen megtalálhatók, ahogyan az átlagos mondathosszú­ság betűk számában mért eredményei is.

Next