LITERATURA - A MTA BTK Irodalomtudományi Intézetének folyóirata, 2020 (46. évfolyam, 1-4. szám)
2020 / 3. szám
342 SZEMES BOTOND 2. Az előkészítést követően az R Studio programkörnyezetben a tokenize20 csomag segítségével a regényeket mondatokra bontva, majd a bennük lévő szavakat összeszámolva kaptam meg az egyes szövegek átlagos mondathosszúságát.21 A korpusz előkészítése során úgy kívántam a szövegeket átalakítani, hogy az azonos formátumok összehasonlíthatóvá váljanak. Ezt az összehasonlíthatóságot azonban több tényező is megnehezíti: ilyen a helyesírás változása (például 19. századi szövegek esetében gyakori az „ahol”, „amikor” stb. kötőszavak külön írott verziója a helyhatározói mellékmondatban: „a hol”, „a mikor”), a párbeszédek jelölése (a narrátori szólamot az olyan esetekben, mint: Ez olyan hülye, hogy ketyeg! - mondta egy vastag hang”, a megszólalással egy mondatként kezeltem, ám ha nagy kezdőbetű követi a mondatvégi írásjelet és a szólamváltást, mint: Ami tehetségemben áll, azt megteszem. Biztató tanácsnokát a bojár”, a narrátori szólamot külön mondatnak számítottam), vagy a zárójeleken belüli mondatok kérdése (ekkor, ha csak egy beékelt mondat szerepel a zárójelen belül, akkor azt a főmondat mondatrészének tekintettem: „... a harsány kamaszhang [A jegyeket kérem!] végre kiszabadította e szégyenletes csapdából,ugyanakkor ha több megszólalást tartalmaz a zárójel, akkor azokat külön mondatként számoltam: „meg sem hallotta Schmidtné szavait [Mi van, megsüketült? Hé, Futaki, maga rosszul van?], aki...”). A módszer tehát nem hibátlan, ahogyan semmilyen statisztikai kutatás sem az - amin keresztül a digitális adatfeldolgozás vélt objektivitására is rákérdezhetünk. Beszédes, hogy a két magyar Szerző Cím Év Ottlik Géza Buda 1993 Závada Pál Jadviga párnája 1997 Bodor Ádám Az érsek látogatása 1999 Darvasi László A könnymutatványosok legendája 1999 Esterházy Péter Harmónia coelestis 2000 Nádas Péter Párhuzamos történetek 2005 20 Lincoln A. Mullen, Kenneth Benoit, Os Keyes, Dmitry Selivanov and Jeffrey Arnold, „Fast, Consistent Tokenization of Natural Language Text”, Journal of Open Source Software 23, 3. sz. (2018): 655-657, 655. 21 Az átlagos mondathosszúságot a mondatok számát a szavak számával elosztva is megkaphatjuk, de a későbbi elemzések és más metrikák szempontjából a jelzett módszer a célravezető. A lefuttatott kódok a függelékben megadott helyen megtalálhatók, ahogyan az átlagos mondathosszúság betűk számában mért eredményei is.