keresés

2020. május 13., szerda

Szent Tamás és a lyukkártyák

A digitális bölcsészet és az informatika kapcsolata

A digitális bölcsészet (Digital Humanities) egy kurrens definíció szerint “a bölcsészettudományok és a kifejezetten erre a tudománycsoportra szakosodott informatikai megoldások termékeny összekapcsolásának elméleti kutatással is megtámogatott gyakorlata” ami a “nyelvtechnológiától kezdve az irodalmi művek digitális kritikai kiadásain át a történelemkutatás, a muzeológia, a régészet vagy a néprajz gépesítéséig, esetleg a zenetudomány számítógépes kutatásáig” mindent lefed, tehát egyfajta alkalmazott szemléletmód, különféle informatikai megoldások alkalmazása a humántudományok kontextusában. A XXI. század perspektívájából, ahol a számítógépesítés és a hálózatosodás miatt hajlamosak vagyunk azt hinni, hogy ez a kapcsolat egyoldalú, nehéz elképzelni azt, hogy az informatika fejlődéséhez bármiképp hozzájárulhattak a humán tudományok is. De a digitális bölcsészet kezdeteinél pont ezt találjuk: Aquinói Szent Tamás teljes életművét, mint a hipertext létrejöttének katalizátorát.

Egy jezsuita és egy különleges konkordancia története

A digitális bölcsészet szövegdigitalizálással együtt született meg a szövegek nyelvészeti és filológiai vizsgálatának igénye nyomán. Bár a szövegek digitális kódolása nem volt ismeretlen gondolat (Claude Shannon például a Library of Congress teljes információtartalmát 1014 bitre becsülte), de a digitális szövegfeldolgozás úttörője nem mérnök volt, hanem egy váratlan helyről és egy szokatlan küldetéssel érkezett a számítástechnika újdonsült világába.

A jezsuita Roberto Busa atya (1913–2011), az Index Thomisticus szülőatyja 1941-től dolgozott a későbbi doktori disszertációjának témáján, ahol teológusként Aquinói Szent Tamás Summa Theologiae-ját tanulmányozta, majd az életművét filológiai és nyelvészeti eszközökkel is vizsgálni kezdte. Az életmű tanulmányozása során a szerzetes megálmodott egy tomista művekből készült konkordanciát, egy olyan átfogó adatbázist, amely Aquinói Szent Tamás összes szövegét a szavak szintjén indexeli (méghozzá lemmatizált vezérszavak alá sorolva), ezzel áttekinthetővé és kereshetővé teszi az életművet a filológiai és teológiai kutatómunka megkönnyítésére (tehát lényegében a mai fogalmak szerinti "parsolt" korpuszt szándékozott létrehozni). A lemmatizálási munkálatok összetettsége, illetve a feldolgozandó szövegmennyiség miatt (az Index Thomisticus korpusza 118 szöveget és közel 11 millió szóalakot foglal magába az eredeti latin nyelven) hamar egyértelművé vált azonban, hogy  a feladat nem végezhető el kézileg, egy ember által, egy emberöltő alatt. Busa atya meggyőződésévé vált, hogy a feladathoz mindenképpen gépesített megoldás szükséges. Egy ilyen méretű projekt még ma is kihívásnak számít, Busa atya korában pedig a gépesített megoldás megálmodása is merész volt, hiszen az a lyukkártyás tabulálógépek és az elektromechanikus számítógépek számára a szövegfeldolgozás még ismeretlen területnek számított.

Roberto Busa atya tehát egy olyan gépesített megoldást keresett volna a konkordanciájának elkészítéséhez, amellyel megoldható lenne a megálmodott hatalmas feladat - ilyen megoldás azonban még nem létezett. Az egyesült államokban 1949-ben tett körutazása alkalmával, a jezsuiták legendás csökönyésségével felvértezve Busa atya  felkereste az ország neves egyetemeit a grandiózus álmával, illetve az azt megalapozó munkájával,  míg végül az egyetemek egyikén az IBM-hez irányították át, (ahol ebben az időszakban a híres SSEC már a hold ill. a bolygók mozgásainak kiszámításán dolgozott), és ahol az atya terveihez mérhető, úttörő megoldásokon dolgoztak nap mint nap. Egy anekdota szerint Busa atya az IBM alapítóját, az idősebb Thomas J. Watsont megfelelő anyagi források híján ingyen kérte fel a munkára, majd a cég saját szlogenjével (the difficult we do right away; the impossible takes a little longer”) győzte meg arról, hogy az Index Thomisticus létrehozásában közreműködjön a cége. Szerencsére az idősebb Watson jó üzletemberként felismerte azt, hogy a számítógépben rejlő lehetőségek kiaknázására ilyen ambiciózus kísérletek kellenek, és a munka megkezdődhetett.

Busa atya az 1951-es a XVIII. dokumentációs világkonferenciára a szövegfeldolgozási módszerének szemléltetésére már egy bemutatható példával érkezett (amely akkor még a mechanikus számológépek és elektronikus számítógépek közötti köztes lépcsőfokon foglalt helyet). A projekt haladását mutatja azonban, hogy 1954-re egy külön adatfeldolgozási részleg, majd a munkaerő-igény növekedésével egy négy szemeszter hosszú, lyukkártyás adatbeviteli képzés is Busa atya irányítása alá került. Érdekesség, hogy az adatbeviteli munkára kifejezetten olyan fiatal nőket alkalmaztak, akik nem tudtak latinul, mert a latintudásukban biztos emberek több hibát vétetek a lyukkártyákon. (Nem mellékesen megjegyzendő, hogy Busa "iskolájában" illetve az Index Thomasticus projekten szerzett adatbeviteli szaktudás a projekten dolgozókat a kor legkeresettebb munkaerőjévé emelte.) A szövegek feldolgozása és a lyukkártyás adatbevitel egészen 1967-ig tartott, némi nehézségekkel megfűszerezve, hiszen időközben a technológiai fejlődés és a projekt elhúzódása miatt átváltottak Mágnesszalagos adattárolásra. Összességében az adatbevitellel és az adatfeldolgozással, valamint a hosszadalmas nyomdatervezési és kiadási munkálatokkal együtt több mint hatvan állandó alkalmazott csaknem 30 évig dolgozott a tomista konkordancián. Busa saját becslése szerint a számítógépek tízezer munkaórát töltöttek  az Index Thomisticussal, ugyanakkor az emberi munkaórák és a számítógépesített munkaórák végső aránya  100:1-hez volt, így a projekt több, mint egymillió emberi munkaórát vehetett igénybe összesen.

Az Index Thomisticus nyomtatott formában, 56 kötetben került publikálásra, a kiadás 1980-ban ért véget, ugyanakkor az index fejlődése itt nem állt meg. Bár Roberto Busa atya befejezte a munkát az indexen, még az ezredforduló után is tevékenyen hozzájárult ahhoz, hogy a munkája szélesebb hozzáférhetőségű legyen:  2005-re az egész konkordancia felköltözött az internetre, és azóta pedig új filológiai és nyelvészeti projektek is létrejöttek az Index Thomisticus korpusza nyomán, többek között például egy nyelvészeti célú ágbank, ahol az eredeti középkori latin nyelven íródott korpuszra két további adatbázis, egy latin dependencia-nyelvtan illetve egy latin valancia-lexikon is épült. Az Index Thomisticus tehát nem csak egy ember magnum opusa, nem csupán egy kutatói segédeszköz, hanem egy olyan eszköz, amire a modern nyelvészet és filológia tovább építkezhet.

Amit az Index Thomisticusnak még köszönhetünk:

Az Index Thomisticus megalkotása minden tekintetben úttörő vállalkozásnak bizonyult. Túlzás nélkül elmondható, hogy a kitűzött célt a projekt túlszárnyalta és nem csupán a teológiai és filozófiai jelentőségében egyedülálló, de egyben a digitális bölcsészet, a számítógépes nyelvészet illetve a korpusz-alapú szövegelemzés alapkő-letételének is tekinthető. Ugyanakkor Busa atya munkája és az Index Thomisticus projekt a szaktudományos jelentőségen túlmutató mérnöki megoldásoknak is utat nyitott, hiszen a ma használatos infokommunikációs csatornák, például az internethasználat szempontjából kulcsfontosságú információs technológiák fejlődéséhez is hozzájárult. Az Index Thomisticuson végzett úttörő munka nélkül talán nem létezne mai formájában az internetes hivatkozásokat is lehetővé tévő hipertext, de a jelölőnyelvek (így pl. a XML vagy a HTML) sem. 

Források:
  1. Az Index Thomisticus mint Projekt
  2. Az Index Thomisticus digitális kiadása
  3. Az Index Thomisticus Busa visszaemlékezésében
  4. Reconstructing the First Humanities Computing Center
  5. Father Busa’s Female Punch Card Operatives - Az Index Thomisicus és a Nők
  6. Digitális bölcsészet

Fogalmak: ágbank Szintaktikailag elemzett mondatok adatbázisa. (Angolul Treebank.)
annotáció
Olyan információ, mely az eredeti szövegben nem szerepel, a szöveg feldolgozása során kerül a szövegbe. A szövegre vonatkozik, de a szövegtől egyértelműen megkülönböztethető.
konkordancia
Egy adott szó vagy kifejezés szövegben szereplő összes előfordulását szövegkörnyezetében bemutató lista.
korpusz
Nyelvészeti vizsgálatok céljából, bizonyos szempontok alapján összeválogatott írott vagy beszélt nyelvi szövegek gyűjteménye.
lemma Az azonos szótőből származó összes (általában azonos szófajú) szóalakot átfogó kategória.
lemmatizálás A különböző szóalakok lemmákba való csoportosítása.
parsing
Automatizált szintaktikai elemzés segítségével (morfo)szintaktikai elemekre bontott és annotált szöveg létrehozása az eredeti szövegkorpuszból. Az annotációkkal előállítható egy olyan morfológiai, szintaktikai ill. szemantikai metaadatokat tartalmazó szövegkorpusz, amely további nyelvészeti problémák megoldására hasznosítható.
példány Egy szövegben akár többször is előforduló bármely szó; vö. szövegszó.
számítógépes nyelvészet A nyelv vizsgálatához számítástechnikai elveket és módszereket használó tudományterület.
szóalak Egy szövegben előforduló különböző írásképpel, változatokban megjelenő szó (pl. bot, botot). (Angolul Type.)
szövegszó Olyan betűcsoport, amelyet mindkét oldalon szóköz választ el. Esetenként a jobb oldali szóközt írásjel előzi meg.

Nincsenek megjegyzések:

Megjegyzés küldése