inapló szemle: Az Internet Archive és a Wayback Machine

2019. október 22., kedd

Az Internet Archive és a Wayback Machine

Az információrobbanás korszakában, legyen szó bármilyen információ gyűjteményről, idővel az összegyűjtött dokumentumok információi avulnak, bővülnek, esetleg hiteltelenné válnak. Később azonban szükségessé válhat, hogy egyes kutatásokhoz újra megkerüljenek ezek az információk, és ilyenkor jönnek jól az úgynevezett archívumok. Az internet esetében, a köztudatból kikerült információk az Internet Archive-nek a Wayback Machine nevű archívum weboldalán fellelhetőek az ilyen webes információk.

Az Internet Archive:

Brewster Kahle amerikai programozó, internet-aktivista hozta létre Bruce Gilliat internetes vállalkozóval az Internet Archive-t, amely, ahogy a neve is mutatja, egy hatalmas archívum. Ez az archívum régi weboldalakat tárol. Ha esetlegesen rá akarunk keresni egy régi weblapra, akkor ezt a ,,The Internet Archive’’ nevű oldalon megtehetjük. Az Internet Archive nevű oldal, amelynek segítségével több mint háromszázmilliárd oldal korábbi változata kereshető vissza. Ez a weboldal 1996 óta létezik, és folyamatosan bővítik többek között rengeteg tudományos tartalommal. A szolgáltatások, amiket nyújt, ingyenesek, bárki regisztrálhat, és feltölthet dolgokat. Azt a célt tűzték ki maguknak, hogy a világ összes tudását összegyűjtsék egy helyre. Kutatók (mind fizetettek, mind hobbiszerűek), tudósok, újságírók és Wikipédia szerkesztők használják gyakran a munkájukhoz.

Az Internet Archive főoldala

Az oldal kezelőfelülete rendkívül egyszerű, ahogy a fenti képen is látható, így az átlag felhasználók mellett még azok számára is átláthatónak minősül az oldal, akik számára még idegennek számít az internet világa, vagy egyszerűen csak egyszeri felhasználók.

A weboldal jelenleg tartalmaz:

330 milliárd weboldalt
20 millió könyvet és szöveget
4.5 millió hangfelvételt (beleértve 180 000 élő koncertet)
4 millió videót (köztük 1.6 millió televíziós hírműsort)
3 millió képet
200 000 szoftvert.

A Wayback Machine

A Wayback Machine oldala

A Wayback Machine egy felület, amin keresztül elérhetőek a régi weblapok. Csak be kell másolni a weblap URL címét, és máris kiad találatot/találatokat. Ekkor megjelenik egy idődiagram, amin rajta van, hogy melyik évben, mennyire volt aktív az oldal, és ezt követően kell kiválasztani azt az hónapot, és napot amelyre szeretnénk rákeresni.

Felturbózza könyves hivatkozásait a Wikipédia

Idéntől kezdve az Internet Archive digitális könyvtár önkéntesei és automatizált algoritmusai segítségével, a Wikipédia szócikkekben felkutatják a könyves hivatkozásokat, és a digitális gyűjteményből elérhető példányokra irányítják a forrás linkeket.

Tehát mostantól az Internet Archive már a Wayback Machine archívum könyv gyűjteményéhez is hozzáférést nyújt, hogy a Wikipédia szócikkek hivatkozásait pontosabban alátámassza, és ezzel növelje a Wikipédia szócikkeinek hitelességét.

Azaz ha egy könyves hivatkozáshoz az Internet Archive saját gyűjteményében meglévő digitális vagy digitalizált könyv kapcsolódik, akkor annak hivatkozása is automatikusan megjelenik a külsős források közt a Wikipédiánál.

Hátrányok

A régi weboldalak "crawling"-ja - ún. aratógép szoftver által - és publikálása közti idő jelenleg három és tíz óra között mozog, de 2014-ben még hat hónapig is elhúzódott egyszer a "crawling" kezdetétől az oldal megtekinthetősége. A Wayback Machine kereshetősége is korlátozott.

Ezen kívül, a Wayback Machine-nak a web "crawler"-jének nehézsége van kibányászni bármit ami nem HTML nyelven, illetve annak valamelyik változatában van kódólva. Ezáltal, gyakran törött hiperlinkeket és hiányzó képeket eredményez, és nem tud archiválni ún. „árva oldalakat" amelyek nem tartalmaznak linkeket más oldalakra.

Továbbá, több pert is indítottak már az Internet Archive ellen a Wayback Machine-féle archiválási törekvései kapcsán. Ráadásul, Kínában jelenleg blokkolva van az Internet Archive weboldala és Oroszországban is teljesen blokkolták az Internet Archive-t 2015-ben.

A technika fejlődése könyvtáros szemmel

A technika rohamos fejlődésével - például az aratógépek megjelenésével - megnőtt a feldolgozásra, és raktározásra váró dokumentumok mennyisége könyvtárosok számára. Az interneten azonban nem csak dokumentumokat tárolnak, hanem megszámlálhatatlan weblap is létezik. Ezek viszont sok esetben elfelejtődnek, elavulnak, ezért ezeket nekiálltak összegyűjteni, egy óriási adatbázisba - a Wayback Machine-ben, ahol minden weblapot igyekeznek megőrizni, és hozzáférhetővé tenni az Internet Archive. Ez önmagában is embert próbáló feladat, de amellett, hogy gyűjtik a weblapokat, még ezen oldalak korábbi verzióit, és tartalmait napra pontosan is hozzáférhetővé teszik (angolul: version control).

Összegzés

Összesítve, a Wayback Machine sikerének titka látszólag a régi internetes tartalmak visszakereshetőségének fontossága több szakma és foglalkozás számára. Továbbá, az Internet Archive önkénteseinek kitartó munkája mondható elengedhetetlennek a Wayback Machine sikeréhez.

Források:

inapló szemle

keresés

2019. október 22., kedd

Az Internet Archive és a Wayback Machine

Nincsenek megjegyzések:

Megjegyzés küldése

Összes oldalmegjelenítés

keresés

2019. október 22., kedd

Az Internet Archive és a Wayback Machine

Nincsenek megjegyzések:

Megjegyzés küldése

Follow

Összes oldalmegjelenítés