A GDELT , azaz a Global Database of Events, Language and Tone a globális események adatbázisa. Felépítése nagyon egyszerű, ún. aktorok (személyek, pártok, kormányok, szervezetek stb.) és események (tüntetés, nyilatkozat, diplomáciai és fegyveres konfliktus stb.) kódolnak minden...
Mitől függ, hogy sikeres lesz-e egy film? Hát attól, hogy mennyire jó, milyenek a színészek, mennyire látványos… Persze, látvány meg színészek! Barlangban születtél? Magyar tudósok bebizonyították, hogy egy film Wikipedia-oldaláról pontosan meg lehet mondani, hogy sikeres lesz
Rossz híre van hazánknak? - Facebook elemzés - Kereső Világ: keresés, szövegbányászat, big data blog.hu
Egy korábbi posztunkban megvizsgáltuk, hogy a hazánkkal kapcsolatos tweetek milyen emóció- ill. szentimentkategóriába tartoznak. Most megvizsgáltuk hogy mi a helyzet a Facebookon elérhető nyilvános posztokkal. A Hungary szóra keresve 1048 angol bejegyzést gyűjtöttünk be és...
Patricia Greenfield a UCLA szociálpszichológusa The Changing Psychology of Culture From 1800 Through 2000 (sajnos nem szabad hozzáférésű) című tanulmányában a Google Ngram Viewer segítségével vizsgálta, hogy az individualizmusra ill. a kollektivizmusra jellemző szavak gyakorisága...
A magyar Twitter-szféra talán legismertebb felhasználója Deutsch Tamás az Európai Parlament képviselője, aki @dajcstomi néven csiripel és 140 karakteres megnyilatkozásai gyakran keltik fel a média érdeklődését is. A lexikai elemzés segítségével megnéztük miről és hogyan...
Egyesek szerint médiahadjárat folyik Magyarország ellen, mások úgy gondolják a kormány intézkedései miatt gondolnak rosszat hazánkról és akadnak akik szerint a Budapest - New York - Tel-Aviv háromszög kelti rossz hírünket. A Twitter-t hívtuk segítségül és megvizsgáltuk...
J. K. Rowling esete a számítógépes nyelvészettel - Kereső Világ: keresés, szövegbányászat, big data blog.hu
A brit The Sunday Times igazságügyi nyelvészeket kért fel , hogy megállapítsák kit takar a Robert Galbraith álnév. Ahogyan arról több riport is beszámolt, a Rowling-ot képviselő jogi iroda egyik ügyvédje elmesélte barátnőjének, hogy a szerző álnéven jelentette meg legújabb...
A nyelvtechnológia egyik legnagyobb kihívását jelentik a metaforák. George Lakoff és Mark Johnson Metaphors We Live By kötetének megjelenése óta az egyik legproduktívabb kutatási irányzat a kognitív nyelvészet, mely eredményeit sajnos nagyon nehéz automatizálni. Lera Boroditsky...
Múlt pénteken kisebb felfordulást okozott a neten, hogy pár percre leállt az egész világon a Google összes szolgáltatása a keresőtől kezdve a Gmail levelezőjén át a Drive-ig és a naptárig.
Új algoritmus a hálózatok jobb megismerésére - Kereső Világ: keresés, szövegbányászat, big data blog.hu
Az MIT kutatói olyan új algoritmust dolgoztak ki , amely segítségével feltérképezhető az egyes hálózatok valódi szerkezete. Amikor egy csoport (mely tagjai lehetnek emberek, állatok, gépek, vagy bármi más) tagjai közötti kapcsolatokat szeretnénk feltérképezni, megeshet, hogy a...
Mennyire reprezentatív egy online minta? Tudjuk, hogy valamennyire torzít, de reméljük, hogy az internetes penetráció növekedésével ez majd megszűnik - addig is bízunk abban, hogy az igazán jelentős csoportok és a véleményvezérek úgyis online élik már életüket. Jen Schradie...
Szavak, városok, long tail és a 80/20 szabály - Kereső Világ: keresés, szövegbányászat, big data blog.hu
Egy szavakat számolgató nyelvész felfedezett egyszer egy különleges statisztikai-eloszlást. A szavak eloszlásához hasonló mintázatokat láthatunk azonban az üzleti életben, a szoftverfejlesztésben, a városok lélekszámát vizsgálva is. Maradjon velünk az olvasó, a matematika...
Az adatújságírás után itt a JavaScript újságírás! - Kereső Világ: keresés, szövegbányászat, big data blog.hu
the content of a medium is always another medium. (Marshall McLuhan) A vezető híroldalakon sok szöveg található, de még több JavaScript, ahogy az alábbi grafikon is mutatja. Igaz, a JavaScript láthatatlan, hiszen a böngészőben futó értelmező számára tartalmaz...
A közösségi médián keresztül a felhasználókról sok információt tudhatunk meg, melyek birtokában érdekes elemzéseket végezhetünk. Az utóbbi hónapokban az olyan divatszavak mellé, mint a big data és a data science felzárkózott a behavioral analysis azaz a...
Hogyan alakul egy vita, milyen szerepe van ebben a lobbicsoportoknak, civil szervezeteknek és a sajtónak? Sokan vizsgálták már ezeket a szorosan összefüggő kérdéseket, de általában erőforrások hiányában kis mintán. Napjainkban azonban az IT költségek kicsik, a rendelkezésre...
A gazdasági élet szereplőit izgatja a jövő, hiszen szeretnek előre tervezni. Ezért rendkívül népszerűek, az olyan viszonylag egyszerű jelentések, melyek a vásárlói hangulatot (szentiment néven is szokták ezt emlegetni, de nem tévesztendő össze a nyelvtechnológiában...
SocialTimes.Hu - Hashtagek a Facebookon - minden egy helyen socialtimes.hu
A megjelölt kifejezések segítségével könnyedén bekapcsolódhatunk az érdeklődési körünkbe vágó beszélgetésekbe, visszakereshetjük az ezzel kapcsolatos bejegyzéseket és folyamatosan követhetjük egy-egy topik alakulását. Hangzatosan szólva a hashtag használata globálissá teszi a beszélgetéseket, egy helyre gyűjti és nem hagyja elveszni a rengetegben az érdekes/aktuális témákat.
A Big data betört a tartalomiparba. Ahogyan arról már korábban beszámoltunk , a Netflix sorozatait és egyre inkább a New York Times cikkeit is adatvezérelt elemzésekre alapozva formálják a kreatív szakemberek is. A Wordwide Motion Picture Group a hollywoodi forgatókönyvek...
Nemrég jelent meg a The Cuckoo's Calling című detektívregény, egy bizonyos Robert Gailbraith tollából: nem produkált hatalmas eladásokat, de jó kritikákat kapott. Aztán kiderült, hogy a valódi szerző a Harry Potter-sorozat írója, J. K. Rowling.
Napjainkban a legelterjedtebb reprezentációs forma a gráf. A közösségi oldalak baráti/ismerősi viszonyai, a mobiltelefonok közötti kapcsolások, a weboldalak közötti linkek, vagy egy felhasználó preferenciái mind-mind reprezentálhatóak gráfokban. Ez önmagában még nem...
Az Institute for Research in Social Sciences immár második alkalommal rendezte meg Computational Social Science konferenciáját, ennek YouTube csatornájáról szemezgettünk. A data science vagy adattudomány napjaink egyik legdivatosabb szava IT körökben. Fontos azonban...
Nem kapkodja el a Facebook az idei év kiemelt funkciójának, a Graph Searchnek a bevezetését. Ugyan a bejelentés már megvolt januárban, ehhez képest fél év alatt alig néhány tízmillió szerencsés felhasználó kezdhette használni az okosított közösségi keresést.
A BBC Horizon dokumentumsorozatának egyik idei darabja a Big Data felfogásban rejlő lehetőségeket tárja elénk. A Különvélemény lehet ma már nem számítana sci-finek?
Az adatújságírás nagyon színes terület. A Guardian Datablog talán a legismertebb projekt, ami szinte naponta közöl adatvezérelt cikkeket, melyek általában egy grafikonból és/vagy egyéb vizualizációból és egy rövid értelmező szövegből állnak s a cikk végén linket...
Kognitív nyelvészet és (politikai) marketing - Kereső Világ: keresés, szövegbányászat, big data blog.hu
Társadalmi kísérletek és big data című posztunkban bemutattuk, hogy a big data és a társadalomtudományok randomizált kísérletei hogyan járultak hozzá Obama választási győzelméhez. Habár sokkal kevesebb hírverést kapott, de George Lakoff és csapata is nagy szerepet játszott a...
Chris Anderson The End of Theory cikke szerint a big data önmagában szükségtelenné teszi az elméleteket. Mark Graham a Guardian hasábjain remekül érvelt amellett, hogy nem spórolható meg a rendes tudományos munka még a nagy adatokkal sem. Az adatokat valahogy elemezni kell, az...
Megszűnik az AltaVista - HWSW hwsw.hu
Alig egy héttel azután, hogy leáll a Google Reader, a Yahoo leállítja az egyik legrégebbi webkeresőt, az AltaVistát. A kereső július 8-án áll le végleg, valószínűleg az elkövetkezendő egy hétben többen fogják használni, mint az elmúlt években összesen.
Tizenkét termékétől szabadul meg a Yahoo. Jay Rossiter, a vállalat vezérigazgatója ma jelentette be, hogy a cég már pénteken leállította a Yahoo! Axist, a Browser Plust és a Citizen Sportsot, és még idén megszüntetik a Yahoo Localt és a Term Extractiont is.
Április 23-án feltörték az Associated Press Twitter fiókját és hamis hírt tettek közzé, mely szerint robbanások történtek a Fehér Házban és Obama elnök megsérült. A Dow Jones index ennek hatására 150 pontot esett. Az esemény azért igazán izgalmas, mert az...
A Google orosz riválisa, a Yandex mindent megtesz azért, hogy az amerikai nyomásnak ellenálljon, már most szinte minden termékterületen jelen van, ahol a Google is, ezúttal pedig a Chrome mobilverziójának ellenpárját jelentette be.
A webes tartalmak elszánt fogyasztói körében egyre elterjedtebbek az olyan böngészőkiegészítők, melyek eltüntetnek minden felesleges körítést és a szöveget nyomtatott oldalhoz hasonlóan jelenítik meg. Ebben az írásban röviden áttekintjük a legnépszerűbb ilyen...
A floating sheep csoportot öt geográfus alkotja, akik 2012-ben megpróbálták térképre vetíteni Barack Obama újraválasztása kapcsán a közösségi médiában megjelent gyűlöletbeszédet. Az ötletet sokan kedvelték, de a kollektíva sajnos sok hibát követett el - de hát...
Habár 2011-ben indult el a Journalism Plus Plus , csak idén sikerült kinőnie magát igazi nemzetközi hálózattá. Az alapítók elkötelezték magukat a nyílt forráskódú szoftverek, a nyílt adatok és az adatvezérelt újságírás mellett. A tagok között szabadúszó újságírók...
A Hatebase projekt célja, hogy lehetővé tegye a gyűlöletbeszéd monitorozását a webes tartalmak körében. A kanadai Sentinel Project indította a gyűlöletbeszéd különböző formáit több nyelven is gyűjtő oldalt. De mi köze van a gyűlöletbeszédnek a népirtásokhoz?...
A lokációs keresés a közösségi médiában kicsit azt az érzést adja, hogy az ember bepillantást nyer abba, mit beszél egy-egy város. Személyes szinten is hasznos lehet, de szerkesztőségeknek különösen jól jöhet a civil újságírás forrásainak összeszedéséhez és szűréséhez. A felhasználók monitorozása és lokalizálása marketing célokra vagy éppen kormányzati vizsgálatokra viszont minden esetben felveti a reprezentativitás problémáját
Az IEEE podcastban a Juristat startup egyik alapítójával, Andrew Winship-pel készítettek interjút (a posztba beágyazva lentebb megtalálható) a múlt héten. A nyelvtechnológia és az információkinyerés régóta jelen van a jogi területen, de előrejelzésre még nem igazán...
A Google Ngram Viewer rendkívül népszerű lett elindulása óta. A Google korpusza a Google Books során beszkennelt és karakterfelismeréssel feldolgozott könyvek tartalmára alapozott történeti korpusz több nyelvre. A humán- és társadalomtudományok körében népszerűvé vált az...
Az Onlinemarketing blogon jelent meg Marketing mérnökök címmel egy poszt kb. két hete. Nagyon érdekes azt látni, hogy vannak akik szerint ez a jövő, vannak akik szerint már most is alapvető elvárás az analitikai alaptudás ezen a területen. A The Economist egy cikke szerint az...
Pár héttel a Youtube legnépszerűbb videót mutató interaktív térkép elindítása után a Google most ismét a statisztikamániások és toplistafüggők kedvében jár: kísérleti jellennel, és egyelőre csak amerikai keresési adatbázisokból dolgozva elindult a Top Charts szolgáltat
Az interneten keletkező információ legnagyobb része nyelvi, legyen az szöveg, audió vagy pedig videó. Napjainkban kb. ötezer nyelvet használnak a modern tömegkommunikációs eszközök használói és az általuk generált adatok elemzése során gyakran merülnek fel nyelvi...
Crimson Hexagon - tartalomelemzés másképp - Kereső Világ: keresés, szövegbányászat, big data blog.hu
A közösségi média monitorozására szinte naponta alapítanak egy céget, de csak nagyon kevés tud megmaradni. Ennek csak részben oka az erős piaci verseny. Sokszor nehéz elmagyarázni az ügyfeleknek mire és hogyan használhatók a tartalomelemző eszközök, ennek hiányában pedig a...
A Google havi százmilliárd internetes keresést szolgál ki, ezek meglepően nagy része, közel 15 százaléka (ez napi 500 millió keresést jelent) olyan, amivel a kereső addig még sosem találkozott. Ez az arány a Google közel másfél évtizedes fennállása alatt nem változott számottevően
Miközben mindenki arra tippel, mikor jelenik meg az Apple az autóiparban valahogy, a Nuance és a Google már öles léptekkel halad az úton. Ahogy arról már beszámoltunk , a Nuance megállapodott a Spotify-al és a Ford-dal és az autórádiók új generációját hozza hamarosan...
Előző posztunkban arra kerestük a választ, milyen határai vannak egy internetes tartalmak elemzésére alapozott vizsgálatnak. Andrea nevű levélírónkat az érdekli, hogy az interneten megjelenő szövegek mennyire alkalmasak elemzésre. Mennyire alkalmas az internetes nyelv arra...
A tartalomgyártásban már régóta jelen van a fogyasztói viselkedés és igény mérése. A szórakoztató lapok vetették be először a kérdőívezést, de ma már a komoly lapok is rendre végeznek felméréseket, hogy megismerjék olvasóikat. Míg az eladási statisztikák utólag...
A Google 30 millió dollárért vásárolta a fel a Wavii nevű, Seattle-i startupot, aminek a terméke híreket összegez és rövidít le. A Google ajánlatával beelőzte az Apple-t, ami szintén szerette volna megkaparintani a céget.
Ez a legijesztőbb hely az egész interneten – ezzel a szalagcímmel robbantotta a bombát a Shodan nevű keresőmotorról a CNN riportja a héten, és azóta a fél internet a hekker-Google-nek becézett keresőről beszél és rémüldözik felváltva.
Larry Page, a Google társalapítója 40 éves. Nem volt meglepő, hogy Page már fiatalon a számítástechnika iránt érdeklődött, hiszen az édesapja és az édesanyja egyaránt informatikaprofesszor volt. Michigani házuban mindenhol számítógép-alkatrészek hevertek. Ő a Stanford Egyetemen tanult, s akkor még ő sem tudta, hogy egy napon multimilliárdos lesz. Az ötlet akkor született, amikor Page témát keresett a doktori munkájához. Barátjával, Sergey Brinnel az 1990-es években közösen indította el azt a projektet, amely mindkettőjük életét megváltoztatta. Az elképzelés lényege az volt, hogy az oldalakat az interneten a fontosságuk szerint kellene felsorolni - ezzel megszületett a Google alapötlete.
a Northwestern Memorial Kórház munkatársa szerint minden embert mindössze négy weboldal választ el attól, hogy halálos rákbetegséget diagnosztizáljon magán, mivel rengeteg téves információ kering a világhálón.
A Facebook Graph Search olyan keresőeszköz, ami személyre szabott keresési találatokat ad. Ez azt jelenti, hogy beállításoktól függően mindenkinek más jelenik meg, mindenki másokat talál meg. A Graph Search alapvetően a barátaink adatai között keres, viszont kedvesen felajánlja a keresési lehetőségek kiterjesztését, ha nem lennénk elég kreatívak. Úgy tűnik, teljesen kimaradni csak akkor tudunk, ha töröljük magunkat a Facebookról, hiszen a közösségi oldal rengeteget tud rólunk, a kontroll pedig nem teljesen van a felhasználók kezében.
A gyakorlat kiköveteli, hogy jelöljük ki a felhasználásra kerülő adatok körét. További megkötést jelent, hogy nem minden adatot használhatunk fel (szerencsére a jog ebben megköti a cégek kezét) és nem biztos, hogy az ami szabad, egyben etikus is (pl. kikövetkeztetni a felhasználók nemét, korát stb. kifejezett engedélyük nélkül). Ettől persze a big data még forradalmi eszköz, de érdemes fél szemmel a kudarcokra is figyelni és nem árt tisztában lenni határaival sem.
A mesterséges intelligencia és a nyelvtechnológia iránt érdeklődők körében nagyon jól ismert Ray Kurzweill neve, aki immár a Google-t erősíti mint director of engineering. Kurzweill kutatásai középontjában az optikai karakterfelismerés és a beszédtechnológia áll, továbbá híres futurológus és transzhumanista is (többször is kifejtette, nagy álma egy mesterséges agy, amire akár saját tudatunkat is átmenthetjük az örökkévalóságnak).
Nincsenek megjegyzések:
Megjegyzés küldése