Ngram, također poznat kao N-gram, statistička je analiza sadržaja teksta ili govora n (broj) neke vrste stavke u tekstu.
Stavka pretraživanja može biti sve vrste stvari, poput fonema, prefiksa, fraza ili pisama. Iako je N-gram nešto nejasan izvan istraživačke zajednice, upotrebljava se u različitim područjima i ima mnogo implikacija za programere koji kodiraju računalne programe koji razumiju i reagiraju na prirodni govorni jezik.
U slučaju Google knjiga Ngram Viewer, tekst koji se analizira dolazi od ogromne količine knjiga koje je Google skenirala u narodnim bibliotekama kako bi popunila tražilicu Google Knjige. Za Google knjige Ngram Viewer, oni se odnose na tekst koji ćete pretraživati kao zbirka , Ngram Viewer se agregira po jezicima, iako možete zasebno analizirati britanski i američki engleski jezik ili ih slagati zajedno.
Kako Ngram radi
-
Idite na Google knjige Ngram Viewer na books.google.com/ngrams.
-
Upišite bilo koji izraz ili fraze koje želite analizirati. Odvojite svaki fraza zarezom. Google sugerira, "Albert Einstein, Sherlock Holmes, Frankenstein" da biste započeli. Stavke razlikuju velika i mala slova, za razliku od Googleovih pretraživanja weba.
-
Upišite datumski raspon. Zadana je 1800 do 2000.
-
Odaberite korpus. Možete pretraživati tekstove stranih jezika ili engleski, a osim standardnih izbora, na dnu ćete primijetiti stvari poput "engleski (2009) ili američki engleski (2009)". To su starije korporacije koje je Google ažuriralo, ali možda imate razloga za usporedbu s starim skupovima podataka. Većina ih korisnika može ih ignorirati i usredotočiti se na najnovije korpuse.
-
Postavite razinu izravnavanja. Glatko se odnosi na to kako je glatka traka na kraju. Najprecizniji prikaz bio bi razina izravnavanja od 0, ali ta postavka može biti teško čitati. Zadana postavka je 3. U većini slučajeva nećete ga morati prilagoditi.
-
pritisni Traži puno knjiga dugme.
Google vam omogućuje značajno malo drhtavanje pomoću usluge Ngram Viewer. Ako želite tražiti ribu glagol umjesto ribe imenicu, to možete učiniti pomoću oznaka. U tom bi slučaju pretražili pojam "fish_VERB"
Google pruža kompletan popis naredbi koje možete koristiti i druge napredne dokumente na svojoj web stranici.
Što je Ngram prikazano?
Google knjige Ngram Viewer izdaje graf koji predstavlja upotrebu određene fraze u knjigama kroz vrijeme. Ako ste unijeli više od jedne riječi ili fraze, vidjet ćete crte u boji za razliku od različitih pojmova za pretraživanje. Ovo je prilično slično Google trendovima, samo pretraživanje traje dulje vrijeme.
Studija slučaja
Razmotrite studiju slučaja pite od octa. Spominjani su u Lauri Ingalls Wilder's Mala kuća na Prairieu niz. Istraživanje s Googleovim pretraživanjem weba da biste saznali više o pite od octa otkriva da se smatraju dijelom američke južne kuhinje i doista su napravljeni od octa. Oni se osluškuju u vrijeme kad svi nisu imali pristup svježim proizvodima u svako doba godine. Ali je li to cijela priča?
Pretražite Google Ngram Viewer za pita od octa i naići ćete na neke spominjanje torte u ranoj i kasnoj 1800. godini, mnogo spomena u četrdesetim godinama prošlog stoljeća i sve veći broj spomena u novije vrijeme. Međutim, s ravnomjernom razinom od 3 vidjet ćete visoravan iznad spomena u 1800-ima. Budući da u to doba nema puno knjiga, a zbog toga što su naši podaci postavljeni na glatko, iskrivljuje sliku. Vjerojatno je postojala jedna knjiga koja je spomenula pita od octa, i to je samo prosjek da izbjegne šiljak. Postavljanjem zaglađivanja na 0 možemo vidjeti da je upravo to slučaj. Šiljka se usredotočuje 1869. godine, a još 1897. i 1900.
Malo je vjerojatno da nitko o ostatku nije razgovarao o octu pitao: bilo je vjerojatno da su recepcije plutale po cijelom mjestu, ali ljudi jednostavno nisu pisati o njima u knjigama, i to je važno ograničenje tih pretraživanja u Ngrama.