Kako uporabljati orodje »Ngram Viewer« v Google Knjigah

Ngram, ki se običajno imenuje tudi N-gram, je statistična analiza besedilne ali govorne vsebine, da bi našli n (številko) neke vrste elementa v besedilu. Lahko bi bile vse vrste stvari, kot so fonemi, predpone, fraze ali črke. Čeprav je N-gram nekoliko nejasen zunaj raziskovalca, se dejansko uporablja na različnih področjih in ima veliko posledic za ljudi, ki izdelujejo računalniške programe, ki se razumejo in odzivajo z naravnim govornim jezikom. To, na kratko, bi bilo Googlov interes za to idejo.

V primeru programa Google Knjige Ngram Viewer je besedilo, ki ga je treba analizirati, izhajati iz velike količine knjig, ki jih je Google pregledal v javnih knjižnicah in tako napolnil iskalni mehanizem za Google Knjige . Za Google Knjige Ngram Viewer se nanašajo na besedilo, ki ga iščete kot »korpus«. Korpus v programu Ngram Viewer je razdeljen glede na jezik, čeprav lahko ločeno analizirate britanski in ameriški angleščini ali pa jih združite skupaj. Konča se, da je super zanimivo, da preklopite iz britanske v ameriško uporabo izrazov in si oglejte spremembe karte.

Kako deluje Ngram

  1. Pojdite v Google Books Ngram Viewer na book.google.com/ngrams.
  2. Elementi so občutljivi na velikost črk, za razliko od spletnih iskanj v Googlu, zato se prepričajte, da uporabite ustrezne imenike.
  3. Vnesite fraze ali fraze, ki jih želite analizirati. Posamezne fraze ločite z vejico. Google predlaga, "Albert Einstein, Sherlock Holmes, Frankenstein", da bi začeli.
  4. Nato vnesite časovno obdobje. Privzeta vrednost je od 1800 do 2000, vendar so še novejše knjige (leto 2011 je bilo najnovejše v Googlovi dokumentaciji, vendar se je morda spremenilo.)
  5. Izberite korpus. Lahko iščete tuje jezike ali angleščino in poleg standardnih izbir lahko na dnu opazite stvari, na primer "angleščina (2009) ali ameriška angleščina (2009)". To so starejši korpusi, ki jih je Google od takrat posodobil, vendar imate morda kakšen razlog, da bi svoje primerjave uporabili proti starim nizom podatkov. Večina jih lahko ignorira in se osredotoči na najnovejšo korpeto.
  6. Nastavite stopnjo izravnave. Glajenje se nanaša na to, kako gladko je graf na koncu. Najbolj natančna predstavitev bi bila izravnava ravni 0, vendar je morda težko prebrati. Privzeto je nastavljeno na 3. V večini primerov vam tega ni treba prilagajati.
  1. Pritisnite gumb Išči veliko knjig . (V iskalnem pozivu lahko pravkar pritisnete tipko enter.)

Kaj je prikaz Ngrama?

Google Books Ngram Viewer bo prikazal graf, ki predstavlja uporabo določenega fraza v knjigah skozi čas. Če ste vnesli več kot eno besedo ali besedno zvezo, boste videli barvno označene črte, s katerimi bi razlikovali različne iskalne izraze. To je precej podobno Googlovim trendom , le iskanje pokriva daljše časovno obdobje.

Tukaj je primer resničnega življenja. V zadnjem času smo bili radovedni o kislih piteh. Spominjajo se v Mali hiši Laure Ingalls Wilder v seriji Prairie , vendar za takšno stvar nismo nikoli slišali. Najprej smo uporabili Googlovo spletno iskanje, če želite izvedeti več o pite za kis. Očitno se štejejo za del ameriške južne kuhinje in so resnično izdelani iz kisa. Poslušajo nazaj, ko nihče ni imel dostopa do svežih proizvodov ves čas v letu. Je to celotna zgodba?

Iskali smo Google Ngram Viewer in nekatera omemba pite v zgodnjih in poznih 1800-ih, veliko omenjenih v 40-ih letih in vse večje število pomenov v zadnjem času (morda nekaj piščalnih nostalgije.) No, obstaja nekaj problem s podatki na ravni izravnave 3. V osemnajstih letih je omenjena planota. Seveda ni bilo enako število omembe enega pita vsako leto za pet let? Kaj se dogaja je to, ker v tem času ni veliko knjig objavljenih, in ker so naši podatki nastavljeni na gladko, to izkrivlja sliko. Verjetno je obstajala ena knjiga, ki je omenila pito kisa, in to je v povprečju izognila konici. Z nastavitvijo glajenja na 0 lahko vidimo, da je to točno tako. Leta 1869 je prišlo do konice, v 1897 in 1900 pa je še en konic.

Ali nihče ni govoril o kisu piti ostali čas? Verjetno so govorili o teh piteh. Obstajajo verjetni recepti, ki plujejo po vsem mestu. O njih v knjigah preprosto niso pisali , in to je omejitev teh Ngramovih iskanj.

Napredno iskanje Ngramov

Se spomniš, kako smo rekli, da bi lahko Ngrami vsebovali vse vrste besedilnih iskanj? Google vam omogoča, da se precej pomnožite s programom Ngram Viewer. Če želite poiskati ribe glagol namesto ribe samostalnik, lahko to storite z uporabo oznak. V tem primeru bi poiskali "fish_VERB"

Google ponuja celoten seznam ukazov, ki jih lahko uporabite, in drugo napredno dokumentacijo na svojem spletnem mestu.