„To, co lidé nazývají štěstím, je okamžik, kdy přestanou mít strach.“ Pamatuj, že i ta nejtěžší hodina ve tvém životě, má jen 60 minut (Sofoklés)
GOOGLE vyhledávání a jeho funkce
Co je GOOGLE a jak pracuje...?
Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.
Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).
Vyhledávání na GoogleOhodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.
Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.
Zdroje příjmů GooglePopularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).
Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.
Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.
Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)
Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.
URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.
Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).
Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.
Zdroj: český internet informace o Google
Oblíbené příspěvky
-
Přidat text k obrázku Gaudeamus igitur Melodie Latinský text Volný překlad Gaudeamus igitur, iuvenes dum sumus: post iucundam i...
-
Dítě a svět Mustafa Kemal Atatürk, první turecký prezident: "Islám, tato absurdní teologie nemorálního beduína, je mršinou, která o...
-
Švédská krasavice Marie Serneholt Milované ženy lecos dokáží a muž nadšeně natáčí video své obdivované šikovné ženy lovkyně s lukem...
-
Vlasta Buria Král komiků a skvělý člověk Osobnost lidství komedie a úspěchu. Tyto superlativy jsou fakt a plebs neodpouští (závidí) ú...
-
Dančí plec se šípkovou omáčkou DANČÍ PLEC se šípkovou omáčkou Hlad, Recepty k vaření, Recepty a rady, zvěřina
-
Domácí uzené, bramborový knedlík, zelí Domácí uzené je nezapomenutelné nejen chutí, ale zejména vůní vybraného tvrdého dřeva... K pří...
-
Fotografie ve vysokém rozlišení (prohlížejte ve zvětšení na celou display) South Africa Afrika a hlad 21.století Hlad není jen nep...
-
A to je jediný obrázek Agáty co je na webu ... Na různých CD a v počítači Vladimíra Svobody (dříve Nešpůrka) objevili podle zjištěn...
-
Telefonujeme furtum, furt komusi.... TELEFONÁT. Pan Daněk se vrací z práce. Malý Honzík na něj volá: "Ahoj tati, to bude maminka překv...
-
Origanum vulgare L. Dobromysl obecná (Origanum vulgare L.) je rostlina z čeledi hluchavkovitých.Tato rostlina při pravidelném použ...
MENU:
1968
Accordeon
Afrika
Agáta
Agrese
Aktualizace
Aktualne
Aktuální info
Alphaville
Amerika
AMICUS RES
Amy McDonald
Andrea Bocelli
Android
Anna Kurnikova
Anna Netrebko
Anne Murray
Anne Sophie Mutter plays Beethoven
Atavismus
Automobily
Autosalon
Ave Maria
Až na dno
Básník zpěvák a genius doby
Beatles
Bez černý
Blondie
Bolesti v zádech
Bon Jovi
Bonnie Tyler
Botnet
Bubáci
Bylinky
Celtic Woman
Cestování. Moře
CICERO
Cicero O stáří
CZportal
Čas pomoci
Čas říci sbohem
český folklor a tance
Člověk a Nemoc
Dančí
Debaty a názory
Déjá vu
Dengue
Dívka u řeky
Dobro a zlo
Dobromysl obecná
Dobrý vtip
Domov
Dragoon Ride
Duše
Dvořák
Ekologie
Eliška Kaplicky Fuchsová
Emoce a úžas
Eric Clapton
Erin Mc Carley
Etické a humánní principy
Etické principy
Evergreen
Evropská Unie
Facebook
Falcon
Fejeton
Forever Young
Fotografie
Gaudeamus igitur
Gigliola Cinquetti
Gigliola Cinquetti - Non ho l'età in 1964 with 16 years old.
Google
Groupthink
Historical music
Historie
Hity
Hlad
Hlaváček jarní
Hledání na internetu
Holy Night
Houby
Humor
Humor a vtipy
Hybridní pohon
Chaloupky
Christina Aquilera
Immanuel Kant
Imunita kojení a spánek
Indiánský systém
Internet
Internet a Google Chrome
Internetové smetiště
internetové úložiště
Introvert
Írán
Iveta Bartošová
J. F. Kennedy
Jak na to
Jak se loví jeleni
Jak se pracuje na internetu s rychlým prohlížečem?
Jana Maláčová
Janine Jansen
Japonsko
Jaro
Jaterní poruchy a životospráva
Kachna
Kámen
Kanada
Karel Kryl
Kariera
Kaštany
Káva
kávovar
Kočičí dráp
Kočka domácí
Kočky Sobě
Kodex
komentáře úvahy
Kominík
Komunitní sítě
Koně
Korsika
Král komiků
Královská svatba
Krásná dudačka
Krásné ženy
Kritika
Krokonoše
Kryl
Kryl Zapření Petrovo
Kuchyně
Kultura
Květy
Kytara
Láska
Laughing babies [HQ]
Léčivé rostliny
Ledecká
Ledviny
Legendy taneční hudby
Lékař
Lékař a bylinky
Lékaři
Letadla
Lita Ford
Loreen
Majdan
Máma
Marie Rottrová
Markéta Hejná
Markéta Šichtařová
Marlene Dietrich
Marta Kubišová
Maxmilián Kašparů
Medicina
Megan Fox
Melody Boys
Měsíční svit
Mince
Ministr
Mireille Mathieu
Miss cizinka
Mix – Karel Kryl
Mobbing
Momentky a cesty
Monitorovací přístroje
Moře
Motivace
Motory
Moudro
Můj pohled na svět
Mustafa Kemal Atatürk
Muži
Myslivost
Na tom pražském mostě
nedávejte srdce
Negativní emoce
Nemoci lidské
nesvěřujte se
News
Nordic walking
Noreply
O dobrodiních
O Evě a Adamovi
O stáří
O stupiditě
Occamova Břitva
olympijské hry
Oregano
Ornitologie
Paměť
Panorama hor
Peníze
Perská kočka
Pes velký švýcarský
Petrova Bouda
Pie Jesu
Pirati.cz
Pirátství
Pitná voda a jiné nápoje
Počasí
Podnikání
Pohádka lásky
Pohádky a my
Policie
Politika
Pomlázka
Portal
Poruchy osobnosti
Práce
práci
Prevence
Prostata
Přátelství
Předjaří
Přezdívka
Příroda
Přítel
Psychopatie
Queen
R.A.Dvorský
Radujme se
Radůza
Rady a tipy
Recepty a rady
Recepty k vaření
Relax
Renault
Report
Rock
Rodina
Rostliny
Rostou
Roxette
Rusko
Rušičky
Rychlá péče
RZP
Řecko
Santorini
Sarah Brightman
Sdílení
Sellier&Bellot
Sen
Seneca
Seneca Lucius Annaeus
Senioři
Sestry Allanovy
Skupinová hloupost
Skutečné příběhy
Smartphone
Smích a úsměv
Snář o koních
Sociální příčiny irracionality
Sociální sítě
Sociopatologie
Sokol
Spam
sport
Spotřebitelské chování
Srdce ze skla
Stáří
Strach
Stres
Střelný prach
Svoboda
Svobodní koně
Symphony no. 9
Syrie
Šípková omáčka
Štěstí získává přátele
Tanky a Ukrajina
Teen
Tenkrát na Východě
Terorismus
Terra incognita
The Beach Boys
The Rubettes
Time in The West
Tipy a návody
Toyota
Trubači
Trubka v hudbě
Události na internetu
Události ve světě
Ukrajina
USA
Úvahy
Úvod
Uzené
Uzení naloženého masa
Úzkost
Válka
Vánoce
Věda
Věda a svět
Vědomí a podvědomí
Velikonoce
Venezuela
Verše
Videa
Vilacora
Violin Concerto
Víra
Vladimír Páral
Vlasta Burian
Vlaštovičník větší
Volby
Volkswagen
Výzbroj
WC STORY
WCstory
William a Kate
Windows
YouTube a
Karel Kryl
Základ poznání
Zázvor
Zdraví
Zdraví a pohyb
Zelené
Zelený Raoul Night Late Show
Zelí
Zemanta
Zlato
Změny počasí
Zvěřina
Žena je původce činu
Židovské
Život na dlani
Vybraný příspěvek
Dobrý vtip!
Benátky ZÁSTUPKYNĚ. Otec s matkou neviděli svojí dceru téměř dva roky. Potom jí navštívili v Brně v jej krásném novém bytě. Matka žasla...