GOOGLE vyhledávání a jeho funkce


Co je GOOGLE a jak pracuje...?
Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.

Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).
Vyhledávání na GoogleOhodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.
Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.
Zdroje příjmů GooglePopularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).
Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.
Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.
Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)
Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.
URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.
Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).
Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.

Zdroj: český internet informace o Google

Oblíbené příspěvky

MENU:

1968 Accordeon Afrika Agáta Agrese Aktualne Aktuální info Alphaville Amerika AMICUS RES Amy McDonald Andrea Bocelli Android Anna Kurnikova Anna Netrebko Atavismus Automobily Autosalon Ave Maria Až na dno Básník zpěvák a genius doby Beatles Bez černý Blondie Bolesti v zádech Bon Jovi Bonnie Tyler Botnet Bubáci Bylinky Celtic Woman Cestování. Moře CICERO Cicero O stáří CZportal Čas pomoci Čas říci sbohem český folklor a tance Člověk a Nemoc Debaty a názory Déjá vu Dengue Dívka u řeky Dobro a zlo Dobromysl obecná Dobrý vtip Domov Dragoon Ride Duše Dvořák Ekologie Eliška Kaplicky Fuchsová Emoce a úžas Eric Clapton Erin Mc Carley Etické a humánní principy Etické principy Evergreen Evropská Unie Facebook Falcon Fejeton Forever Young Fotografie Gigliola Cinquetti Gigliola Cinquetti - Non ho l'età in 1964 with 16 years old. Google Groupthink Historical music Historie Hity Hlad Hlaváček jarní Hledání na internetu Holy Night Houby Humor Humor a vtipy Hybridní pohon Chaloupky Christina Aquilera Immanuel Kant Imunita kojení a spánek Indiánský systém Internet Internet a Google Chrome Internetové smetiště internetové úložiště Introvert Írán Iveta Bartošová J. F. Kennedy Jak na to Jak se loví jeleni Janine Jansen Japonsko Jaro Jaterní poruchy a životospráva Kámen Kanada Karel Kryl Kariera Kaštany Káva kávovar Kočičí dráp Kočka domácí Kočky Sobě Kodex komentáře úvahy Komunitní sítě Koně Korsika Král komiků Královská svatba Krásná dudačka Krásné ženy Kritika Krokonoše Kryl Zapření Petrovo Kultura Květy Kytara Láska Laughing babies [HQ] Léčivé rostliny Ledviny Legendy taneční hudby Lékař Lékař a bylinky Lékaři Letadla Lita Ford Loreen Majdan Máma Marie Rottrová Markéta Hejná Markéta Šichtařová Marlene Dietrich Marta Kubišová Medicina Megan Fox Melody Boys Měsíční svit Mince Mireille Mathieu Miss cizinka Mobbing Momentky a cesty Monitorovací přístroje Moře Motivace Motory Moudro Můj pohled na svět Mustafa Kemal Atatürk Muži Myslivost Na tom pražském mostě nedávejte srdce Negativní emoce Nemoci lidské nesvěřujte se News Nordic walking Noreply O dobrodiních O Evě a Adamovi O stáří O stupiditě Occamova Břitva Oregano Paměť Panorama hor Peníze Perská kočka Pes velký švýcarský Petrova Bouda Pie Jesu Pirati.cz Pirátství Pitná voda a jiné nápoje Počasí Podnikání Pohádka lásky Pohádky a my Policie Pomlázka Portal Poruchy osobnosti Práce práci Prevence Prostata Přátelství Předjaří Příroda Přítel Psychopatie Queen R.A.Dvorský Radujme se Radůza Rady a tipy Recepty a rady Recepty k vaření Relax Renault Report Rock Rodina Rostliny Rostou Roxette Rusko Rušičky Rychlá péče RZP Řecko Santorini Sarah Brightman Sdílení Sellier&Bellot Sen Seneca Seneca Lucius Annaeus Senioři Sestry Allanovy Skupinová hloupost Skutečné příběhy Smartphone Smích a úsměv Snář o koních Sociální příčiny irracionality Sociální sítě Sokol Spam Spotřebitelské chování Srdce ze skla Stáří Strach Stres Střelný prach Svoboda Svobodní koně Symphony no. 9 Syrie Štěstí získává přátele Tanky a Ukrajina Tenkrát na Východě Terorismus Terra incognita The Beach Boys The Rubettes Time in The West Tipy a návody Toyota Trubači Trubka v hudbě Události na internetu Události ve světě Ukrajina USA Úvahy Úvod Uzené Uzení naloženého masa Úzkost Válka Vánoce Věda Věda a svět Vědomí a podvědomí Velikonoce Verše Videa Vilacora Violin Concerto Víra Vladimír Páral Vlasta Burian Vlaštovičník větší Volby Volkswagen Výzbroj WC STORY WCstory When I Fall In Love William a Kate Základ poznání Zázvor Zdraví Zdraví a pohyb Zelené Zelený Raoul Night Late Show Zemanta Zlato Změny počasí Žáby Žena je původce činu Židovské Život na dlani

Vybraný příspěvek

Dobrý vtip!

Benátky ZÁSTUPKYNĚ. Otec s matkou neviděli svojí dceru téměř dva roky. Potom jí navštívili v Brně v jej krásném novém bytě.  Matka žasla...

Related Posts Plugin for WordPress, Blogger...