zipfův Zákon

zipfův Zákon je statistické rozdělení v určitých datových sad, jako jsou slova v jazykovém korpusu, ve kterém je frekvence některých slov je nepřímo úměrná jejich hodnosti. Pojmenovaný pro lingvista George Kingsley Zipf, který kolem roku 1935 byla první upozornil na tento jev, zákon zkoumá frekvenci slov v přirozeném jazyce a jak to je nejčastější slovo se vyskytuje dvakrát častěji jako druhé nejčastější slovo, třikrát tak často, jak je následné slovo, a tak dále až nejméně časté slovo. Slovo v pozici n se objevuje 1 / n krát tak často jako nejčastější.

když jsou slova seřazena podle jejich frekvencí v dostatečně velké sbírce textů a poté je frekvence vynesena proti hodnosti, výsledkem je logaritmická křivka. (Nebo pokud grafujete na stupnici protokolu, výsledkem je přímka.)

nejběžnějším slovem v angličtině Je „the“, které se v typickém textu objevuje asi desetinu času; dalším nejběžnějším slovem (rank 2) Je „of“, které se objevuje asi dvacátinu času. V tomto typu distribuce, frekvence prudce klesá jako rank počet se zvyšuje, takže malý počet položek, se objevují velmi často, a velké množství se vyskytují zřídka.

zipfian distribuce slov je univerzální v přirozeném jazyce: lze ji nalézt v řeči dětí mladších 32 měsíců, stejně jako ve specializované slovní zásobě univerzitních učebnic. Studie ukazují, že tento jev platí také téměř ve všech jazycích.

jednotlivě, ani syntaxe ani sémantika nestačí k vyvolání zipfian distribuce sama o sobě. Syntaxe a sémantika však pracují společně pro zipfianovu distribuci.

teprve nedávno byl zákon Zipf přísně testován na databázích dostatečně velkých, aby byla zajištěna statistická platnost. Výzkumníci z Centre de Recerca Matematica, část Vlády Katalánska CERCA sítě, které jsou připojené k Universitat Autonoma de Barcelona Katedra Matematiky, analyzovali kompletní sbírku anglicky psaných textů v Projektu Gutenberg, zdarma databáze s více než 30 000 děl. Když byla vynechána nejvzácnější slova, Zipfův zákon se vztahoval na více než polovinu slov.

zákon lze aplikovat i na jiné obory než literaturu. Distribuce Zipfian byly nalezeny v populačních řadách měst v různých zemích, velikosti společností, žebříčky příjmů a řady počtu lidí sledujících stejný televizní kanál.

Related Posts

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *