Zipfの法則

Zipfの法則は、特定の単語の頻度がそのランクに反比例する言語コーパス内の単語など、特定のデータセットにおける統計的分布です。 1935年頃にこの現象に最初に注目した言語学者ジョージ-キングスリー-ジップフにちなんで名付けられた法律は、自然言語における単語の頻度と、最も一般的な単語が第二の最も頻繁な単語の二倍、次の単語の三倍の頻度で発生する方法を調べ、最も頻度の低い単語まで調べた。 位置nの単語は、最も頻繁な単語と同じくらい頻繁に1/n回表示されます。

単語がテキストの十分な大きさのコレクションでその頻度に従ってランク付けされ、その後、頻度がランクに対してプロットされると、結果は対 (または、対数スケールでグラフ化すると、結果は直線になります。)

英語で最も一般的な単語は、典型的なテキストの時間の約十分の一に表示される”the”であり、次の最も一般的な単語(ランク2)は、時間の約二十分の一に表示される”of”である。 このタイプの分布では、ランク数が増加するにつれて頻度が急激に低下するため、少数のアイテムが非常に頻繁に出現し、多数が発生することはほと

単語のジップフィアン分布は、自然言語で普遍的です:それは32ヶ月未満の子供のスピーチだけでなく、大学の教科書の専門的な語彙で見つけることが 研究によると、この現象はほぼすべての言語にも当てはまることが示されています。

個別に、構文も意味論も、それ自体でZipfian分布を誘導するのに十分ではありません。 ただし、構文とセマンティクスは、Zipfian分布では一緒に機能します。

最近、Zipfの法則は、統計的妥当性を保証するのに十分な大きさのデータベースで厳密にテストされています。 カタルーニャ州のCercaネットワークの一部であるCentre de Recerca Matematicaの研究者は、バルセロナ大学の数学部門に所属しており、30,000以上の作品を含む無料のデータベースであるProject Gutenbergの英語テキストの完全なコレクションを分析した。 最も希少な言葉が除外されたとき、Zipfの法則は言葉の半分以上に適用されました。法律は、文学以外の分野に適用することができます。

法律は、文学以外の分野に適用することができます。 Zipfian分布は、さまざまな国の都市の人口ランク、企業規模、収入ランキング、同じテレビチャンネルを見ている人の数のランクで発見されています。

Related Posts

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です