이는 zipf 의 법

이는 zipf 의 법칙이 통계적 분포에 특정 데이터 세트와 같은 단어에서 언어의 모음에서는 주파수의 특정 단어를 반비례하여 그들의합니다. 명한 언어학자 조지 Kingsley 이는 zipf,주변 사람 1935 년 첫 번째 관심을 끌기 위해 이러한 현상이 법을 검사하의 주파수는 단어에서는 자연적인 언어 및 방법을 가장 일반적인 단어가 두 번 발생으로 자주의 두 번째 가장 흔한 단어,주의 이후의 말씀을 때까지도 자주 단어입니다. 위치 n 의 단어는 가장 빈번한 단어만큼 자주 1/n 번 나타납니다.

단어 순위에 따라 자신의 주파수에서 충분히 큰 컬렉션의 텍스트와 다음 주파수가 표시에 대하여 순위,결과는 로그 곡선입니다. (또는 로그 스케일에 그래프로 표시하면 결과는 직선입니다.)

가장 일반적인 영어 단어입니다”,”나타나는 한의 십분의 시간에서는 전형적인 텍스트,그 다음 가장 일반적인 단어(rank2)의”,”나타나는 대나무의 시간입니다. 이 형식의 배포,주파수가 급격히 감소로 순위 숫자 증가,그래서 작은 항목의 수를 나타나는 매우 자주,많은 거의 발생하지 않습니다.

A Zipfian 분포의 말이 보편적인에 자연 언어:그것에 발견될 수 있는 연설에서의 미만의 어린이는 32 개월에서뿐만 아니라 전문의 어휘는 대학교 교과서입니다. 연구에 따르면이 현상은 거의 모든 언어에도 적용됩니다.

개별적으로 구문이나 의미론도 자체적으로 Zipfian 분포를 유도하기에 충분하지 않습니다. 그러나 구문과 의미론은 Zipfian 배포를 위해 함께 작동합니다.

는 최근에야 Zipf 의 법칙이 통계적 유효성을 보장하기에 충분히 큰 데이터베이스에서 엄격하게 테스트되었습니다. 연구진은 Centre de Recerca Matematica,정부의 일부 카탈로니아의 CERCA 네트워크에 연결된 Universitat Autonoma de Barcelona 부서의 수학을 분석,전체 컬렉션의 영어 텍스트에서 프로젝트 구텐베르크,무료 데이터베이스와 더 많은 30,000 개 이상의 작동합니다. 가장 희귀 한 단어가 빠져 나갔을 때,Zipf 의 법칙은 단어의 절반 이상에 적용되었습니다.

이 법은 문학 이외의 분야에 적용될 수 있습니다. Zipfian 배포판에서 발견되었다 인구의 대열 도시,여러 나라에서 기업 크기,소득 순위 계급의 사람들의 숫자와 동일하게 보는 TV 채널이 있습니다.

Related Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다