Закон Ципфа, или закон Ципфа-Мандельброта, является эмпирическим законом, описывающим статистическую зависимость между рангом и частотой появления слов (или других элементов) в больших текстовых корпусах.
Согласно Закону Ципфа, если отсортировать слова в тексте по их частоте встречаемости, то частота n-го слова будет обратно пропорциональна его рангу. Иными словами, наиболее часто встречающееся слово в тексте будет встречаться в n раз чаще, чем слово, занимающее n-е место по частоте.
Закон Ципфа формализуется следующей формулой:
f = k/r,
где f - частота появления слова, r - его ранг (порядковый номер), а k - некоторая постоянная.
Закон Ципфа применим не только к текстам, но и к различным другим явлениям, таким как распределение частоты использования городов, размеров населения, частоты использования слов в языке и др.
Закон Ципфа имеет важные практические применения в области обработки естественного языка и информационного поиска. Например, он используется для построения ранжирования результатов поиска, анализа текстовых данных, составления словарей и прогнозирования поведения пользователей в интернете.
Важно отметить, что Закон Ципфа является эмпирическим наблюдением и не имеет строгих теоретических обоснований. Его название происходит от имени американского лингвиста Джорджа Ципфа, который первым обнаружил и описал этот закон в 1949 году.