Математики нашли способ определить изменения в языке

математики

Ученые-математики обратили внимание, что язык, которым написаны книги Чарльза Диккенса значительно отличается от того, которым говорят герои Стивена Кинга. Как сказано в статье, опубликованной в издании Physical Review X, специалисты попытались измерить те изменения, которые происходят с языком со временем. Для этого они использовали математический подход и данные сервиса Google Ngram, который анализирует книги из базы Google Books.

Сначала эксперты должны были выбрать  –каким именно способом сравнивать тексты, особенно в таком большом объеме. У них было два варианта. Подсчитать количество слов, которые есть в одном произведении и отсутствуют в другом. Или же выяснить, как часто используются конкретные слова. Эксперты выбрали второй метод и проанализировали произведения на английском языке, которые были опубликованы в 1850, 1900 и 1950 гг.

При этом аналитики применили модицицированную математическую функцию – расстояние Йенсена — Шеннона, которая позволяет находить сходства и различия в наборе символов. В результате, специалисты совершили прорыв в этой области и выяснили, что тексты разных периодов отличаются большего всего редко используемыми словами. Что касается часто используемых слов, то во всех текстах их примерно одинаковое количество. Ученые пока проверили только английский язык, но убеждены, что аналогичный принцип действует и в отношении русского и испанского языков.

Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *