12.7.07

WordCount

 

Хочу обратить внимание посетителей блога на очень любопытный лингвистический интернет-ресурс. Это проект  WordCount  www.wordcount.org, который ведет подсчет частоты использования слов в английском языке. Делает он это с помощью Британского Национального корпуса -- огромного собрания текстов объемом в более чем 100 миллионов слов, отображающих язык во всем многообразии стилей, жанров, территориальных и социальных вариантов, и т.п.  Кстати, именно этот принцип частотности употребительности слов используется в моей самом известном учебном словаре "2000 наиболее употребительных слов английского языка". Правда, в моем словаре используется словник (список слов), который в 1953 году вручную составил для своей диссертации Майкл Уэст (Michael West), сотрудничавший с фондом Карнеги. В дальнейшем этот словник из самых употребительных 2000 слов был перепроверен с помощью компьютеров и теперь используется в толковых словарях издательства Longman и других зарубежных издательств для описания всех остальных английских слов.

Но вернемся к WordCount. Как работает эта симпатичная программа? Она анализирует этот словесный массив и выбирает слова, которые встречаются в нем, по меньшей мере, дважды и расставляет их по порядку, в зависимости от того, насколько часто их употребляют. В результате образовалась "очередь" более чем из 86 000 слов. Чем популярнее слово, тем крупнее шрифт используется для его написания и эта визуализация очень наглядна. Однако, если забраться дальше первой двадцатки слов, все разница в частотности снижается и слова будут одинаковыми по размеру.

Разумеется, вне конкуренции слово the, да и вообще артикли, предлоги, частицы и союзы. Они прочно обосновались в голове этого длинного списка. Кстати, артикли настолько важная часть речи в английском языке, что три артикля the, a и an в сумме составляют 10% всех словоупотреблений. То есть каждое десятое слов в английском тексте -- это артикль! Первое существительное, которое встречается в списке WordCount, -- слово time, которое стоит на 66 месте. 

Подобных этому открытий любопытный пользователь WordCount сделает множество, тем более, что программа предоставляет для этого отличные возможности. Например, можно просто пролистывать весь список вперед по одному слову, и при необходимости возвращаться назад. А можно просто посмотреть на какой позиции находится то или иное слово, или наоборот, посмотреть, что за слово стоит под каким-либо номером. Последним в этой "очереди" оказалось слово conquistador. Однако стоит отметить, что все же конкретный номер употребимости того или иного слова в большой степени зависит от качества массива, то есть от словесной базы данных. Даже огромный массив, состоящий из академических текстов или тщательно отредактированных произведений художественной литературы, наверняка создаст серьезный перекос, заметно снижающий употребимость самой популярной разговорной лексики. Например, не надо быть большим ученым, чтобы "невооруженным глазом" заметить простую истину: в голливудских фильмах слова fucking (3048), shit (4499), fuck (5598) или ass (15036) встречаются определенно намного чаще, чем то скромное место (указанное в скобках), которое им отводит политкорректный WordCount.

Впрочем, не стоит злословить. Проект все равно очень интересный. В будущем авторы проекта планируют переориентировать его с травоядного Британского Национального корпуса на работу с любым текстом, сайтом и, в конечном счете, с интернетом в целом. Тут уж статистика реальной употребительности английских слов наверняка будет не столь беззубой.

Хочу обратить внимание посетителей блога на очень любопытный лингвистический интернет-ресурс. Это проект  WordCount  www.wordcount.org, который ведет подсчет частоты использования слов в английском языке. Делает он это с помощью Британского Национального корпуса -- огромного собрания текстов объемом в более чем 100 миллионов слов, отображающих язык во всем многообразии стилей, жанров, территориальных и социальных вариантов, и т.п.  Кстати, именно этот принцип частотности употребительности слов используется в моей самом известном учебном словаре "2000 наиболее употребительных слов английского языка". Правда, в моем словаре используется словник (список слов), который в 1953 году вручную составил для своей диссертации Майкл Уэст (Michael West), сотрудничавший с фондом Карнеги. В дальнейшем этот словник из самых употребительных 2000 слов был перепроверен с помощью компьютеров и теперь используется в толковых словарях издательства Longman и других зарубежных издательств для описания всех остальных английских слов.

Но вернемся к WordCount. Как работает эта симпатичная программа? Она анализирует этот словесный массив и выбирает слова, которые встречаются в нем, по меньшей мере, дважды и расставляет их по порядку, в зависимости от того, насколько часто их употребляют. В результате образовалась "очередь" более чем из 86 000 слов. Чем популярнее слово, тем крупнее шрифт используется для его написания и эта визуализация очень наглядна. Однако, если забраться дальше первой двадцатки слов, все разница в частотности снижается и слова будут одинаковыми по размеру.

Разумеется, вне конкуренции слово the, да и вообще артикли, предлоги, частицы и союзы. Они прочно обосновались в голове этого длинного списка. Кстати, артикли настолько важная часть речи в английском языке, что три артикля the, a и an в сумме составляют 10% всех словоупотреблений. То есть каждое десятое слов в английском тексте -- это артикль! Первое существительное, которое встречается в списке WordCount, -- слово time, которое стоит на 66 месте. 

Подобных этому открытий любопытный пользователь WordCount сделает множество, тем более, что программа предоставляет для этого отличные возможности. Например, можно просто пролистывать весь список вперед по одному слову, и при необходимости возвращаться назад. А можно просто посмотреть на какой позиции находится то или иное слово, или наоборот, посмотреть, что за слово стоит под каким-либо номером. Последним в этой "очереди" оказалось слово conquistador. Однако стоит отметить, что все же конкретный номер употребимости того или иного слова в большой степени зависит от качества массива, то есть от словесной базы данных. Даже огромный массив, состоящий из академических текстов или тщательно отредактированных произведений художественной литературы, наверняка создаст серьезный перекос, заметно снижающий употребимость самой популярной разговорной лексики. Например, не надо быть большим ученым, чтобы "невооруженным глазом" заметить простую истину: в голливудских фильмах слова fucking (3048), shit (4499), fuck (5598) или ass (15036) встречаются определенно намного чаще, чем то скромное место (указанное в скобках), которое им отводит политкорректный WordCount.

Впрочем, не стоит злословить. Проект все равно очень интересный. В будущем авторы проекта планируют переориентировать его с травоядного Британского Национального корпуса на работу с любым текстом, сайтом и, в конечном счете, с интернетом в целом. Тут уж статистика реальной употребительности английских слов наверняка будет не столь беззубой.

Комментариев нет: