Yvision.kz
kk
Разное
Разное
399 773 постов42 подписчика
Всяко-разно
8
04:26, 07 ноября 2013

Как мы делали анализ наиболее часто употребимых казахских слов и что из этого получилось.

Привет друзья! Сразу же скажем, что все кто думает что это глагол жату или существительное адам – все они заблуждаются. Ничего подобного. Чтобы сэкономить ваше время на чтение этого поста скажем что, сегодня мы раскроем список с 91 по 100 слово и каждый день будем раскрывать по 10 слов в нашем твиттер аккаунте @uchimkz. Подписывайтесь и скоро узнаете первую десятку!

Ну а если вам интересно как мы это сделали, то милости просим, читайте наш пост – будет интересно. Обещаем! Тем более, что до нас такой попытки еще никто не делал.

 

Итак, если погуглить, то можно найти список наиболее часто употребимых английских слов или французских, или немецких, или русских.

Наиболее частые слова английского языка:

1. the

2. and

3. I

4. to

 

Но все попытки найти такой же список на казахском языке приведут лишь к рассуждениям, спорам и предположениям. Мы же сделали работу которая могла бы стать основой для кандидатской диссертации J.

Для начала, необходимо найти источник в котором можно было бы найти тексты, охватывающие как можно более разные стороны и аспекты использования языка. К сожалению, ничего подобного British National Corpus (BNC) в Казахстане нет. В этом махине содержится почти 100 миллионов разговорных и письменных слов английского языка, в различного рода текстах – от классической литературы, до указов королей, газетных статей, деловых писем и прочего.

Поэтому нам пришлось импровизировать – для учета всех возможных слов, мы взяли свыше 100 доступных в пдф-формате книг на казахском языке (от классики Абая до современных переводов). Далее:

  1. Подсчет слов. Мы написали специальную программу для подсчета и распределения частоты использования слов. Господин Adam Kilgarriff поделился частотным списком слов английского языка вот здесь. Thank you very much Adam!
  2. Производные формы слов. Казахский язык является агглютинативным, все формы слов образуются путем прибавления окончаний. Перед тем как начать считать сколько раз встречается то или иное слово, его надо привести к исходной форме, в которой оно встречается в словаре, например балалар -> бала. Для этого мы разработали специальный алгоритм лемматизации (что это?), который умеет последовательно отрезать окончания, которых может быть несколько, и приводить слово к  его исходному виду.
  3. Чистка. Все имена, названия мест  и прочие не считались.
  4. Подсчет. Полученный результат был отранжирован по частоте использования.

Критики могут сказать, что мы не учитываем всех возможных источников использования языка, особенно разговорного. Вполне возможно такой аргумент имеет место быть, но вряд ли такая критика правомерна в отношении самых распространенных слов и закон Ципфа тому подтверждение.

Как это применимо в обычной жизни?

Очень просто. Частотный список казахских слов должен помочь всем изучающим язык. Тк теперь не нужно будет долбить все слова подряд, а спокойно изучать самые употребимые слова языка. Ведь для того, чтобы вас поняли на любом языке мира нужно знать около 500-600 слов, а для в нормальной разговорной речи хватит 2500-3000.

Основываясь на этом списке мы создали словарь из 20000 слов и решили помочь всем кто желает учить язык, запустив проект http://www.uchim.kz

Тестируйте свой словарный запас и регистрируйтесь! В следующий раз мы расскажем, как создавался адаптивный тест и игры.

Ах да, вот список с 91 по 100 наиболее частых слов:

91. жақсы хороший

92. жүз     сто

93. қара    черный

94. сұрау   спросить

95. ат        лошадь

96. тастау  бросать

97. басу     давить

98. жас      молодой

99. өту       проходить

100. ең      самый

 

Подписывайтесь на нас в ТвиттереФейсбуке и ВКонтакте.

8