• 8213
  • 16
  • 2
Нравится блог?
Подписывайтесь!

Как мы делали анализ наиболее часто употребимых казахских слов и что из этого получилось.

Привет друзья! Сразу же скажем, что все кто думает что это глагол жату или существительное адам – все они заблуждаются. Ничего подобного. Чтобы сэкономить ваше время на чтение этого поста скажем что, сегодня мы раскроем список с 91 по 100 слово и каждый день будем раскрывать по 10 слов в нашем твиттер аккаунте @uchimkz. Подписывайтесь и скоро узнаете первую десятку!

Ну а если вам интересно как мы это сделали, то милости просим, читайте наш пост – будет интересно. Обещаем! Тем более, что до нас такой попытки еще никто не делал.

 

Итак, если погуглить, то можно найти список наиболее часто употребимых английских слов или французских, или немецких, или русских.

Наиболее частые слова английского языка:

1. the

2. and

3. I

4. to

 

Но все попытки найти такой же список на казахском языке приведут лишь к рассуждениям, спорам и предположениям. Мы же сделали работу которая могла бы стать основой для кандидатской диссертации J.

Для начала, необходимо найти источник в котором можно было бы найти тексты, охватывающие как можно более разные стороны и аспекты использования языка. К сожалению, ничего подобного British National Corpus (BNC) в Казахстане нет. В этом махине содержится почти 100 миллионов разговорных и письменных слов английского языка, в различного рода текстах – от классической литературы, до указов королей, газетных статей, деловых писем и прочего.

Поэтому нам пришлось импровизировать – для учета всех возможных слов, мы взяли свыше 100 доступных в пдф-формате книг на казахском языке (от классики Абая до современных переводов). Далее:

  1. Подсчет слов. Мы написали специальную программу для подсчета и распределения частоты использования слов. Господин Adam Kilgarriff поделился частотным списком слов английского языка вот здесь. Thank you very much Adam!
  2. Производные формы слов. Казахский язык является агглютинативным, все формы слов образуются путем прибавления окончаний. Перед тем как начать считать сколько раз встречается то или иное слово, его надо привести к исходной форме, в которой оно встречается в словаре, например балалар -> бала. Для этого мы разработали специальный алгоритм лемматизации (что это?), который умеет последовательно отрезать окончания, которых может быть несколько, и приводить слово к  его исходному виду.
  3. Чистка. Все имена, названия мест  и прочие не считались.
  4. Подсчет. Полученный результат был отранжирован по частоте использования.

Критики могут сказать, что мы не учитываем всех возможных источников использования языка, особенно разговорного. Вполне возможно такой аргумент имеет место быть, но вряд ли такая критика правомерна в отношении самых распространенных слов и закон Ципфа тому подтверждение.

Как это применимо в обычной жизни?

Очень просто. Частотный список казахских слов должен помочь всем изучающим язык. Тк теперь не нужно будет долбить все слова подряд, а спокойно изучать самые употребимые слова языка. Ведь для того, чтобы вас поняли на любом языке мира нужно знать около 500-600 слов, а для в нормальной разговорной речи хватит 2500-3000.

Основываясь на этом списке мы создали словарь из 20000 слов и решили помочь всем кто желает учить язык, запустив проект http://www.uchim.kz

Тестируйте свой словарный запас и регистрируйтесь! В следующий раз мы расскажем, как создавался адаптивный тест и игры.

Ах да, вот список с 91 по 100 наиболее частых слов:

91. жақсы хороший

92. жүз     сто

93. қара    черный

94. сұрау   спросить

95. ат        лошадь

96. тастау  бросать

97. басу     давить

98. жас      молодой

99. өту       проходить

100. ең      самый

 

Подписывайтесь на нас в ТвиттереФейсбуке и ВКонтакте.

UchimKZ
Мы поможем вам учить слова!
7 ноября 2013, 16:26
12135

Загрузка...
Loading...

Комментарии

Комментарий удалён администрацией
Комментарий удалён администрацией
izzya
2
0
//Мы же сделали работу которая могла бы стать основой для кандидатской диссертации J
А для докторской топ наиболее употребляемых букв будете подсчитывать?
Какой во всей это работе практический смысл?
Esli delo tak daleko poidet to mozhite eshe Penn Tree Bank dlya kazakh svoi sdelat' =) A tak xoroshee nachinanei! Udachi!
а где наборы слов, чтобы учить например 100 самых базовых и т.п.? где курсы типа www.memrise.com
akma81
0
4
неплохой проект для начинающих изучать казахский язык, рақмет.
Может, лучше создать бесплатный ресурс для скачивания книг на казахском? Они в интернете встречаются редко, а если есть, то только для продвинутого уровня.
akma81
0
4
таких ресурсов разве нет? Для начинающих литературный казахский будет трудноват. Надо начинать с самого простого, а затем по нарастающей.
Нет, есть только порядка 6 книг, вроде "Кочевников" Есенберлина. Да не для начинающих, а для тех, кто вроде владеет, но не совсем. Книг на английском пруд-пруди. где угодно можно скачать, причем для каждого уровня, есть адаптированные, а есть в оригинале. А вот на казахском - ноль.
Для того, чтобы создать такой ресурс необходимы адаптированные книги. Это уже вопрос к министерство культуры. Мы же можем только посоветовать учить слова :)
Lucia
0
0
спасибо! нужно!
Слово "Ат" не для повседневного использование.
Лошадей повседневно использовали только в качевой эпохе.

Оставьте свой комментарий

Спасибо за открытие блога в Yvision.kz! Чтобы убедиться в отсутствии спама, все комментарии новых пользователей проходят премодерацию. Соблюдение правил нашей блог-платформы ускорит ваш переход в категорию надежных пользователей, не нуждающихся в премодерации. Обязательно прочтите наши правила по указанной ссылке: Правила

Также можно нажать Ctrl+Enter

Популярные посты

Инструкция для аллергиков. Как бороться с аллергией в период обострения

Инструкция для аллергиков. Как бороться с аллергией в период обострения

Я аллергик с детства. Имею аллергию на пыльцу березы, липы, полыни (выяснил это благодаря кожным пробам), а также пищевую аллергию на горчицу. Свои проблемы знаю, однако это меня не спасло.
Romeo_17
15 авг. 2017 / 17:21
  • 38763
  • 63
СМИ – ассистент провокаторов? Как гости из соседних стран сеют раздор в Казахстане

СМИ – ассистент провокаторов? Как гости из соседних стран сеют раздор в Казахстане

Инцидент с пьяным киргизским гостем на борту Air Astana, наверное, остался бы только во внутренних сводках авиакомпании, если бы г-н Доган, не поднял громкий крик о государственном языке.
openqazaqstan
17 авг. 2017 / 14:43
  • 10954
  • 174
Казахский национализм раньше выглядел несовременно. Теперь он другой

Казахский национализм раньше выглядел несовременно. Теперь он другой

Националисты стали совсем другими. По-английски хорошо говорят, русскую классику цитируют. Очень современные, образованные, адекватные. А после Крыма в националисты уже чуть ли не любой казах готов был записаться.
Aidan_Karibzhanov
16 авг. 2017 / 16:52
Имеющий уши да услышит. Латиница касается только казахского языка

Имеющий уши да услышит. Латиница касается только казахского языка

Президент Назарбаев наконец-то разъяснил для всех, кто ещё не понял, очевидный вопрос, который всем в Казахстане очевиден. Елбасы повторил: на латиницу мы переводим казахский язык, и это не означает отказ от русского языка.
openqazaqstan
18 авг. 2017 / 16:23
  • 2900
  • 49
«Доехать до Алтын Орды» – как мошенники обманывают алматинцев

«Доехать до Алтын Орды» – как мошенники обманывают алматинцев

Из множества грустных откровений постепенно сложился перечень самых распространённых уловок охотников за нашими деньгами. В нём ожидаемо лидировали профессиональные попрошайки.
caravan_kz
16 авг. 2017 / 15:05
  • 2084
  • 2
В Кокшетау строят два парка для молодёжи. Будут учтены интересы и любителей спорта

В Кокшетау строят два парка для молодёжи. Будут учтены интересы и любителей спорта

Общая площадь парка составляет 25 гектаров. На территории предусмотрено устройство прогулочных дорожек, площадок для установки аттракционов и павильонов различного назначения, цветников.
zhasakmola
17 авг. 2017 / 17:13
  • 1953
  • 1
Недоразумение с грантами в ВУЗы: «медалисты» до сих пор имеют преимущество

Недоразумение с грантами в ВУЗы: «медалисты» до сих пор имеют преимущество

Многие способные выпускники без Алтын Белги готовились к тестированию, чтобы в честной борьбе попытать счастья на гранты без ущемления со стороны якобы "золотых" выпускников.
DanaJarlygapova
14 авг. 2017 / 14:35
Новый конкурс на грантовое финансирование – разочарование для казахстанских ученых

Новый конкурс на грантовое финансирование – разочарование для казахстанских ученых

Обсуждение новых условий началось ещё давно, но стоит ли ожидать качественного улучшения результатов научно-исследовательской деятельности, если система управления наукой не была модернизирована?
ermekuss
17 авг. 2017 / 12:23
  • 1771
  • 1
Надо научиться видеть скрытые экономические процессы за вспышкой национального гнева

Надо научиться видеть скрытые экономические процессы за вспышкой национального гнева

При полном отсутствии бюджетного жилищного строительства, целые аулы оседают в ветхих домишках, сквозь заборы которых насмешливо возвышаются башни "коктемов", "риц карлтонов" и "есентаев".
niyazov
вчера / 11:16
  • 1678
  • 51