Корпус чувашского языка

О корпусе

Корпус организован для достижения двух целей. Первое — создание корпуса чувашского языка; второе — подготовка чувашско-русских параллельных текстов.

Двуязычный корпус чувашского языка начал свою работу в 2016 году. Корпус считается частью «Лаборатории чувашского языка» и осуществляет поставленные ею цели.

«Лаборатория чувашского языка» — проект, созданный и развиваемый по инициативе активистов и поддерживаемый на их средства. Его целью является внедрение чувашского языка в околокомпьютерную сферу. Он не относится ни к какому институту или организации, не получает денег от государства.

Структура корпуса

Структура корпуса: тексты — предложения — слова.

Тексты разбиты по их типам (публицистика, научные статьи, проза, поэзия, законы и т.д.), а также по тематикам (культура, вооруженные силы, сельское хозяйство, техника и т.д.). Также у текстов указаны авторы и их источники.

Корпус умеет выделять корни слов — данный функционал реализован с помощью словаря Hunspell.

Предупреждение: в текстах корпуса могут быть ошибки типа опечаток.

Использование корпуса

На данный момент использование корпуса — бесплатное. Хотя поиск на данное время и выполнен в простом исполнении вы можете найти то или иное слово в текстах, их использование, а также частотность употребления слов в текстах.

Если есть необходимость в более сложных запросах, необходимо обратиться к разработчикам корпуса (по адресу corpus@chuvash.org).

Над корпусом работают

Николай (Аҫтахар) Плотников — руководитель, программист и сопровождающий сайт корпуса.

Александр Антонов — программист, специалист по машинному переводу.

Обработчики текстов: Эрбина Портнова, Марина Яковлева, Светлана Трофимова, Оксана Антонова и другие.

Кто и в каком количестве помог корпусу в плане пополнения, вы можете увидеть в разделе сайта «Пользователи».

Помощь

В той или иной степени корпусу помогли:

• объединение «Хавал»;

• Чувашский государственный институт гуманитарных наук;

• Национальная библиотека Чувашской Республики;

• Институт образования Чувашской Республики;

• а также отдельные люди.

Сайт:

 

Статистика

...подробней