О корпусе
Корпус организован для достижения двух целей. Первое — создание корпуса чувашского языка; второе — подготовка чувашско-русских параллельных текстов.
Двуязычный корпус чувашского языка начал свою работу в 2016 году. Корпус считается частью «Лаборатории чувашского языка» и осуществляет поставленные ею цели.
«Лаборатория чувашского языка» — проект, созданный и развиваемый по инициативе активистов и поддерживаемый на их средства. Его целью является внедрение чувашского языка в околокомпьютерную сферу. Он не относится ни к какому институту или организации, не получает денег от государства.
Структура корпуса
Структура корпуса: тексты — предложения — слова.
Тексты разбиты по их типам (публицистика, научные статьи, проза, поэзия, законы и т.д.), а также по тематикам (культура, вооруженные силы, сельское хозяйство, техника и т.д.). Также у текстов указаны авторы и их источники.
Корпус умеет выделять корни слов — данный функционал реализован с помощью словаря Hunspell.
Предупреждение: в текстах корпуса могут быть ошибки типа опечаток.
Использование корпуса
На данный момент использование корпуса — бесплатное. Хотя поиск на данное время и выполнен в простом исполнении вы можете найти то или иное слово в текстах, их использование, а также частотность употребления слов в текстах.
Если есть необходимость в более сложных запросах, необходимо обратиться к разработчикам корпуса (по адресу np@chuvash.org).
Над корпусом работают
• Николай (Аҫтахар) Плотников — руководитель, программист и сопровождающий сайт корпуса.
• Александр Антонов — программист, специалист по машинному переводу.
Обработчики текстов: Эрбина Портнова, Марина Яковлева, Светлана Трофимова, Оксана Антонова и другие.
Кто и в каком количестве помог корпусу в плане пополнения, вы можете увидеть в разделе сайта «Пользователи».
Помощь
В той или иной степени корпусу помогли:
• объединение «Хавал»;
• Чувашский государственный институт гуманитарных наук;
• Национальная библиотека Чувашской Республики;
• Институт образования Чувашской Республики;
• а также отдельные люди.