Корпуса уральских языков Поволжья

На этой странице собраны ссылки на корпуса уральских языков Поволжья и прилегающих к нему областей. Проект по их разработке не завершён, поэтому в настоящий момент доступны только корпуса удмуртского, эрзянского и мокшанского языков, однако вскоре к ним добавятся корпуса коми и марийских языков.

Представленные здесь языки являются «средними» по числу носителей, которых, в зависимости от языка, насчитывается от нескольких десятков тысяч до нескольких сотен тысяч. С одной стороны, это количество меньше, чем у крупных европейских уральских языков (венгерского, финского и эстонского); с другой стороны, на территории России существует немало уральских языков с существенно меньшим числом носителей (самодийские и прибалтийско-финские). «Средними» являются эти языки и по представленности в Интернете. Электронные периодические издания, блоги, страницы в соцсетях и т. п. существуют на каждом из них, но их общий объём на много порядков меньше, чем у венгерского, финского и эстонского.

Представленные здесь корпуса содержат в основном тексты, опубликованные в том или ином виде в Интернете. Для каждого языка представлено два корпуса: «основной корпус» и корпус соцсетей. Последний содержит открытые посты и комментарии из социальных сетей (на данный момент — только из Вконтакте) и, в некоторых случаях, из форумов. В «основной корпус» помещается всё остальное, включая газеты, блоги, художественную литературу, переводы Библии и некоторые статьи соответствующих разделов Википедии.

Более подробную информацию о содержании корпусов и их разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материалах этих корпусов:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке .

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова кошка перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

С ответами на некоторые другие частые вопросы Вы можете ознакомиться на страницах соответствующих корпусов.

Корпуса уральских языков Поволжья

Что такое корпус?

Авторы

Контакты