На этой странице собраны ссылки на корпуса уральских языков Поволжья и прилегающих к нему областей. Проект по их разработке не завершён, поэтому в настоящий момент доступны только корпуса удмуртского, эрзянского и мокшанского языков, однако вскоре к ним добавятся корпуса коми и марийских языков.
Представленные здесь языки являются «средними» по числу носителей, которых, в зависимости от языка, насчитывается от нескольких десятков тысяч до нескольких сотен тысяч. С одной стороны, это количество меньше, чем у крупных европейских уральских языков (венгерского, финского и эстонского); с другой стороны, на территории России существует немало уральских языков с существенно меньшим числом носителей (самодийские и прибалтийско-финские). «Средними» являются эти языки и по представленности в Интернете. Электронные периодические издания, блоги, страницы в соцсетях и т. п. существуют на каждом из них, но их общий объём на много порядков меньше, чем у венгерского, финского и эстонского.
Представленные здесь корпуса содержат в основном тексты, опубликованные в том или ином виде в Интернете. Для каждого языка представлено два корпуса: «основной корпус» и корпус соцсетей. Последний содержит открытые посты и комментарии из социальных сетей (на данный момент — только из Вконтакте) и, в некоторых случаях, из форумов. В «основной корпус» помещается всё остальное, включая газеты, блоги, художественную литературу, переводы Библии и некоторые статьи соответствующих разделов Википедии.
Более подробную информацию о содержании корпусов и их разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материалах этих корпусов:
Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова кошка перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
С ответами на некоторые другие частые вопросы Вы можете ознакомиться на страницах соответствующих корпусов.
Если у Вас есть вопросы или Вы хотели бы предложить сотрудничество, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению мои свободно распространяемые морфологические анализаторы для каждого из языков (см. ссылки на страницах корпусов) и корпусную платформу tsakorpus.
timarkh@gmail.com