Осн.: ??M

Соцсети: ??M

Осн.: 1,75M

Соцсети: 1,85M

Осн.: ??M

Соцсети: ??M

Осн.: 2,63M

Соцсети: 3,59M

Осн.: 1,75M

Соцсети: 0,014M

Осн.: 9,57M

Соцсети: 2,66M

Осн.: 2,3M

Соцсети: 0,83M

Корпуса уральских языков Поволжья

На этой странице собраны ссылки на корпуса уральских языков Поволжья и прилегающих к нему областей. Проект по их разработке не завершён, поэтому в настоящий момент доступны только корпуса удмуртского, эрзянского и мокшанского языков, однако вскоре к ним добавятся корпуса коми и марийских языков.

Представленные здесь языки являются «средними» по числу носителей, которых, в зависимости от языка, насчитывается от нескольких десятков тысяч до нескольких сотен тысяч. С одной стороны, это количество меньше, чем у крупных европейских уральских языков (венгерского, финского и эстонского); с другой стороны, на территории России существует немало уральских языков с существенно меньшим числом носителей (самодийские и прибалтийско-финские). «Средними» являются эти языки и по представленности в Интернете. Электронные периодические издания, блоги, страницы в соцсетях и т. п. существуют на каждом из них, но их общий объём на много порядков меньше, чем у венгерского, финского и эстонского.

Представленные здесь корпуса содержат в основном тексты, опубликованные в том или ином виде в Интернете. Для каждого языка представлено два корпуса: «основной корпус» и корпус соцсетей. Последний содержит открытые посты и комментарии из социальных сетей (на данный момент — только из Вконтакте) и, в некоторых случаях, из форумов. В «основной корпус» помещается всё остальное, включая газеты, блоги, художественную литературу, переводы Библии и некоторые статьи соответствующих разделов Википедии.

Более подробную информацию о содержании корпусов и их разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материалах этих корпусов:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова кошка перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

С ответами на некоторые другие частые вопросы Вы можете ознакомиться на страницах соответствующих корпусов.

Авторы

Всеми этапами разработки этих корпусов, за некоторыми исключениями, занимается Тимофей Архангельский (более подробная информация об авторах доступна на страницах корпусов). Все корпуса соцсетей, а также большинство остальных корпусов, были созданы им 2018–2019 годах в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Все представленные здесь корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Контакты


Если у Вас есть вопросы или Вы хотели бы предложить сотрудничество, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению мои свободно распространяемые морфологические анализаторы для каждого из языков (см. ссылки на страницах корпусов) и корпусную платформу tsakorpus.