Корпуса мокшанского языка


Вы находитесь на общей стартовой странице корпусов мокшанского языка: основного корпуса литературного мокшанского (состоит в основном из прессы) и корпуса мокшанских соцсетей и форумов.

Подробнее К основному корпусу К корпусу соцсетей

Корпуса мокшанского языка

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса мокшанского языка. В настоящий момент доступны два корпуса: корпус современного литературного мокшанского («основной корпус») и корпус мокшанских соцсетей. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:

Основной корпус Корпус соцсетей
Язык мокшанский мокшанский и русский
Размер 1,74 млн словоупотреблений 14 тыс. словоупотреблений (мокшанская часть)
166 тыс. словоупотреблений (русская часть)
Тексты современная пресса (до ноября 2018 г.) — 86,4%; Новый завет — 8,9%; художественная литература XX века — 0,8%; блоги — 0,7% открытые посты и комментарии мокшаноязычных пользователей Вконтакте (до декабря 2018 г.)
Регистр языка в большинстве случаев нормативный письменный литературный мокшанский или близкий к нему язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов
Разметка
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 91% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, диминутивы
  • глоссирование
  • переводы лемм на русский язык
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 79% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снималась
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов и словообразования: одушевлённость/личность, части тела, транспорт, разные классы имён собственных, диминутивы
  • глоссирование
  • переводы лемм на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания (точная дата в случае газет)
  • жанр
  • название группы (для групп)
  • открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет); имена и ники пользователей скрыты
  • год написания
  • тип записи (пост/комментарий)
  • язык (определяется автоматически отдельно для каждого предложения)

Кроме представленных здесь корпусов, существует ещё один общедоступный мокшанский корпус, созданный Джеком Рютером. Он содержит литературные тексты общим объёмом 800 млн словоупотреблений, но не имеет морфологической разметки.

Более подробную информацию о содержании мокшанского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах мокшанского языка.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова тядя перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого мокшанского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет мокшанским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.

— Что такое морфологическая разметка и как она сделана?

В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание мокшанского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на битбакете. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму валда, анализатор не может понять, является ли это основной формой слова валда («свет, светлый») или формой аблатива от слова вал («о слове»). Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.

Мокшанский язык

Мокшанский язык — язык мордовской подгруппы уральских языков. Точное число говорящих неизвестно, поскольку в переписях большинство носителей мокшанского и эрзянского указывает «мордовский» в качестве родного языка; вероятно, речь идёт примерно о 200 тысячах человек. Для записи используется кириллическая орфография, алфавит совпадает с русским; в орфографии не отражаются некоторые фонологические различия. Все морфологические категории выражаются суффиксально и в основном агглютинативно. Именные грамматические категории включают число, падеж, определённость и посессивность. На переходных глаголах могут индексироваться лицо и число субъекта и объекта (субъектно-объектное спряжение). Прямое дополнение маркируется номинативом или генитивом (дифференциальное маркирование). Порядок слов в предложении свободный, по умолчанию — SVO (подлежащее – глагол – прямое дополнение).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для мокшанского языка в алфавитном порядке с расшифровкой. Набор тэгов в обоих корпусах одинаков.

  • A — прилагательное
  • APRO — местоимение-прилагательное
  • ADV — наречие
  • ADVPRO — местоимение-наречие
  • CONJ — союз
  • IMIT — идеофон (изобразительное слово)
  • INTRJ — междометие
  • N — существительное
  • NUM — числительное
  • PARENTH — вводное слово
  • PART — частица
  • PN — имя собственное (подтип существительного)
  • POST — послелог
  • PREDIC — предикатив
  • PRO — местоимение
  • V — глагол
  • 1.o — 1 лицо объекта
  • 1.s — 1 лицо субъекта
  • 1pl — притяжательный суффикс 1 л. мн. ч.
  • 1sg — притяжательный суффикс 1 л. ед. ч.
  • 2.o — 2 лицо объекта
  • 2.s — 2 лицо субъекта
  • 2pl — притяжательный суффикс 2 л. мн. ч.
  • 2sg — притяжательный суффикс 2 л. ед. ч.
  • 3.o — 3 лицо объекта
  • 3.s — 3 лицо субъекта
  • 3pl — притяжательный суффикс 3 л. мн. ч.
  • 3sg — притяжательный суффикс 3 л. ед. ч.
  • abbr — аббревиатура
  • abl — аблатив
  • add — аддитивная клитика
  • all — аллатив
  • anim — одушевлённое существительное
  • body — часть тела
  • car — каритив
  • case_comp — двойное падежное маркирование
  • caus — каузатив (-фт-)
  • coll — собирательное числительное
  • com — комитатив (непродуктивный)
  • comp — компаратив
  • cond — кондиционал
  • csl — каузалис (причинный падеж)
  • cvb.sim — деепричастие одновременности (-мок)
  • dat — датив
  • def — определённое склонение
  • desid — дезидератив
  • dim — диминутив
  • distr — дистрибутивное числительное
  • el — элатив
  • famn — фамилия
  • gen — генитив
  • hum — существительное, означающее человека
  • ill — иллатив
  • imp — императив
  • inch — инхоатив (-зев-)
  • inf — инфинитив (-мс)
  • iter — итератив (-кшн-, -нд-, -шенд-)
  • loc — локатив/инэссив
  • missp — опечатка или ошибка в орфографии
  • mult — мультипликатив (-не-, -се-)
  • neg — отрицательная форма
  • nmlz — номинализация
  • nmlz_ma — номинализация на -ма
  • nmlz_mka — номинализация на -мка
  • nom — номинатив
  • non_obj — безобъектное спряжение
  • npst — непрошедшее время
  • num_approx — приблизительное числительное
  • opt — оптатив
  • ord — порядковое числительное
  • pair — парное числительное
  • pass — пассив (-в-)
  • patrn — отчество
  • persn — личное имя
  • pl — множественное число
  • pl.o — множественное число объекта
  • pl.s — множественное число субъекта
  • pl_comp — множественное число при двойном падежном маркировании
  • prol — пролатив
  • pst — первое прошедшее время
  • pst2 — второе прошедшее время
  • ptcp.prs.pass — страдательное причастие настоящего времени
  • ptcp.pst — причастие прошедшего времени
  • rel_n — реляционное имя (изменяемый послелог)
  • rus — заимствование из русского или через русский
  • sg — единственное число
  • sg.o — единственное число объекта
  • sg.s — единственное число субъекта
  • subj — конъюнктив
  • supernat — сущесвтительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
  • temp — временной падеж (-ня; непродуктивный)
  • time_meas — единица измерения времени
  • topn — топоним
  • trans — транслатив
  • transport — транспорт

Набор тэгов для русского языка (в русских предложениях корпуса соцсетей) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Разработкой этих корпусов занимается Тимофей Архангельский в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия корпуса была создана летом 2018 года, работа над над ним продолжается. Фотография для фона была любезно предоставлена Полиной Плешак. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая опечаток в блогах и соцсетях: эти тексты специально оставляются в исходном виде, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые мокшанский морфологический анализатор и корпусную платформу tsakorpus.