Топологическая классификация русской лексики

Главная      Топологические классы      Пространственные конструкции      Участники проекта      Публикации

Проект посвящен исследованию классов предметных имен, выделяемых по способу пространственной категоризации обозначаемых объектов, например, «полоса» (ср. дорога), «горизонтальная поверхность» (ср. пол), «вместилище» (ср. мешок) и др.
Решаются следующие задачи: разработать полную классификацию предметных имен по топологическим типам на основе исследования их сочетаемости; описать и проанализировать семантико-синтаксические свойства топологических классов; изучить когнитивные механизмы пространственной категоризации и рекатегоризации объектов внешнего мира в процессе порождения и восприятия текста.
Исследование основано на материале Национального корпуса русского языка и семантического словаря корпуса↑↑. При ранжировании данных по частоте использовались следующие материалы:
● списки лексических единиц (лемм) - составлены на основе Частотного словаря НКРЯ (Ляшевская, Шаров в печати). Приводится относительная частота ipm (items per million, т. е. число употреблений леммы на один милллион словоупотреблений корпуса). Частотный словарь включает данные Основного корпуса НКРЯ, подкорпус современного русского языка 1950-2007 гг., автоматически дизамбигуированная версия 2009 г., объем подкорпуса около 93 млн. словоупотреблений.
● списки двусловных коллокаций (биграмм) - составлены по материалам базы данных двусловных коллокаций корпуса (контактных словосочетаний). Приводится абсолютная частота в корпусе. Биграммы собраны с помощью программы О.Урюпиной по Основному корпусу НКРЯ (XVIII-XXI вв.), версия 2008 г. с неснятой омонимией, объем подкорпуса около 160 млн. словоупотреблений. Для определения леммы и части речи использовался первый из разборов словоформы в корпусе, впоследствии эта информация редактировалась вручную.
● списки трехсловных коллокаций (триграмм) - составлены по материалам базы данных трехсловных коллокаций корпуса (контактных словосочетаний). Приводится абсолютная частота в корпусе. Триграммы собраны вручную по Основному корпусу НКРЯ (XVIII-XXI вв.), версия 2009 г., объем подкорпуса около 180 млн. словоупотреблений.
В разделе "Топологические классы" можно просмотреть список выделяемых категорий, получить сведения о предметных именах, входящих в тот или иной класс, их частотности и принадлежности к тематическим группам (например, «части тела», «инструменты» и т.п.). В разделе "Пространственные конструкции" приводится список рассматриваемых конструкций, среди которых атрибутивная конструкция с прилагательными формы и размера, генитивная, инструментальная и аккузативная конструкции с именами эталонных форм, конструкции с глаголами движения и местонахождения, помещения объекта и физического воздействия, восприятия и изменения формы и размера и др, а также списки наиболее типичных прилагательных, предлогов и т.д., участвующих в этих конструкциях. Для каждой пространственной конструкции и для каждого топологического класса имен приводится список коллокаций с данными об их частотности, а пройдя по ссылке, можно перейти к примерам употребления из Национального корпуса русского языка.
Hosted by uCoz