Топологическая классификация русской лексики |
Главная Топологические классы Пространственные конструкции Участники проекта Публикации |
Проект посвящен исследованию классов предметных имен, выделяемых по способу пространственной категоризации обозначаемых объектов, например, «полоса» (ср. дорога), «горизонтальная поверхность» (ср. пол), «вместилище» (ср. мешок) и др. Решаются следующие задачи: разработать полную классификацию предметных имен по топологическим типам на основе исследования их сочетаемости; описать и проанализировать семантико-синтаксические свойства топологических классов; изучить когнитивные механизмы пространственной категоризации и рекатегоризации объектов внешнего мира в процессе порождения и восприятия текста. Исследование основано на материале Национального корпуса русского языка↑ и семантического словаря корпуса↑↑. При ранжировании данных по частоте использовались следующие материалы: ● списки лексических единиц (лемм) - составлены на основе Частотного словаря НКРЯ (Ляшевская, Шаров в печати). Приводится относительная частота ipm (items per million, т. е. число употреблений леммы на один милллион словоупотреблений корпуса). Частотный словарь включает данные Основного корпуса НКРЯ, подкорпус современного русского языка 1950-2007 гг., автоматически дизамбигуированная версия 2009 г., объем подкорпуса около 93 млн. словоупотреблений. ● списки двусловных коллокаций (биграмм) - составлены по материалам базы данных двусловных коллокаций корпуса (контактных словосочетаний). Приводится абсолютная частота в корпусе. Биграммы собраны с помощью программы О.Урюпиной по Основному корпусу НКРЯ (XVIII-XXI вв.), версия 2008 г. с неснятой омонимией, объем подкорпуса около 160 млн. словоупотреблений. Для определения леммы и части речи использовался первый из разборов словоформы в корпусе, впоследствии эта информация редактировалась вручную. ● списки трехсловных коллокаций (триграмм) - составлены по материалам базы данных трехсловных коллокаций корпуса (контактных словосочетаний). Приводится абсолютная частота в корпусе. Триграммы собраны вручную по Основному корпусу НКРЯ (XVIII-XXI вв.), версия 2009 г., объем подкорпуса около 180 млн. словоупотреблений. |
В разделе "Топологические классы" можно просмотреть список выделяемых категорий, получить сведения о предметных именах, входящих в тот или иной класс, их частотности и принадлежности к тематическим группам (например, «части тела», «инструменты» и т.п.). В разделе "Пространственные конструкции" приводится список рассматриваемых конструкций, среди которых атрибутивная конструкция с прилагательными формы и размера, генитивная, инструментальная и аккузативная конструкции с именами эталонных форм, конструкции с глаголами движения и местонахождения, помещения объекта и физического воздействия, восприятия и изменения формы и размера и др, а также списки наиболее типичных прилагательных, предлогов и т.д., участвующих в этих конструкциях. Для каждой пространственной конструкции и для каждого топологического класса имен приводится список коллокаций с данными об их частотности, а пройдя по ссылке, можно перейти к примерам употребления из Национального корпуса русского языка. |