воскресный папа (kassian) wrote,
воскресный папа
kassian

Categories:

О составлении списков базисной лексики для древних языков + введение в проблематику (часть 1/3)

Подготовил доклад «Опыт составления аннотированного 50-словного списка базисной лексики для древнегреческого языка (идиолект Геродота)» для некоей индоевропеистической конференции, куда доклад в результате не попал.

Текст содержит введение с кратким обзором современных подходов к статистической классификации языков и к лексикостатистике в частности, а также часть 110-словного списка, составленного по тексту «Истории» Геродота. Главный упор предполагается именно на новом стандарте аннотированных лексических списков, который сейчас принят в нашем новом проекте The Global Lexicostatistical Database (руководитель Г. С. Старостин).

Доклад (в виде презентации с различными иллюстративными материалами) писался под конкретную аудиторию. Чтобы не пропадать добру, помещаю его здесь.


А. С. Касьян

Опыт составления аннотированного 50-словного списка базисной лексики для древнегреческого языка (идиолект Геродота)

 

A. S. Kassian

Annotated 50-item wordlist of the basic vocabulary of the Ancient Greek language (the idiolect of Herodotus)

 

В статье дается краткий обзор современных подходов к статистической классификации языков. В качестве образца приводится 50-словный список базисной лексики по тексту «Истории» Геродота, составленный в соответствии со стандартами проекта «Лексикостатистическая база данных языков мира» (Москва / Санта-Фе).

 

The article discusses actual approaches to the statistical language classification. The 50-item wordlist for the language of The Histories of Herodotus illustrates the new lexicostatistical standard proposed by The Global Lexicostatistical Database project (Moscow / Santa Fe).

 

Классификация языков; лексикостатистика; древнегреческий язык; Геродот

 

Language taxonomy; Lexicostatistics; Ancient Greek; Herodotus

 

 

1. В последние десятилетия мировая лингвистика демонстрирует повышенный интерес к различным статистическим методам сравнения языков (см., напр., обзоры в [Nichols & Warnow 2008], [McMahon & McMahon 2005]). Можно говорить о том, что данные методы постепенно становятся основным общепризнанным инструментом для формальной классификации лингвистических идиомов. Общий принцип таких исследований стандартен: составляется того или иного вида матрица признаков. Эта матрица заполняется для каждого из вовлеченных в сравнение языков. Далее соответствующие поля полученных матриц сопоставляются друг с другом (данный параметр у двух языков совпадает = плюс, не совпадает = минус; конкретные математические алгоритмы обработки итоговых бинарных совпадений/несовпадений могут разниться, см. [Nichols & Warnow 2008]). Таким образом выясняется степень относительной близости исследуемых языков.

Языковые данные, записываемые в матрицу, могут быть нескольких видов.

1)         Лексическая информация, т.е. списки базисной лексики. В зависимости от методологии, при дальнейшем сравнении матриц двух языков плюс могут получать слова, являющиеся этимологическими родственниками или же слова, обладающие схожим фонетическим обликом (без отсылки к этимологическим обстоятельствам).

2)         Грамматические морфемы и структурные грамматические черты, являющиеся ретенциями или инновациями по отношению к реконструированному праязыку семьи, для которой делается классификация (напр., общие фонетические переходы, синкретизм падежей и т. п.).

3)         Общетипологические (универсальные) грамматические признаки, формулировка которых не зависит от специфики конкретных языков (например, базовый порядок слов в предложении VS/SV или наличие передних огубленных гласных).

Употребление лексических матриц наиболее распространено, это классический лексикостатистический подход (построенные таким образом деревья для языков и.-е. семьи см., например, в [Blažek 2007] или [Gray & Atkinson 2003]). Традиционно слова сопоставляются, исходя из наших знаний об их этимологии. Однако интересен (и в каком-то смысле доказательнее) метод, при котором сопоставляется формальный фонетический облик форм (используя консонантные классы, на которые можно разбить сводный инвентарь звуков языков мира, см., напр., [Turchin et al. 2010]). Примером такого «слепого» теста на предмет родства между современным английским и хинди является работа [Baxter & Manaster Ram­er 2000].

При желании исследователя в одной матрице могут быть совмещены лексические данные и предполагаемые грамматические ретенции/инновации (напр., [Ringe et al. 2002], [Nakhleh et al. 2005], [Forster & Toth 2003] для и.-е. семьи).

Матрица, составленная только из универсальных типологических признаков, применяется реже (это, напр., работы [Dunn et al. 2007], [Donohue & Musgrave 2007], [Comrie & Cysouw 2006], [Cysouw & Comrie 2009], [Соловьев 2010], [Wichmann et al. 2011]). В защиту такого подхода выступают некоторые типологи (см. [Campbell & Poser 2008: 298 ff.]).

Наконец, исследователь может совместить в одной матрице универсальные типологические признаки и лексические данные конкретных языков ([Saunders 2005], [Wichmann & Saunders 2007] для австронезийских языков).

Цели, которые преследуются при подобной статистической обработке языковых данных, также могут разниться.

1)          Построение генеалогической классификации, т. е. попытка реконструировать картину доисторического разделения народов.

2)          Построение ареально-типологической классификации, т. е. попытка составить карту языковых союзов (существовавших или существующих).

3)          Математическо-экпериментальная цель, а именно, опыт применение статистических алгоритмов, опробованных в других областях знания (математике, биологии и т. д.), к языковому материалу.

Первую цель (генеалогическая классификация) преследует классическая лексикостатистика; примеры многочисленны, см, напр., соответствующие разделы в [Forster & Renfrew 2006] для различных языковых семей мира.

Обширные дискуссии, посвященные второй цели (выявление языковых союзов), см., например, в [Aikhenvald & Dixon 2001], [Campbell & Poser 2008: 326 ff.], [Соловьев 2010].

Третий подход характерен для математиков или биологов, начинающих работать с языковым материалом. Примером может служить статья [Blanchard et al. 2011], где авторы получают 400 год до н. э. как дату разделения индоиранского праязыка на праиндийскую и праиранскую ветви (sic!). Факт, что это не смутило ни авторов, ни редакторов журнала, показывает, что реконструкция исторической реальности не была целью статьи.

Основные типы визуального представления полученной языковой классификации таковы.

1)       Двухмерное дерево (связный граф, не содержащий циклов.), см. рис. 1.

20.17 КБ

Рис. 1. Пример древесного представления: лексикостатистическое дерево цезской группы северокавказской семьи (составлено автором по 110‑словным спискам)

2)       Двухмерный циклический граф, т. н. network (или, более полно, implicit phylogenetic network), см. рис. 2. Видимо, такие модели можно считать трехмерными, проецированными на двухмерную плоскость.

46.69 КБ

Рис. 2. Пример модели implicit phylogenetic network: схема NeighbourNet для италийской, кельтской и германской групп индоевропейской семьи (цитпо: [McMahon & McMahon 2005: 161])

3)       Многомерные модели (предлагаются редко). Четырехмерную модель (трехмерная сфера с дополнительным измерением, обозначаемым цветом) и.-е. семьи см. в [Blanchard et al. 2011].

Древесная модель — единственная, которая в полной мере подходит для генеалогической классификации языков. Вершина дерева — это праязык в момент своего распада. Промежуточные узлы отражают, соответственно, промежуточные праязыки на момент их распада. Конечные узлы — языки, на материале которых делается классификация. Это обычно не эксплицируется, но понятно, что в идеале языковое дерево имеет прямые исторические соответствия, т. е. вершина и промежуточные узлы — это временные точки разделения (расселения) конкретных племен — носителей постулируемых праязыков.

В свою очередь модель вида network группирует языки по суммарной схожести параметров. При этом network принципиально не разделяет сходства между языками, унаследованные от общего предка, и схождения, приобретенные в результате языковых контактов, таким образом, близость языков на графической схеме отражает их общие черты, как исходные, так и вторичные. Строгое разделение на таксоны если и содержится в графической схеме network, то в очень неявном виде; обычно схема состоит из нескольких центров притяжения с диффузионными областями между ними. Почти всегда из графического представления модели вида network читатель не может получить модель древесного вида.

2. Независимо от того, какой метод подсчетов и какую модель графической визуализации выберет исследователь, исходным материалом для статистической обработки служат языковые данные. В случае классификации по лексике — это лексические списки тех конкретных языков, которые мы вовлекаем в сравнение.

Конечно, исследователь может составить свои словники для нужных ему языков, однако большýю популярность имеют уже готовые базы данных для того или иного набора идиомов. Ср. базу 200-словных списков примерно для ста языков и.-е. семьи в [Dyen et al. 1997]; аналогичная база для австронезийской семьи представлена в [Greenhill et al. 2008] (более 800 языков); активно развивается он-лайн проект RefLex, ориентированный на языки африканского континента.

Общим недостатком всех перечисленных баз данных является отсутствие какой-либо информации при конкретных формах. Не дается ни точной ссылки на лексикографический источник, ни полной семантики лексемы (полисемия), ни данных о сочетаемости слова, ни парадигматической информации, ни обсуждения синонимов, претендующих на данное значение, но отсеянных составителем. Учитывая, что семантические критерии отбора слов авторами также никак не эксплицируются[1], такой первичный материал становится всё менее надежным. Из локальных недостатков той же базы [Dyen et al. 1997] отметим известный процент ошибочных форм: напр., в вокабуле ‘to burn (intransitive)’ для части славянских языков приводятся как раз переходные глаголы, производные от праслав. *paliti (а, скажем, для иранских языков авторы обычно выбирают непереходную лексему).

3. Новый стандарт составления лексических списков принят в международном проекте “The Global Lexicostatistical Database” («Лексикостатистическая база данных языков мира»; в настоящее время готовится к запуску), возглавляемом Г. С. Старостиным. Задача проекта GLD — составление и публикация в сети Интернет 110-словных списков базисной лексики для максимально широкого круга языков. Подача материала принципиально отличается от баз данных, упомянутых выше. В числе особенностей нового формата списков можно указать следующее.

1)       Для «слепого» списка английских дефиниций, предложенного М. Сводешем в середине XX в., нами выработан строгий семантический стандарт [Kassian et al. 2010], сводящий почти на нет количество синонимов в конкретных языковых списках.

2)       На основе International Phonetic Alphabet выработан унифицированный фонетический алфавит для транскрибирования форм в списке (при этом для языков с национальной письменностью не на основе латиницы рекомендуется дублировать формы и в традиционной системе письма, скажем, в кириллице или в иероглифике). Такая стандартизация делает возможным машинный анализ списков.

3)       При каждом слове указывается точная ссылка на лексикографический источник.

4)       В комментарии к слову дается дополнительная информация о семантике (случаи полисемии), сочетаемости, прагматике и т. п.

5)       Если на одну позицию претендует несколько слов описываемого языка (напр. латин. totus и omnis в одинаковой степени соответствуют сводешевской дефиниции ‘all’), то выбор одного из слов-кандидатов эксплицитно обосновывается (критериями могут быть семантические нюансы, сочетаемость, частотность, стилистическая окрашенность и т. п.).

6)       Для языков, объединенных в одну семью, программа позволяет строить глоттохронологические деревья в режиме реального времени.

7)       Для языков, объединенных в одну семью, пользователь может непосредственно через web-интерфейс менять когнации между списками, получая таким образом новое дерево.

Предполагается, что столь тщательный и строгий отбор первичного материала позволит существенно повысить уровень точности лексикостатистических подсчетов в проекте GLD.

4. Известен некоторый методологический «подводный камень», с которым сталкиваются составители списков базисной лексики.

Как и все остальные части словаря, список Сводеша, конечно же, меняется с течением времени. Кроме того, в подавляющем большинстве случаев те идиомы, которые принято называть диалектами какого-либо языка, обладают различиями в сводешевском списке, т. е. лексикостатистически являются разными языками. Из этого следует, что составляемый список базисной лексики должен фиксировать узко локализованный лингвистический идиом в одной заданной временной точке. В идеальном случае список должен отражать даже не диалект, а идиолект носителя (поэтому списки, полученные в результате полевых исследований, особенно ценны)[2].

Особенно остро указанная проблема встает при попытке составить список базисной лексики мертвого письменного языка. Если такой язык имеет длительную письменную традицию (древнегреческий, латинский, аккадский, шумерский) или же его памятники имеют широкую географическую дистрибуцию, то при формальном выписывании слов с соответствующими дефинициями из сводного словаря этого языка мы:

1)         не выдерживаем принцип хронологического и диалектного единства;

2)         для языков, хорошо лексикологически представленных (напр., для древнегреческого), получаем по несколько синонимов для большинства позиций в списке.

Для мертвых письменных языков методологически правильно было бы составлять такие списки по текстам какого-либо одного автора (т. е. описывать идиолект этого автора). К сожалению, в силу скудости дошедших до нас данных для большинства древних языков такой подход не реализуем. Скажем, древнеегипетский или шумерский языки представлены значительным корпусом текстов, но ни для одного, ни для другого нет столь объемного и тематически разнопланового памятника, чтобы его словник включал в себя если не все 100 сводешевских слов, то хотя бы их бóльшую часть. Счастливым исключением являются древнекитайский и классические индоевропейские языки: древнегреческий и латынь. Авторы, писавшие на этих языках, оставили нам ряд сочинений, пригодных для составления «монотекстуальных» 100-словных списков.

Ниже в качестве модельного примера лексикографического стандарта, принятого в проекте GLD, приведен 50-словный[3] список древнегреческого языка по тексту «Истории» Геродота (V в. до н. э.). Древнегреческий текст «Истории» дается по [Godley 1920–25]. Цитируемый в статье английский перевод — также по [Godley 1920–25]. Цитируемый русский перевод — по [Стратановский 1972]. При составлении списка использовался словарь-тезаурус к памятнику: [Powell 1938]. Я ограничил описываемый корпус текстом самого Геродота, т. е. слова и формы, приводимые Геродотом в цитациях (например, в прямой речи героев «Истории», прорицаниях оракулов и т. п.), в общем случае исключались из рассмотрения.

В конце каждой вокабулы я ввожу поле с названием «Общий древнегреческий», куда помещаются основные древнегреческие лексемы, засвидетельствованные с соответствующим значением в каких-либо памятниках этого языка (подбор производился по англо-древнегреческим словарям [Yonge 1849], [Edwards 1914] и по наиболее авторитетному словарю древнегреческого языка [LSJ]). Данное поле служит примером того, с каким количеством синонимов нам пришлось бы столкнуться, если бы мы пытались составить список для древнегреческого вообще, не ограничиваясь конкретным автором или хотя бы конкретными диалектом и эпохой.



[1] Почему, скажем, в [Dyen et al. 1997] для современного русского языка в поле ashes’ подставляется существительное ZOLA, а не PEPEL? В свою очередь, сводешевское to burn’ авторами интерпретируется как непереходный глагол (гореть), хотя сейчас принято, скорее, использовать переходный глагол (жечь), что оправдано, т. к. корень to burn (trans.)’ типологически более устойчив в языках мира и, таким образом, важнее для списка, нежели to burn (intrans.)’.

[2] Стремление описывать именно идиолект конкретного носителя не является надуманным. Скажем, автор настоящей статьи употребляет рус. зола как наиболее немаркированный, семантически широкий и частотный аналог сводешевского ashes’. Однако, некоторые коллеги автора по проекту GLD — носители СРЛЯ — подставляют в эту позицию слово пепел. В реальности же в синхронном языке мы наблюдаем процесс замены старого термина пепел новым термином зола (пепел приобретает стилистическую окраску или вытесняется в специализированные значения: пепел сигареты, пепел после кремации).

[3] Ради экономии места я сократил 110-словный список, принятый в проекте GLD, до 50 его наиболее устойчивых элементов (о выделении этих 50 слов по индексу стабильности см. [Starostin G. 2010]). В приводимом в статье списке индекс стабильности указывается подписными цифрами при соответствующем сводешевском слове (местоимение we1 — типологически самый стабильный элемент списка, night50 — наименее стабильный).


Часть 1/3 (см. часть 2, часть 3).
Tags: lang
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 28 comments