воскресный папа (kassian) wrote,
A. Kassian (Institute of Linguistics of the Russian Academy of Sciences)


On Pagel et al. 2013: inaccurate input data and incorrect methods lead to unreliable results

Отклик на статью:

Mark Pagel, Quentin D. Atkinson, Andreea S. Calude, Andrew Meade (edited by Colin Renfrew). ‘Ultraconserved words point to deep language ancestry across Eurasia’. In: PNAS May 6, 2013, doi: 10.1073/pnas.1218726110.
Main text: http://www.pnas.org/content/early/2013/05/01/1218726110.full.pdf+html?with-ds=yes
Supporting Information: http://www.pnas.org/content/suppl/2013/05/01/1218726110.DCSupplemental

В статье Pagel et al. 2013 лексикостатистически обосновывается существование ностратической макросемьи, предлагается укорененное и датированное дерево, построенное методом MCMC, а также делается утверждение о прямой зависимости частоты употребления слова и временем его жизни в языке. Авторы используют 200-словный (точнее, 188-словный) список Сводеша, сравнивая не засвидетельствованные языки, а семь реконструированных праязыков семей, входящих в ностратическую макросемью.

1. Составление лексикостатистической матрицы и семантическая реконструкция
2. Частотность употребления и выделение базисных значений
3. Мелочи
4. Выводы




1. Составление лексикостатистической матрицы и семантическая реконструкция


Pagel et al. (2013) целиком и полностью опираются на этимологические базы данных проекта Tower of Babel (далее: LWED), не используя никаких дополнительных лексикографических источников. Вслед за текущей версией LWED авторы объединяют в ностратическую макросемью 7 языковых семей Старого Света:
1) индоевропейская
2) уральская
3) алтайская
4) картвельская
5) дравидийская
6) чукотско-камчатская
7) эскимосская

Прежде всего следует указать, что текущие версии баз некоторых из указанных семей представляют собой достаточно сырой продукт: в первую очередь это касается индоевропейской, уральской, чукотско-камчатской и эскимосской баз.

Во-вторых, сама ностратическая база (т.е. предполагаемые связи между пракорнями в базах индивидуальных семей) представляет собой чрезвычайно предварительный этап исследования. По сути, сегодняшняя версия ностратической базы является «сборной солянкой», куда включены этимологии из публикаций В.М.Иллич-Свитыча, этимологии из незавершенного «Nostratic Dictionary» А.Б.Долгопольского, а также не систематические добавления, сделанные в разное время С.А.Старостиным, Е.А.Хелимским, А.В.Дыбо и многими другими лингвистами Московской школы. В настоящее время мы (А.В.Дыбо, М.А.Живлов, Г.С.Старостин и я) производим ревизию ностратической базы, и, вероятно, новая версия базы будет доступна через несколько лет.

Та или иная степень предварительности вышеуказанных этимологических материалов достаточно очевидна лингвисту.

Отдельную проблему составляет реконструкция значений. Pagel et al. (2013) не занимаются семантической реконструкцией, беря те значения пракорней, которые предлагаются в этимологических базах проекта LWED. К сожалению, Pagel et al. (2013) не поняли принципа, по которому реконструируются значения не во всех, но в большинстве баз LWED. Принцип следующий: в поле Proto-meaning выносятся все синхронно засвидетельствованные значения, т.е. авторы базы декларируют, что на данном этапе исследования они отказываются от детальной семантической реконструкции, но зато каталогизируют отмеченные значения.

Напр., в монгольской базе отмечены 4(!) прамонгольские основы с анатомическим значением ‘голова’:
*teriɣün ‘head; before, first’,
*heki ‘head; front’,
*tolugai ‘head’,
*taraki ‘brain, mind; head’

Это не значит, что авторы Etymological Dictionary of Altaic Languages предлагают постулировать четыре синонима для ‘головы’, сосуществовавших в праязыке; авторы всего лишь оставляют семантическую реконструкцию «на потом».

Pagel et al. (2013) работают с лексикостатистической матрицей (файл st01.docx), которая составлена следующим образом. Для каждой из семи рассматриваемых языковых семей (индоевропейская, уральская, алтайская, картвельская, дравидийская, чукотско-камчатская, эскимосская) выписываются все корни, которые в базах LWED реконструируются с данным значением. Например, в слоте ‘ASHES’ выписываются все и.-е., все уральские, все алтайские и т.д. пракорни, которые имеют глоссу ‘ASHES’ в поле Proto-meaning в базах LWED.

Таким образом, мы получаем несколько и.-е. пракорней ‘ASHES’ и несколько уральских пракорней ‘ASHES’. Если какой-нибудь из этих и.-е. корней имеет этимологическое соответствие в виде одного из вышеупомянутых уральских корней, то в слоте ASHES мы ставим плюс (у авторов знак «1») между и.-е. и уральским. Если ни один из и.-е. пракорней ‘ASHES’ не имеет этимологических когнатов со значением ‘ASHES’ в остальных семьях, то и.-е. материал элиминируется, и в слоте ‘ASHES’ у и.-е. языка будет стоять «0».

Иногда для одной семьи Pagel et al. (2013) могут реконструировать несколько слов с одинаковым значением. Напр., для ‘TO BURN’ в и.-е. семье берется аж четыре корня, т.к. каждый из них имеет этимоны с этим же значением в какой-либо другой семье (уральской, алтайской и т.д.).

К сожалению и по непонятной причине, Pagel et al. (2013) не перечисляют собственно реконструированных корней, которыми они оперируют! Вместо этого читателю доступна только итоговая лексикостатистическая матрица между семью праязыками, заполненная «1» и «0» (файл st01.docx). Впрочем, обычно конкретные пракорни можно вычислить при помощи определенных манипуляций с базами LWED.

Подчеркнем, что при установлении этимологических когнаций Pagel et al. (2013) следуют именно разметке в текущей версии баз LWED и не используют каких-либо формализованных алгоритмов.

Что в результате представляет собой их лексикостатистическая матрица? Это попытка семантической реконструкции для праязыков уровня семьи. Т.е. когда Pagel et al. (2013) отбирают из нескольких индоевропейских корней ‘ASHES’ один (по указанному выше критерию внешней этимологии), то подразумевается, что именно этот корень служил для выражения ‘ASHES’ в индоевропейском праязыке.

Семантическая реконструкция — плохо разработанная область компаративистики. Ее методология и инструментарий пока не до конца сформировались. Более того, необходимость точных реконструкций значений довольно плохо осознается в мировой лингвистике. Видимо, сегодня наиболее последовательными пропонентами строгого подхода к семантике являются представители Московской школы компаративистики. А, скажем, типовым для современной западной индоевропеистики является подход к семантике а-ля Покорный (в знаменитом словаре праиндоевропейских корней Ю.Покорного, по подсчетам А.В.Дыбо, ок. 70% корней реконструировано со значением ‘раздуваться’ или ‘сгибать(ся)’!).

Наиболее точным и надежным подходом к семантической реконструкции является метод семантических решеток, развитый и апробированный на материале тюркских, монгольских, тунгусо-маньчжурских и иранских языков в монографии А.В.Дыбо «Семантическая реконструкция в алтайской этимологии: Соматические термины (плечевой пояс)» (М., 1996).

Метод семантических решеток обладает двумя существенными недостатками. Во-первых, он крайне трудоемкий. Обработать значимую часть словаря теми силами, которые есть у лингвистов хоть в России, хоть на Западе, за разумный отрезок времени затруднительно. Второе, что важнее, такая работа имеет смысл, когда у нас имеются надежные и подробные синхронные словари для большинства исследуемых языков. А это редкость за пределами индоевропейской семьи.

Возможен, однако, другой подход, который позволяет значительно быстрее реконструировать праязыковое значение при незначительном снижении достоверности. Основные принципы такого подхода были коллегиально выработаны Георгием Старостиным, Михаилом Живловым и мной в рамках работы над проектом «The Global Lexicostatistical Database». Эти принципы были последовательно применены мною при реконструкции пралезгинского списка Сводеша и эксплицитно сформулированы и проиллюстрированы в моем недавнем докладе «The Lezgian linguistic group within the framework of the Global Lexicostatistical Database»:
1) Топологический критерий. Исходя из построенного лексикостатистического дерева, мы реконструируем то значение, которое совместно с конкурирующими значениями требует наиболее простого сценария.
2) Внешний этимологический критерий. Из конкурирующих значений имеет преимущество то, которое поддерживается внешней этимологией.
3) Внутренний этимологический критерий. Если на некоторое значение претендует две праосновы — одна морфологически непроизводная, а вторая производная, — преимущество имеет первая, а вторая, скорее, является новообразованием.
4) Семантический критерий. Большинство семантических переходов двусторонние, но совсем не все: многие переходы возможны только в одном направлении.
5) Ареальный критерий. Если один из кандидатов характерен для определенной территории, а второй, напротив, фиксируется на несмежных территориях, то первое слово, возможно, является ареальной инновацией.

Оказывается что Pagel et al. (2013) неявно, но используют всего лишь один и только один из названных принципов: критерий внешней этимологии. Спору нет, это важный критерий, и нередко именно он является решающим. Однако ясно, что он не главный. На мой взгляд, методологически очевидно, что в общем случае внутренние критерии приоритетнее.

К чему же приводит рецензируемых авторов механистическое применение внешнеэтимологического критерия? Рассмотрим некоторые примеры.

Слот ‘ASHES’. Pagel et al. (2013) в своей лексикостатистической матрице указывают, что существует ностратический корень, сохраняющийся в этом значении в 4 семьях: индоевропейской, уральской, алтайской и эскимосской. Как я уже говорил, сами корни авторы не приводят, но, что именно имеется в виду, можно попробовать вычислить.

В индоевропейской базе обнаруживаются 3 корня с глоссой ‘ashes’ (что, как указано выше, означает наличие значения ‘ASHES’ хотя бы в одной из групп внутри и.-е. семьи):
1) *ken- ‘ashes’
2) *pelǝ- ‘dust; ashes’
3) *xas- ‘to burn, to dry; hearth; ashes’

В уральской базе обнаруживаются 3 корня с глоссой ‘ashes’:
1) *kuδ́mV ‘ashes’
2) *konV ‘ashes; lye’
3) *pelme ‘dirt; dust; ashes’

В алтайской базе обнаруживаются 6 корней с глоссой ‘ashes’:
1) *č`ṓga ‘ashes; glowing coals’
2) *k`i̯āla ‘hot; ashes’
3) *k`i̯ŭ̀ru(mV) ‘ashes; soot’
4) *pép`à ‘dust; ashes’
5) *p`oĺńe ‘ashes; grey’
6) *ǯi̯àjnà ‘to burn; ashes; tar’

В эскимосской базе обнаруживаются 5 корней с глоссой ‘ashes’:
1) *paɣu-la ‘soot; ashes; dirt’
2) *palqǝ ‘ashes; hot; dry’
3) *panǝ-ʁ- ‘to burn; ashes; to dry out; to become skinny’
4) *pǝlu- ‘dust; ashes; clod’
5) *aʁra ‘ashes; powder’

В ностратической базе восстанавливается корень *ṗVlV ‘grey; ashes’, который действительно объединяет в себе и.-е. *pelǝ-, уральск. *pelme, алтайск. *p`oĺńe, эскимосск. *palqǝ. В соответствии с принципом внешней этимологии Pagel et al. (2013) полагают, что именно эти корни выражали значение ‘ASHES’ в соответствующих праязыках, и заносят эту изоглоссу между четырьмя праязыками в матрицу.

Давайте взглянем подробнее, насколько оправдана такая семантическая реконструкция.

Алтайский. Видимо, только для праалтайского есть резон постулировать *p`oĺńe как праалтайский термин для ‘ASHES’ (см. базу). В первую очередь здесь играет роль топологический критерий: это бесспорный прамонгольский (*hüne-sü) и пратунгусо-маньчжурский (*pulńe-) термин для ‘ASHES’, а в пратюркском он сохранился как цветообозначение (*oń ‘grey, dun, ash-coloured’).

Все остальные алтайские основы, выписанные выше, — намного более слабые кандидаты на статус праалтайского термина ‘ASHES’. А, например, для *č`ṓga и *k`i̯āla вообще, строго говоря, нигде не фиксируется синхронное значение ‘ASHES’.

Хуже обстоит дело в других семьях.

Индоевропейский. Главный и бесспорный кандидат на статус праиндоевропейского термина ‘ASHES’ — это *xās. Он отмечен как основной термин для ‘ASHES’ в анатолийской группе и во многих группах узкоиндоевропейской ветви (др.-индийск., иранск., армянск., германск.). Иногда этот корень отмечается в значении ‘hearth; altar’ или в глагольной функции ‘to dry up’ (LIV2: 257). Это, однако, не препятствует реконструкции и.-е. *xās ‘ASHES’.

И.-е. *ken- является основным корнем для ‘ASHES’ только в италийской группе и не может претендовать на прастатус.

Аналогично и важный для Pagel et al. (2013) корень *pelǝ- значит ‘ASHES’ только в балто-славянской группе, а в других группах имеет иную, хотя и близкую семантику, напр., др.-греческ. πάλη ‘fine flour, fine dust’, латинск. pollen ‘finely ground flour’. Надо отметить, что в значении ‘ASHES’ зафиксированы только производные формы с этим корнем: формы множественного числа от суффигированной основы *pel-en-V ‘ASHES’ в балтийских и редупликация *pepelъ/*popelъ ‘ASHES’ в славянских. Дистрибуция этого корня и морфологическая производность соответствующих основ показывают, что нет никаких оснований постулировать *pelǝ- с праиндоевропейским значением ‘ASHES’.

Уральский. Топологически лучшим кандидатом на статус прауральского термина ‘ASHES’ является *kuδ́mV, который засвидетельствован в этом значении в мордовских, обско-угорских и, вероятно, самодийских (самодийск. *kimä ‘ASHES’, по предложению Е.А.Хелимского).

Второй кандидат — *konV, но он фиксируется только в финно-пермской ветви (где значит ‘ASHES; lye’) и поэтому менее предпочтителен.

Третий и важный для Pagel et al. (2013) корень *pelme — еще более слабый кандидат, т.к. в значении ‘ASHES’ он фиксируется только в пермской группе (а в прибалтийско-финских он обозначает скорее что-то вроде ‘dirt’).

Эскимосский. Здесь бесспорный кандидат на статус праэскимосского термина ‘ASHES’ — это основа *aʁra, которая является основным словом для ‘ASHES’ в значительной части и юпикских, и инуитских диалектов. Для всех остальных четырех эскимосских основ, перечисленных выше (в том числе *palqǝ и *pǝlu-), значение ‘ASHES’ фиксируется только спорадически в том или ином диалекте, где его можно считать производным от значений ‘dust’, ‘to burn’ и т.п.

Таким образом, вместо лексикостатистического соответствия в слоте ASHES между четырьмя семьями (как то выписано у Pagel et al. 2013) мы обязаны констатировать, что в слоте ASHES мы не имеем ни одного лексикостатистического соответствия.

NB: это не значит, что ностратическая этимология *ṗVlV (и.-е. *pelǝ-, уральск. *pelme, алтайск. *p`oĺńe, эскимосск. *palqǝ, а также дравидийские и картвельские формы) неверна. Но как лексикостатистическое совпадение она расценена быть не может, т.к. только для праалтайского рефлекса мы можем предполагать собственно значение ‘ASHES’.


Слот EYE. Pagel et al. (2013) в своей лексикостатистической матрице указывают, что существует ностратический корень, сохраняющийся в этом значении в 2 семьях: алтайской и дравидийской. Попробуем вычислить, какой именно корень имеют в виду авторы.

В алтайской базе обнаруживается ровно 1 корень с анатомической глоссой ‘eye’:
1) *ni̯ā̀ ‘eye’

Это очень стабильный праалтайский корень, сохраняющийся в базовом значении ‘eye’ во всех группах, кроме тюркской (в пратюркском *göŕ 'EYE' -- новообразование от глагола 'to see').

В дравидийской базе обнаруживаются 2 корня с глоссой ‘eye’:
1) *kaṇ- ‘eye’
2) *nō- ‘view, to notice, eye’

Из них *kaṇ- — бесспорный кандидат на статус прадравидийского термина ‘EYE’. Это очень стабильный корень, сохраняющийся в базовом значении ‘eye’ во всех группах.

Напротив, дравидийск. *nō- (который Pagel et al. 2013 лексикостатистически линкуют с алтайск. *ni̯ā̀) фиксируется только в южнодравидийской группе, где он имеет глагольное значение ‘to look at, examine’, а некоторые именные девербативы действительно глоссируются как ‘eye’, но, видимо, они никогда не употребляются в анатомическом значении, а выражают действие ‘eye, eyesight, look, gaze, glance, view’.

Таким образом, вместо лексикостатистического соответствия в слоте EYE между двумя семьями (как то выписано у Pagel et al. 2013) мы обязаны констатировать, что в слоте EYE мы не имеем ни одного лексикостатистического соответствия.


Слот STAR. Pagel et al. (2013) в своей лексикостатистической матрице указывают, что существует ностратический корень, сохраняющийся в этом значении в 3 семьях: индоевропейской, уральской и дравидийской. Попробуем вычислить, какой именно корень имеют в виду авторы.

В индоевропейской базе обнаруживаются 2 корня с глоссой ‘star’:
1) *xster- ‘star’
2) *ǵ(h)ʷeisd(h)- ‘star’

В уральской базе обнаруживаются 2 корня с глоссой ‘star’:
1) *kuńćV ~ *kućV ‘star’
2) *täštä ‘sign; star’

В дравидийской базе обнаруживаются 2 корня с глоссой ‘star’:
1) *Cuk- ‘star’
2) *min_- ‘to lighten; spark; star’

В ностратической базе восстанавливается корень *ḳʷVncwxV ‘star, spark’, который действительно объединяет в себе и.-е. *ǵ(h)ʷeisd(h)-, уральск. *kuńćV ~ *kućV, дравидийск. *Cuk-. В соответствии с принципом внешней этимологии Pagel et al. (2013) полагают, что именно эти корни выражали значение ‘ASHES’ в соответствующих праязыках, и заносят эту изоглоссу между тремя праязыками в матрицу.

Давайте взглянем подробнее, насколько оправдана такая семантическая реконструкция.

Индоевропейский. Бесспорный кандидат на статус праиндоевропейского термина ‘STAR’ — это *xster-. Он отмечен как основной термин для ‘STAR’ в анатолийской группе и фактически во всех многих группах узкоиндоевропейской ветви (тохарск., др.-индийск., иранск., греческ., армянск. и т.д.).

Важный для Pagel et al. (2013) корень *ǵ(h)ʷeisd(h)- значит ‘STAR’ только в балто-славянской группе (балтск. *ǯwaĩžd-iā̃, славянск. *gvēzda). За пределами балто-славянской группы *ǵ(h)ʷeisd(h)- не отмечен, а сама форма корня указывает или на морфологическую производность или вообще на иноязычное происхождение. Так или иначе, *ǵ(h)ʷeisd(h)- не может быть постулирован как праиндоевропейский термин ‘STAR’.

Уральский. Топологически надежным кандидатом на статус прауральского термина ‘STAR’ действительно является тот корень, который используют Pagel et al. (2013): *kuńćV ~ *kućV. Он засвидетельствован в этом значении и в угорской, и в финно-пермской, и в самодийской группах.

Второй кандидат — *täštä — фиксируется только в финно-волжских, где явно является инновацией неясного происхождения.

Дравидийский. Выбор между двумя корнями *Cuk- и *min_- не до конца ясен, потому что топологически они пересекаются: *Cuk- значит ‘STAR’ в телугу и центральнодравидийских, а *min_- значит ‘STAR’ в севернодравидийских и южнодравидийских.

Так как основная функция *min_- глагольная со значением ‘to lighten, flash’, хочется думать, что семантика ‘STAR’ — независимая деривация в севернодравидийских и южнодравидийских. Тогда *Cuk- оказывается прадравидийским корнем ‘STAR’. Альтернативное решение: считать *min_- ‘STAR’ уже прадравидийской отглагольной деривацией, а телугу и центральнодравидийск. *Cuk- оказывается независимой(?) инновацией неизвестного происхождения.

Таким образом, вместо лексикостатистического соответствия в слоте STAR между тремя семьями (как то выписано у Pagel et al. 2013) мы можем с натяжкой постулировать бинарное совпадение между уральск. *kuńćV ~ *kućV ‘star’ и дравидийск. *Cuk-. Со строго формальной точки зрения, однако, лучше от этого сравнения отказаться, т.к. чтобы эти формы были фонетически совместимы, для дравидийск. *Cuk- надо предполагать окказиональную консонантную метатезу. Собственно, в ностратической базе, где восстанавливается корень *ḳʷVncwxV ‘star, spark’, дравидийская параллель *Cuk- дается под знаком вопроса, что было проигнорировано Pagel et al. (2013).

Можно подвести итоги. Я взял три фактически первых попавшихся слова из лексикостатистической матрицы Pagel et al. (2013). Как было продемонстрировано выше, сближения, которые используют Pagel et al. (2013) по большей части неправомерны. Более того, ‘ASHES’, ‘EYE’, ‘STAR’ — сверхустойчивые элементы списка Сводеша (об индексе стабильности см. С. Старостин 2007a; G. Starostin 2010), т.е. их реконструкция должна вызывать значительно меньшие трудности, чем реконструкция многих других сводешевских элементов. Бегло просмотрев оставшуюся часть лексикостатистической матрицы Pagel et al. (2013), я готов утверждать, что бóльшая часть внесенных в нее сближений некорректна.



2. Частотность употребления и выделение базисных значений


В середине XX в. Моррис Сводеш сформулировал список из 100 понятий, слова для которых, по его мнению, универсально являются наиболее устойчивыми как к семантическим и лексическим заменам, так и к заимствованиям (об уточнении семантики сводешевских слов см. Kassian et al. 2010). Дальнейшие исследования показали, что Сводеш был прав и его список действительно можно считать лексическим ядром человеческого языка (по крайне мере, это касается коммуникации в традиционном обществе). Наверное, список можно было бы уточнить, например, изъять некоторые понятия, включив вместо них другие, но в целом сводешевский 100-словник остается универсальным и единственным формальным инструментом генеалогической классификации языков (скажем, я бы исключил из списка слово ‘SEED’ как обычно культурно обусловленное и слово ‘PERSON’ как предполагающее высокую степень абстракции).

Интригующим вопросом является то, почему именно эти сто значений являются для языка ядерными? Интуитивный ответ — эти слова наиболее частотны в повседневной речи членов традиционного общества (см., например, такое предположение в Haspelmath 2008: 50). Проверить это, однако, не представляется возможным, т.к. у лингвистов на сегодня нет таковых текстовых корпусов. Имеющиеся корпуса обычно описывают письменный литературный язык индустриального или постиндустриального общества. И даже если в корпус включены разговорные фрагменты или фольклорные тексты, это не то же самое, что последовательная транскрипция всех реплик типового представителя традиционного общества в течение, скажем, одной недели.

Pagel et al. (2013), однако, оперируют понятием частоты использования слова, предполагая прямую корреляцию между устойчивостью слова в течение развития языка и частотой его употребления (чем частотнее слово, тем дольше оно живет в языке). Как я уже сказал выше, интуитивно это предположение кажется правильным. Однако Pagel et al. (2013) претендуют на строгую доказанность этой взаимосвязи. Основанием для их уверенности служат предыдущие публикации этого же коллектива авторов:
1) Mark Pagel, Quentin D. Atkinson, Andrew Meade. Frequency of word-use predicts rates of lexical evolution throughout Indo-European history. In: Nature, Vol 449, 11 October 2007, doi:10.1038/nature06176
2) Andreea S. Calude, Mark Pagel. How do we use language? Shared patterns in the frequency of word use across 17 world languages. In: Phil. Trans. R. Soc. B 2011, 366, doi: 10.1098/rstb.2010.0315

Pagel et al. (2007) работают на материале корпусов 4 языков индоевропейской семьи, а в Calude & Pagel 2011 расширяют список до 17 языков, причем выходят за рамки индоевропейской семьи. Например, в Pagel et al. 2007 используются следующие четыре корпуса: английский (British National Corpus), испанский (Corpus del español), русский (Большой корпус русского языка) и новогреческий (Hellenic National Corpus).

Вывод Pagel et al. 2007 и Calude & Pagel 2011: для индоевропейских языков внутри сводешевского 200-словника частота употребления слова обычно прямо коррелирует с длительностью «жизни» этого слова в языке.

Во-первых, остается открытым более интересный вопрос: а действительно ли сводешевские слова (пусть даже не из 100-словника, а из 200-словника) самые частотные в языке или нет?

Во-вторых, несмотря на интуитивную привлекательность выводов Pagel et al. 2007 и Calude & Pagel 2011, нельзя не высказать следующие критические замечания.

1) Нельзя исследовать такие зависимости на материале языков одной семьи (в данном случае индоевропейской), т.к. устойчивость слова, вообще говоря, связана с тем, насколько старым и «истершимся» оно уже было в праязыке. Например, в индоевропейских языках крайне неустойчиво слово ‘TAIL’ (даже для праславянского очень трудно обоснованно выбрать пракорень из засвидетельствованных вариантов обозначения хвоста, см. Саенко в печати). Однако при этом типологически ‘TAIL’ входит в первые три десятка самых стабильных сводешевских слов (С. Старостин 2007a; G. Starostin 2010).
2) Для установления древности корней была использована индоевропейская база данных Dyen et al. 1997, которая, к сожалению, не является образцом аккуратности и достоверности.
3) Взятые корпуса отражают главным образом литературный язык, и уж точно не повседневную речь традиционного общества. Например, как часто в современном английском или русском употребляется слово ‘louse’? Ну а просто слово ‘meat’? Видимо, значительно реже, чем в речи традиционного общества.

Таким образом, необходимо констатировать, что гипотеза о высокой частотности сводешевских слов остается гипотезой. Попутно отметим, что утверждения:

“Our interest here is to examine the generality of one force known from previous work [6] to influence rates of lexical evolution, that being the frequency with which words are used in everyday speech” (Calude & Pagel 2011: 1101)
“Here we use a statistical model, which takes into account the frequency with which words are used in common everyday speech <...>” (Pagel et al. 2013: 1).
“<...> we expect that words with larger cognate class sizes will be predictable from their rates of lexical replacement <...> and from their frequency-of-use in everyday speech” (Pagel et al. 2013: 2-3; выделения мои)

являются некорректными, т.к. в работах Pagel et al. 2007; Calude & Pagel 2011 исследуется отнюдь не «common everyday speech», к сожалению.



3. Мелочи


1. Pagel et al. (2013: 1) сетуют, что дальнее родство не подтверждается статистическими тестами:

“Where statistical tests have been used (9, 13), the results have been inconclusive <...>”

Коль скоро авторы заговорили о статистических тестах, им следовало бы сослаться на B. Kessler. Word similarity metrics and multilateral comparison. In: Proceedings of Ninth Meeting of the ACL Special Interest Group in Computational Morphology and Phonology. Prague, 2007. P. 6–14, где показано, что индоевропейско-уральская гипотеза, в общем-то, проходит статистический тест (причем перестановочный тест между непосредственно праиндоевропейским и прауральским даст явно еще лучший результат, чем у Кесслера).

2. Статья Pagel et al. 2013 начинается с (неявного) утверждения, что если формы-потомки имеют одно и то же лексическое значение, то это же значение праформа имела в праязыке. Иллюстрируется утверждение английск. brother, латинск. frāter и родственными словами из других и.-е. — все они означают ‘брат’. Действительно, если праслово хорошо представлено в дочерних языках и всюду имеет одно и то же значение, то обычно мы реконструируем это же значение для праязыка и рассматриваем эту семантическую реконструкцию как высоконадежную. Однако изредка встречаются отклонения от этой типовой модели, а именно когда старое значение меняется на новое в силу новых технологических или социально-экономических условий, далее этот семантический сдвиг приобретает характер ареальной изоглоссы, охватывая большое количество соседних языков (не обязательно родственных). Классическим примером является слова для оружия дальнего действия в индейских языках (скажем, в юто-ацтекских; пример А.Давлетшина), где в современных языках слова-потомки обозначают ‘ружье’, в недавнем прошлом они обозначали ‘лук’ (переход ‘лук’ > ‘ружье’ при смене технологии), но т.к. лук также является не очень древней инновацией в этом регионе, для более раннего периода, как и для праюто-ацтекского, у этого слова следует предполагать значение ‘копьеметалка’ или вроде того.

К сожалению, как раз пример с ‘братом’, вероятно, относится к этой же редкой категории: и.-е. термин *bhrāter означал скорее не собственно ‘consanguineal brother’, а ‘male person related by kinship or by common social affiliation’ (см. Benveniste 1973; Kullanda 2002: 91 f.).



4. Выводы


Pagel et al. (2013) основывают на не слишком достоверном лингвистическом материале (ностратическая база LWED), но что еще хуже: авторы демонстрируют не отработанную методологию и ущербный инструментарий обработки лингвистических данных.

Поскольку, видимо, бóльшая часть индивидуальных лексикостатистических сближений, используемых в рецензируемой статье, неверна, то следует заключить, что и итоговое дерево ностратической семьи (Pagel et al. 2013: 5) не является достоверным (хотя в целом оно напоминает то предварительное дерево, которое наша группа получила при аккуратном анализе 50-словников, см. Kassian 2009/2010: 424).

09.05.2013 (to be published in English soon)
Tags: lang
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 64 comments