воскресный папа (kassian) wrote,

По поводу статьи R.Bouckaert et al. Mapping the Origins and Expansion of the Indo-European Language

РИА "Новости" попросили дать комментарий ко вчерашней статье в Science, посвященной прародине индоевропейской семьи. Так как я написал текст на несколько страниц, а в итоговую заметку РИА попала только пара моих фраз, помещаю весь текст в блоге.
__________________________________________

А. С. Касьян
Институт языкознания РАН / Центр компаративистики ИВКА РГГУ (Москва)


По поводу статьи R.Bouckaert, P.Lemey, M.Dunn, S.J.Greenhill, A.V.Alekseyenko, A.J.Drummond, R.D.Gray, M.A.Suchard, Q.D.Atkinson. Mapping the Origins and Expansion of the Indo-European Language Family // Science, Vol 337, 24 August 2012.

1) Сама статья: pdf (доступен подписчикам или через sci-hub).
2) Сопроводительные материалы на сайте журнала: свободный доступ. Включает описание метода, базы с первичными данными и видео-ролик.
3) Сайт авторов с дополнительными материалами: линк.

Статья является продолжением серии статей тех же авторов и развивает тему древовидной классификации индоевропейской семьи языков, абсолютных датировок узлов и, наконец, определения географической прародины индоевропейского праязыка. См. первую публикацию из серии: Gray, R. D. and Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426: 435-9.

Авторы используют формальные модели филогенетической классификации, применяемые в современной биологии, точнее говоря, в вирусологии и смежных областях, подавая на вход базисную лексику исследуемых языков. На надежности и, главное, на допустимой погрешности этих методов я не буду останавливаться, т.к. не являюсь специалистом в биологии. Я хотел бы дать некоторые предварительные комментарии к конкретным лингвистическим результатам исследования.

Отметим, однако, важный момент: тезис, что к языкам применимы методы вирусологии, выносится авторами в пресупозицию, между тем, он нуждается в отдельном обосновании (если не научном, то хотя бы философском). В частности, вирус отличается от языка по следующему существенному параметру: вирус может соседствовать в организме с другими вирусами, однако племя в нормальном случае является носителем только одного языка (случаи билингвизма, конечно, бывают, но это нестабильная ситуация, и обычно один из языков довольно быстро сдает свои позиции второму). Другое значимое отличие: вирус легко передается при контакте, но переход популяции со своего исконного языка на язык соседей встречается относительно редко и требует определенных социоэкономических условий. Если же авторы сравнивают с вирусом не языки, а самих людей (носителей тех или иных языков), то идея экстраполяции биологических методов на историческую лингвистику становится еще более шаткой.

В сравнительно-исторической лингвистике прародиной праязыка называется ареал его распространения на момент, непосредственно предшествующий распаду этого праязыка, т.е. на момент перед разделением нашего праязыка на два или более языков (которые, в свою очередь, являются предками засвидетельствованных языков данной языковой семьи). Таким образом, если доисторическое племя мигрировало из района A в район B, а затем в район C и уже в районе C разделилось на две группы, которые начали жить обособленно друг от друга, и через несколько десятков поколений их общий язык превращается в два диалекта, а затем в два разных языка, то прародиной праязыка этих двух групп населения будет называться район C, но не A и не B. Если мы хотим исследовать историю праплемени более детально, то районы A и B мы называем ранними прародинами.

Авторы, используя лексикостатистические и глоттохронологические данные, оценивают две конкурирующие гипотезы о локализации и датировке индоевропейской прародины:
1) степи к северу и северо-западу от Каспийского моря (датировка распада: рубеж 5-4 тыс. до н.э.);
2) центральная Анатолия (датировка распада: 8-7 тыс. до н.э.).

Вывод авторов: анатолийская локализация индоевропейской прародины имеет формальные преимущества перед степной.

Существует, однако, и третий иногда предлагаемый вариант локализация индоевропейской прародины: одна из археологических культур внутри карпато-балканского региона 6-5 тыс. до н.э.

Авторы, к сожалению, не рассматривают карпато-балканскую теорию. Вместе с тем, следует сказать, что степная гипотеза может быть отметена и по традиционным лингвистическим критериям. Для праиндоевропейского восстанавливаются агрикультурная и животноводческая терминология, названия для лесного и гористого/холмистого ландшафта и т.д. При этом никакая специфическая степная кочевая терминология не реконструируется. Собственно, по этой и по некоторым другим (археологическим) причинам, у степной гипотезы сейчас остается всё меньше сторонников. Таким образом, реальный выбор должен был бы состоять из анатолийской и карпато-балканской локализаций. С другой стороны, реконструируемая индоевропейская терминология для колесной технологии (в частности сами названия колеса) вряд ли позволяет датировать распад индоевропейского праязыка глубже 5 тыс. до н.э.

Одним из наиболее неоднозначных моментов обсуждаемых публикаций является датировка узлов получаемого дерева по принципу расслабленных молекулярных часов. Не вполне понятно, о какой погрешности может идти речь в данном случае и применим ли вообще указанный биологический метод к тому языковому материалу, который используют авторы (например, в исходном материале смешаны как типологические ультраустойчивые слова вроде местоимений ‘я’, ‘ты’, так и слова, подверженные частым заменам, вроде ‘другой’ или ‘если’). Однако именно датировки являются краеугольным камнем защищаемых результатов.

Отметим и некоторые частности полученных авторами выводов. Например, в генеалогическом дереве армянская ветвь объединяется с тохарской (с распадом гипотетического тохаро-армянского праязыка в 3200 г. до н.э.). Такой филиации, насколько мне известно, еще никто не предлагал, и она прямо противоречит как традиционным лингвистическим доводам, так и формальной лексикостатистике.

Авторы справедливо пишут, что, определяя пути миграции, они рассматривают водные маршруты как менее вероятные (т.е. требующие бóльших допущений) по сравнению с сухопутными. Однако тогда следовало бы исключить и горы. В частности, авторы предполагают миграцию праиндоиранцев из Анатолии на восток напрямую через горы Загроса, что эффектно выглядит на карте и особенно на видео, но достаточно сомнительно при ознакомлении с реальным рельефом.

Укажем на еще один фундаментальный недостаток и рецензируемой статьи, и вообще подавляющего большинства исследований, посвященных прародине индоевропейцев. Авторы неявно исходят из презумпции, что праиндоевропейское племя существовало, так сказать, в вакууме, т.е. праиндоевропейцы были единственными обитателями предполагаемой территории. Между тем из юго-восточной Европы и Ближнего Востока известно множество археологических культур неолита и энеолита. С другой стороны, в этих же регионах у нас есть не один-единственный индоевропейский праязык, а довольно много языковых семей, предполагающих праязыки примерно той же глубины, что и индоевропейский: картвельский, семитский, северокавказский и менее хорошо засвидетельствованные баскский, бурушаски, хурритский, хаттский (и еще многие языковые семьи вымерли, не оставив надежных следов, например, касситский). Распределение реконструируемых праязыков по засвидетельствованным археологическим культурам — чрезвычайно сложная проблема. Ни современная лингвистика, ни археология пока не накопили и не систематизировали достаточно данных для достоверного описания всей картины европейского и переднеазийского неолита и энеолита. Однако ясно, что любая модель, где праиндоевропейцы оказываются единственными игроками на исторической сцене, является ущербной по определению.

Что может предложить сравнительно-историческая лингвистика в ответ на такие биологические (вирусологические) модели? Единственным формальным методом лингвистической классификации является анализ общих изоглосс. Наиболее универсальным и формальным представляется анализ расхождения базисного словаря, т.е. лексические изоглоссы (лексикостатистика). Датировка узлов дерева определяется глоттохронологической процедурой, главным принципом которой является тезис о постоянной скорости распада базисного словаря в языках мира. (Как видно, в данном случае аналогии приходят скорее не из биологии, а из области радиоуглеродного датирования.) Глоттохронологический метод был предложен в середине XX в. американским лингвистом Моррисом Сводешем и в конце XX — начале XXI в. модифицирован выдающимся отечественным лингвистом С.А.Старостиным в рамках международных проектов «Вавилонская башня» и «Evolution of Human Languages». В целом, нынешняя глоттохронология дает достаточно ожидаемые и не противоречащие историческим сведениям датировки. Главной технической проблемой является не то, какую математическую модель выбрать для анализа имеющихся данных, а непосредственный сбор первичного материала. Как показывает практика, на составление аннотированного 110-словного списка базисной лексики для какого-либо языка может уйти от 2 до 4 недель работы лингвиста. Однако столь качественная обработка первичного материала представляется обязательной для надежных математических выводов, и здесь мы опять возвращаемся к аналогии с радиоуглеродным датированием, где трудоемкая и дорогостоящая очистка образца — залог достоверной даты. Составлению высококачественных аннотированных и проэтимологизированных 110-словных списков базисной лексики языков мира посвящен наш новый научный проект «The Global Lexicostatistical Database» (руководитель Г.С.Старостин). На настоящее время база данных насчитывает около 120 языков, что, конечно, чрезвычайно мало, учитывая, что всего в мире насчитывается несколько тысяч языков. Дальнейшее развитие «The Global Lexicostatistical Database» позволит уточнить нынешнюю версию нашей лексикостатистической и глоттохронологической модели, а также предоставит материал для более аккуратных исследований, основанных на биологических моделях. Заметим, что лексикостатистическим, конечно же, является и исследование рецензируемых авторов, а неожиданные результаты (вроде объединения армянского с тохарским), видимо, объясняются неаккуратным сбором первичного языкового материала.

Установление прародины и путей доисторических миграций (т.е. привязка реконструированных праязыков к археологическим культурам) может обосновываться только скрупулезным лингвистическим анализом, который заключается в реконструкции культурного прасловаря, обнаружении следов контактов между языками (например, заимствованная лексика) и некоторых других более тонких приемах. При этом такую работу мы обязаны проделать для всех праязыков, присутствие которых в данном регионе можно подозревать, и только после этого выдвигать гипотезы о лингвистической атрибуции той или иной археологической культуры, эксплицируя, почему именно данный лингвистический кандидат из имеющихся больше подходит для данной культуры. Механическое применение вирусологических моделей, тем более основанное на не очень аккуратно собранном языковом материале, тут может служить подспорьем, но никак не основным аргументом.

Что касается конкретной проблемы индоевропейского праязыка и его прародины, то по текущим подсчетам, выполненным нами в рамках проекта «The Global Lexicostatistical Database», разделение праиндоевропейского языка на хетто-лувийскую и «узко-индоевропейскую» ветви приходится на конец 5 тыс. до н.э. По моему мнению, помещение индоевропейской прародины в Карпато-Балканскую металлургическую провинцию эпохи энеолита требует наименьших допущений. Продвижение земледельцев из Анатолии на Балканы в неолите отражает более раннее языковое состояние, причем мне неизвестны никакие доводы в пользу того, что основная часть этих мигрантов были носителями именно раннеиндоевропейского (т.е. индо-уральского?) языка. Тут есть и другие претенденты, скажем, носители баскско-северокавказского праязыка.

На мой взгляд, исследования, подобные рецензируемой статье, на данном этапе интереснее всего опытом применения в исторической лингвистике методов из смежных наук, например, биологии. Говорить же, что проблема праиндоевропейской прародины, ее датировки или хотя бы построения генеалогического древа индоевропейских языков закрыта, пока нельзя.

__________________________________________

UPD. 12.09.2012. A short talk for the discussion with Profs. J.P.Mallory, D.W.Anthony, P. Heggarty et al. at Indo-European Homeland and Migrations: Linguistics, Archeology and DNA: N. Ya. Merpert Memorial Round Table, Moscow, RSUH, 12 Sept. 2012

Dear colleagues, briefly I would like to put together several general objections to the paper under review.

1) Any radio-carbon or molecular analysis starts from sample cleaning — a rather difficult and costly procedure. A clean sample, however, is a necessary condition of reliable results. In historical linguistics, the analogue are wordlists — accurately compiled and accurately etymologized.

The topology of Bouckaert’s tree seems very strange. I have not checked it through, but several points immediately burst upon the eye. Two instances:
Within the IE tree: Tocharian is linked to Armenian



Within the Slavic tree: Polish is linked to Byelorussian.



These affiliations are certainly wrong. Such a topology may only indicate the following thing: the original wordlists used by the authors under review are unfortunately of low quality. This is not surprising, however, because the basic lexicographic source of the authors is Isidore Dyen’s database as well various not very reliable secondary publications, including even the anonymous wordlists available in the current version of English Wikipedia(!).

Such an approach sharply contrasts with high quality standards of, for example, of our the Global Lexicostatistical Database project. Let me demonstrate an example.

This is the database of the Lezgian linguistic group, which I currently compile. As you can see, all relevant primary sources (dictionaries, grammars and text collections) are used, all forms are accompanied with direct references, all important phonetic, morphological and semantic nuances are explicitly discussed. Indeed it is a hard work, because compiling a list of one language can take two or three weeks.
Summing up, Bouckaert’s tree is unreliable topologically and, as a result, unreliable chronologically.

2) The assumption that a virus is an analogue of a language is not obvious. Such a statement needs serious arguments. I suppose, however, that the analogy is incorrect, because, firstly a human being is normally a native speaker of one language, whereas there are a lot of viruses in human organism. Secondly, language shift is only possible under very special socioeconomic conditions, whereas the virus transfer is a mechanical process.

One could recall the previous publication of Q.Atkinson in the same Science journal one year ago, where the author compares the phonemic inventory of a human language with gene pool of a population. This precedent demonstrates that using incorrect methodological assumptions and incorrect raw data we are able to “prove” any hypothesis with the help of a heavy mathematical apparatus.

So perhaps we currently deal with a scientific phantom of the same kind.

3) The authors only evaluate two homeland theories: the Steppe scenario and the Anatolian scenario. In fact, however, there exists the third theory: Carpatho-Balkan Metallurgical Province.



As one can see, authors’ maps suggest that indeed Anatolia is the probabilistic center, but Carpatho-Balkans, South Caucasus and North Syria cannot be excluded as an IE homeland.
The left map reflects the plane landscape, that is the Proto-Tocharians go directly across the Caspian sea, whereas the Proto-Indo-Iranians go directly across the Zagros.

The right map reflects the scenario in which waterways are prohibited. We see that the probabilistic center has moved from Central Anatolia to the west. So I suspect that if we forbid the Proto-Indo-Iranians to fly over the Zagros and, e.g., disjoin Tocharian from Armenian, the probabilistic center might move from Anatolia to Carpatho-Balkans.

In any case, such a virological geographical method is hardly applicable to linguistics, because there are a lot of ancient IE languages, which are undocumented or too poorly documented. Theoretically these lacunae do not falsify our phylogenetic tree, but they should seriously affect any geographic models. For example, I suppose that the large Scythia territory (which was not taken into account by the authors due to lack of data on the Scythian language) could dramatically change the picture.
Tags: lang
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 62 comments