Стохастические модели порождения речи

По определению Дж.Миллера и Н.Хомского: <Стохастические теории коммуникации в общем случае предполагают, что множество элементов сообщения может быть представлено при помощи распределения вероятностей и что различные коммуникативные процессы (кодирование, передача и декодирование) заключаются в оперировании с этим априорным распределением и трансформировании его – в соответствии с известными условными вероятностями – в апостериорное распределение>.

Простейшая из таких моделей есть такая, которая способна порождать цепочку элементов, каждый из которых имеет собственную вероятностную характеристику (т.е. появление каждого из этих элементов не зависит от появления предыдущих). Но такая модель совершенно не способна обеспечить что-то даже отдаленно похожее на связную речь.

Поэтому если и говорить о применимости стохастических моделей в психолингвистике (а эта применимость не очевидна), то речь может идти только о так называемых ограниченных стохастических моделях или, что то же, марковских моделях высших порядков. В подобной модели в качестве основной единицы выступает не отдельный элемент (например, фонема или слово), а определенная последовательность элементов (например, цепочка из 4 слов), и моделируется вероятностная характеристика появления именно последовательности элементов.

В классической работе Дж.Миллера и Дж.Селфридж приводится пример текста, порожденного в соответствии со следующей закономерностью: каждый пятый элемент (слово) имеет вероятность появления, зависящую от появления четырех предыдущих: Road in the country was insane especialy in dreary rooms where they have some books lo buy for studying Greek. Примерным эквивалентом может служить такой текст из прозы русского эгофутуриста 1920-х гг. Ивана Игнатьева: <Скажите какая птица и нашим и вашим зажгите электричество – <Всецело Ваш> не думает мне известно он…>.

Имеется огромное количество экспериментов, в которых показано, что процесс порождения речи обязательно предполагает в той или иной мере использование вероятностного принципа и, в частности, скрытого знания испытуемым условных (зависящих от появления предыдущих элементов) вероятностей появления нового элемента (или цепочки, группы элементов).

Сам факт участия вероятностного механизма в порождении можно считать полностью доказанным. Бесспорно и то, что в психике человека (носителя языка) имеется механизм субъективной оценки вероятности слов и других элементов, которая, как показала, в частности, Р.М.Фрумкина, вполне удовлетворительно коррелирует с объективной вероятностью этих элементов в тексте.

Очень многие из подобных экспериментов показывают соотношение вербальных (словесных) ассоциаций и процесса порождения связной речи. Выявилась бесспорная связь. Приведем для примера только два эксперимента – Мак-Коркодэйла (США) и Н.Л.Элиава (Грузия). Первый брал предложения типа Дети заметили, что снег начал покрывать землю, когда они покинули … и предлагал заполнить пропуск.

Но в одной группе испытуемых значение <покрывать> было выражено нейтральным глаголом hide, а в другой – глаголом blanket, который ассоциируется с одеялом (по-английски одеяло обозначается тем же словом). В первой группе типичные ответы были школу, дом, автобус, а во второй – постель. Во втором эксперименте нужно было заполнить пропуски в тексте типа: Ле-ал о-ел, ле-ал он среди -орных -уч и с-ал… В зависимости от того, как начинал испытуемый заполнять пропуски (лежал осел – летал орел), он соответственно заполнял и все остальные.

К грамматической стороне порождения все это, однако, прямого отношения не имеет. По данным самых различных экспериментов, во-первых, семантическая и грамматическая структура контекста являются независимыми факторами (однако в дальнейшем выяснилось, что это не совсем так – см. ниже), во-вторых, выбор грамматической категории в значительно меньшей степени зависит от влияния контекста, чем выбор конкретного слова, и, в-третьих, учет предшествующего контекста происходит на протяжении всего высказывания, причем учитываются предшествующие 4-5 слов и этот учет имеет кумулятивный характер.

Второй тип стохастических психолингвистических моделей – это так называемые грамматики с конечным числом состояний. Вообще говоря, модель с конечным числом состояний может и не быть вероятностной (стохастической). Это любая модель, в которой в качестве элемента выступает грамматический класс (например, часть речи) и определяется характер зависимости между последовательно появляющимися грамматическими классами.

Эта зависимость – теоретически – не обязательно будет вероятностной. Но в практике психолингвистического исследования рассматриваются именно вероятностные модели с конечным числом состояний. Особенно часто исследуются вероятностные зависимости между словами разных грамматических классов, выявляющиеся в словесном ассоциативном эксперименте.

Целый ряд психолингвистических исследований посвящен выявлению самих единиц (цепочек, групп элементов), которые связаны в процессе порождения речи вероятностными зависимостями. Уже в 1954 году в знакомой нам книге <Psycholinguistics>, Ф.Лаунсбери ввел понятие <пауз колебания> (иногда этот термин переводят как <паузы хезитации>) и высказал гипотезу, что они <соответствуют точкам наивысшей статистической неопределенности в последовательности единиц данного порядка>, а эти точки, в свою очередь, <соответствуют началу единиц кодирования>. Эта гипотеза в дальнейшем подтвердилась. Особенно много занималась паузами колебания английский психолог Фрида Голдман-Эйслер.

В <классической> осгудовской модели порождения вероятностный принцип также играет огромную роль. По Осгуду, процесс порождения речи осуществляется параллельно на нескольких уровнях по собственным (в том числе вероятностным) закономерностям каждого уровня, причем закономерности распределения единиц высших уровней учитывают закономерности распределения единиц низших уровней.

На <верхнем> уровне, уровне мотивации, единицей, в отношении которой принимается решение, является предложение (высказывание). На втором, семантическом уровне единицей для Ч.Осгуда является в процессе кодирования – <функциональный класс>, а в процессе декодирования – <нуклеус>. Постараемся раскрыть содержание этих понятий.

Самое лучшее определение функционального класса дано… Л.В.Щербой, который в своих ранних работах называл соответствующую единицу <фразой>: фразы суть <…простейшие элементы связной речи, отвечающие единым и далее в момент речи неразлагающимся представлениям>.

Позже Л.В.Щерба ввел вместо этого понятие <синтагмы>. В используемом нами во многих работах эталонном примере Талантливый художник пишет интересную картину единицами кодирования (функциональными классами), по Осгуду, будут талантливый художник, пишет, интересную картину.

Что касается нуклеуса, то это примерно то, что в русской грамматической традиции называется основой слова – словоформа минус морфосинтаксические грамматические элементы (окончания). В приведенном примере разделение по нуклеусам будет следующим: Талантливый-художник-пишет-интересную-картин-у.

На третьем уровне, уровне последовательностей, единицей является фонетическое слово, а на четвертом, интеграционном, – соответственно слог (кодирование) и фонема (декодирование).

Итак, вероятностные модели <работают> только на взаимоотношениях отдельных слов в процессах порождения связной речи, для моделирования грамматической стороны речи они в принципе не применимы. Это касается и грамматик с конечным числом состояний.

Во-первых, есть определенные типы грамматических конструкций, которые принципиально не могут быть порождены при помощи грамматики с конечным числом состояний. Это так называемые <самовставляющие-ся> (self-embedding) и вообще <гнездующиеся> (nesting) предложения (в русской грамматической традиции примерно соответствующие сложноподчиненным предложениям).

Во-вторых (и в-главных), такая модель совершенно невероятна с точки зрения овладения языком. Процитируем по этому поводу известную книгу Дж. Миллера, Е.Галантера и К.Прибрама: <Для того, чтобы ребенок обучился всем правилам… последовательности, построенной по принципу “слева направо”, он должен был бы прослушать правило или пример на него, из которого это правило могло бы быть выведено.

Таким образом, по-видимому, не остается ничего, кроме как утверждать, что ребенок должен выслушать 2’°° предложений, прежде чем он сможет говорить и понимать по-английски. Это приблизительно 10^ предложений…

Короче говоря, ребенок должен был бы выслушивать приблизительно 3х10^ предложений в секунду…, и это только если допустить, что детство длится 100 лет без перерывов на сон, еду и т.д., и что происходит полное усвоение каждого ряда из двадцати слов после одного предъявления.

Даже короткий подсчет убедит каждого, что количество внутренних состояний, необходимых в подобных системах, построенных по принципу “слева направо”, оказывается несостоятельным, прежде чем вся система будет способна иметь дело с чем-нибудь сходным по сложности с естественным языком…>.

Значит ли сказанное, что вероятностные модели и, в частности, модели с конечным числом состояний вообще должны быть отброшены, если мы имеем дело с грамматикой?

Нет, не значит. Ведь приведенные здесь возражения верны при одном непременном условии – что мы придаем грамматике с конечным числом состояний универсальный характер, считая, что раз человек ее использует, он не может параллельно или при определенных условиях использовать какую-то другую модель. Но как только мы допустим, что в различных условиях он может использовать разные модели (см. ниже), возражения снимаются.

Кроме того, есть коммуникативные ситуации, для моделирования которых может оказаться оптимальной именно грамматика с конечным числом состояний. Это, например, детская речь в том периоде ее развития, когда словарь уже усвоен, а грамматика в строгом смысле (мор-фосинтаксис) еще отсутствует. Это спонтанная жестово-мимическая речь глухонемых, автономная речь, креолизованные жестовые языки, используемые для межэтнического общения народами, говорящими на различных языках, и др.

Не исключено, что именно механизм грамматики с конечным числом состояний может успешно моделировать языки, пользующиеся для порождения целого предложения не морфосинтаксисом, а линейным или семантическим синтаксисом, т.е. линейной организацией семантических классов – а это, в частности, все изолирующие языки типа китайского или вьетнамского. Не исключено, что он применим и для моделирования разговорной речи.

Узнай цену консультации

"Да забей ты на эти дипломы и экзамены!” (дворник Кузьмич)