Разумное. Доброе. Вечное.

AAA
Обычный Черный

Рекомендованное

Опрос

Навигация

Стих дня

Всякая поэзия есть выражение душевного состояния.
© Бергсон А.

17 ноября

Про колбасу

а это кто бредет во мраке
лохматый страшный и босой
так это ж петр на кухню за кол
басой

Новости культуры от Яндекса

ГлавнаяЯзыкознаниеСтатистическая методика в языкознании в диахронии и синхронии


Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)


Статистическая методика в языкознании в диахронии и синхронии

Статистическая методика находит применение в различных методах.

1 этап исследования – наблюдение.

Поиск примеров (показательные примеры - сколько?; полная выборка (если объем текстов ограничен).

Начнем с применения в описательных исследованиях.

Часто по нескольким предложениям можем установить автора (Толстой, Чехов, Паустовский) - вне зависимости от содержания. На этом строится пародия (Жванецкий).

Как объяснить эти факты?

Есть какие-то стабильные признаки в структуре речи?

В речевом потоке у каждого индивидуума тоже отдельные элементы встречаются чаще или реже. Зимняя толпа отличается от весенней по определенным признакам, хотя есть и общие.

Пример. Проверялась гипотеза о том, что читательское впечатление от (стиля Шолохова» или «стиля Симонова» связано с какими-то устойчивыми соотношениями в тексте различных элементов (в частности, части речи).

Сравнивали по 6 выборок из Симонова и Шолохова (из разных произведений).

Как корректно определить фрагмент? Ведь от этого зависит чистота эксперимента.

Бралась только речь авторов. Длина выборки - 500 знаменательных слов.

            Симонов             Шолохов

Сущ.         160                      196

Прил.         59                         74

Глаголы    113                       56

Причастия  21                       56

Принято думать, что части речи слишком абстрактны и инертны, чтобы принимать участие в формировании стилей отдельных авторов.

Однако цифры говорят об обратном. В функциональных стилях должно быть то же.

Цифры по Симонову/Шолохову свидетельствуют не только о сравнительной активности определенной части речи, но и о том, что эта активность проявляется регулярно: в разных местах разных произведений.

Активность определенных синтаксических конструкций тоже регулярна.

Ср. число сложных предложений: Симонов: 27/24/33/32

                                                         Шолохов 11/13/16/13

Эти факты - не самоцель и даже не результат, она - база для формулировки вопросов и лингвистических гипотез.

Например: 1) Есть ли внутренняя связь у данных статистических показателей, т.е. носят ли они  системный характер?

2) Стоит ли за статистическими различиями художественное содержание?

3) Связаны ли изученные морфологические и синтаксические элементы с явлениями в лексике, не изучавшимся в опыте?

4) Можно ли предположить, что в необследованных кусках активность изучаемых элементов будет  той же, что и в выборках (представительность, достоверность выборки)?

5) Есть ли в современной литературе другие писатели, близкие по структуре речи к Симонову и Шолохову?

6) Влияет ли отношение писателя к действительности, которую он изображает, на активность различных явлений языка? И т.д.

Чем же обусловлена необходимость статистического метода?

1. Накопленные знания о языке позволяют утверждать, что языку и речи объективно присущи некоторые количественные признаки, количественные характеристики. Это имплицитно, в неявном виде признается всеми лингвистами: описывая язык, пользуемся понятиями часто, редко, употребительно, неупотребительно, обычно...» Но такие характеристики никак не проверяются - их надежность недостаточна.

В.В. Иванов: «Некоторые основные количественные характеристики носят очень простой характер, фонем от 10 до 80, морфем несколько тысяч, слов примерно 104, 105.

Эти соотношения связаны с устройством человеческой памяти. Соотношение  между количеством слогов (фонем) слов позволяет классифицировать языки по типам.

Так, если слова в языке односложны, они, как правило, состоят из одной морфемы, равной слову. Чтобы передать большее количество смыслов при помощи небольшого набора фонем (чтобы память не перегружалась 107-8 морфем-слов), слоги различаются при помощи музыкального ударения. В абхазском языке (бзибский говор) = 81 фонема - корневая морфема обычно = 1 фонема.

А в русском языке много таких корней.

Знание подобных зависимостей может использоваться и в сравнительно-историческом языкознании. Если для какого-либо языка (например, пракартвельского) из анализа морфемного состава слов (качественный анализ) предполагается, что корень = 1 фонеме, то из этого вытекает, что система фонем превосходит среднюю норму (40).

2. Второе реальное основание для применения статистики в языкознании - зависимость между качественными и количественными характеристиками языковой структуры. Язык с 10 фонемами даст иное качество звукового облика морфем (значит, и слов), нежели язык с 50 фонемами.

3. В мире, в котором мы живем, известны законы двух типов - так называемые динамические и статистические (вероятностные). Действие динамических законов может быть точно предсказано (железо тонет в воде, вода кипит при 100 градусах). Действие статистических законов может быть предсказано лишь в известных пределах от-до, так как результаты колеблются около некоторой средней величины. Статистическим законам подчиняются такие явления природы и общественной жизни, которые испытывают влияние ряда разнонаправленных причин - нет однозначного результат. Ср. факторы влияния на личность - воздействие школы, пропаганды на ребенка.

Частоты различных элементов в речи тоже подчиняются статистическим законам. Самые элементарные понятия: частота, средняя частота, отклонение от средней.

Частота (какого-либо факта, события) - число его проявлений в наблюдаемом отрезке действительности (в тексте). Статистика, как правило, имеет дело не с генеральной совокупностью, а с выборкой (берет «пробы»).

По нескольким пробам судит о частоте в генеральной совокупности - выборочная частота.

                                     Х123+...Хi

Средняя частота: X =    i (число набл.)

Отклонение от средней (дисперсия) - разброс частот. Как ни интересны отдельные отклонения сами по себе, их необходимо несколько обобщать и усреднять.

Абсолютное отклонение:

сумма всех отклонений

на число наблюдений

Где находят применение статистические приемы?

1. Лексикографическая статистика: создание частотных словарей различных языков. Надежность частотных  показателей: какую выборку взять? (Чем больше, тем надежнее!) Как сформировать выборку, чтобы словарь отражал функционирование лексики всего языка, а не отдельных стилей?

Создано более 300 частотных словарей и списков слов. «Словарь языка Пушкина» - частотные признаки даны как вспомогательные в качественном описании лексики.

2. Изучение языковых и речевых стилей.Созрело понимание того, что функционирование языка вариативно, и это лежит в основе стилевой дифференциации языка и речи. Проблема стилистической атрибуции включает как качественные, так и количественные характеристики.

Стиль - это статистическая вероятность.

3. Общие вопросы статистического изучения языка, квантитативный подход к языковым структурам. Получены статистические показатели функционирования фонем и морфем в разных языках, «нагруженность гласных и согласных»

Никонов, См. Богданова, С. 13

4. Известны успехи лингвистов в расшифровке и атрибуции древних текстов. Эти успехи - и от применения статистических методик.

См. Ю.В. Кнорозов. Система письма древних майя. М., 1965 (разработана оригинальная методика, позволившая с помощью статистики расшифровать большую часть письменных документов народа майя).

Сухотин Б.В. Алгоритмы лингвистической дешифровки // Проблемы структурной лингвистики. М., 1983.

5. Особое место занимают статистические приемы в нормативном описательном методе, в нормативной оценке языковых фактов.

Еще в 50-60-х гг. в Советском Союзе лингвисты в регламентирующей сфере языка не обращались к статистическим характеристикам. В АГ-52 в случае колеблющихся вариантов использовались словесные количественные оценки (чаще...) В рекомендательных работах большей точности и не надо: говорящему не обязательно знать, сколько раз он скажет чая или чаю. Это важно знать кодификатору, чтобы сделать выбор.

Нормализатор отвечает на вопрос «как нужно». Но для этого он должен знать «как есть». Это сфера лингвостатистики.

Например, АГ рекомендует вариант самоё (сам идет, самоё ведет; он любит самоё жизнь, дитя/дитё), как традиционно-литературный. В наши дни даже корректоры, самые бдительные блюстители чистоты и правильности речи, сплошь и рядом пропускают жизнелюбивый вариант  саму.

Любая рекомендация окажется легковесной, если не изучить, в том числе и количественно, соотношение этих вариантов, отношение к ним говорящих и т.д. Статистическое обследование может показать реальный перевес одного из вариантов, исход конкуренции.

О вопросниках. Контрольные вопросы.

Условия. Учесть релевантные признаки - факторный анализ.

На первом плане - проблема описания, а не предписания.

Ограниченность статистического метода (по Виноградову):

1) «площадь исследования сужена пределами, доступными данному методу».

См. Граудина. С. 76; Муравьева Русский язык по данным массового обследования.

2) результат подчинен «закону больших чисел»: для достоверности - большой материал; отмечаются лишь типические черты, в то время как качественный методы могут дать ценные наблюдения и на ограниченном материале.

Итак, использование статистики - в области вариативных языковых средств (со стороны их обработки в речи). Разные варианты - разная частота - неодинаковая эффективность: а) снег/снег, дожди/ дож,ж,и; б) редакторы/-а; в отпуске/-у; брызгает/брызжет.

357
08.02.2016 г.

Яндекс.Метрика
Рейтинг@Mail.ru


Индекс цитирования

Уважаемые посетители! С болью в сердце сообщаем вам, что этот сайт собирает метаданные пользователя (cookie, данные об IP-адресе и местоположении). И как ни прискорбно это признавать, но это необходимо для функционирования сайта и поддержания его жизнедеятельности.

Если вы никак, ни под каким предлогом и ни за какие коврижки не хотите предоставлять эти данные для обработки, - пожалуйста, покиньте сайт и забудьте о нём, как о кошмарном сне. Всем остальным - добра и печенек. С неизменной заботой, администрация сайта.