Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания

3.3. Статистические инструменты выделения связанных единиц

Для статистического исследования официальных текстов интернет-коммуникации мы обратились к материалам официальных сайтов государственных структур РФ, а также справочника «Деловой Интернет» [Латышев 2002], деловых сетей государственных служащих, профессиональных деловых сетей (см. Приложение 2), к текстам досок интернет-объявлений, официальных русскоязычных версий сайтов муниципалитетов за пределами России – всего рассмотрено около 10 000 ссылок, наиболее значимые из которых приводятся в разделе «Источники материала». Процедуры выборки и поиска языковых единиц основываются на предположении о воспроизводимости (иногда с вариациями) текстовых фрагментов деловых коммуникаций, отражающих конвенции различных языковых уровней. Важной отличительной чертой институционального дискурса является его стереотипность, которая реализуется при помощи устойчивых языковых конструкций и сочетаний слов. Коллокации в корпусной лингвистике понимаются как статистически устойчивые словосочетания разной длины [Захаров, Хохлова 2010]. Совместная встречаемость лексем может быть выявлена при помощи программных средств (11), при этом учитываются меры статистической сочетаемости (меры ассоциации) языковых единиц MI и t-score на представительных массивах выборки. Их количественные характеристики можно считать показателями силы синтагматической связи между элементами словосочетаний. Именно материал интернет-коммуникации даёт возможность проведения такого рода исследований – ведь документы на бумажных носителях не доступны для статистического анализа в таком количестве, жанровом и региональном многообразии.

В настоящий момент существует немало статистических мер, позволяющих с достаточно высокой точностью выявить несвободные сочетания слов, однако мы обратимся к наиболее распространенным. Так, чаще других используются меры MI и t-score.

«Мера MI (mutual information) сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно» [Захаров, Хохлова 2010: 78]. Если значение MI (n,c) больше определенного значения (для русского языка часто называется значение 3 и более), тогда рассматриваемое сочетание слов можно считать статистически значимым.

Мера t-score также учитывает частоту совместной встречаемости ключевого и зависимого слов, отвечая на вопрос, насколько неслучайной является сила ассоциации (связанности) между ними.

Статистический подход был избран для снижения субъективности полученных результатов. Обработанный материал сведён в таблицы [Буторина, Соловьева 2012], фрагмент одной из которых приведён ниже.

Таблица 14 (12)

Коллокации (биграммы) модели «Существительное + прилагательное/ существительное» (13)

Коллокация

f(n)

N

f(c)

f(n,c)

Rank

MI

Rank

T-score

 

 

 

 

 

(MI)

 

(T-score)

 

место жительства

462

520188

60

44

7

9,6895

55

6,6252

место нахождения

462

520188

99

72

8

9,6775

34

8,4749

предмет залога

225

520188

215

76

9

9,6746

31

8,7071

оплата труда

148

520188

235

53

10

9,6306

48

7,2709

ответственность ограниченная

354

520188

126

67

11

9,6099

39

8,1749

фонд
интервенционный

576

520188

55

41

12

9,3949

60

6,3936

управление
доверительное

440

520188

59

31

13

9,2789

73

5,5588

информация
массовая

481

520188

57

31

14

9,2001

74

5,5583

общество
акционерное

600

520188

155

104

15

9,1842

22

10,181

власть
исполнительная

707

520188

631

471

16

9,1012

3

21,663

срок разумный

750

520188

18

14

18

9,0754

106

3,7347

объект
недвижимости

520

520188

115

61

19

9,0516

42

7,7955

выплата
ежемесячная

262

520188

89

23

20

9,0031

89

4,7865

сфера
здравоохранения

284

520188

110

30

21

8,9645

79

5,4663

инстанция
апелляционная

491

520188

386

167

22

8,8403

16

12,895

страхование
социальное

383

520188

573

190

23

8,8149

12

13,753

имущество
недвижимое

1109

520188

129

122

24

8,7931

20

11,02

имущество
движимое

1109

520188

35

31

25

8,6985

75

5,5544

нарушение
существенное

372

520188

44

13

26

8,6905

108

3,5968

иск встречный

267

520188

24

5

27

8,6649

114

2,2306

объем
финансирования

226

520188

114

20

28

8,6575

98

4,4611

жалоба
кассационная

599

520188

398

185

29

8,657

14

13,568

связь почтовая

624

520188

84

40

30

8,6329

61

6,3086

учет бухгалтерский

496

520188

43

16

31

8,6082

104

3,9897

заявление исковое

680

520188

148

75

32

8,5986

32

8,6379

объект
налогообложения

520

520188

31

12

33

8,5971

111

3,4552

страхование
медицинское

383

520188

422

118

34

8,569

21

10,834

вид наказания

532

520188

117

45

35

8,5549

51

6,6904

учреждение
образовательное

625

520188

438

188

36

8,4808

13

13,673

порядок внесудебный

1361

520188

51

45

37

8,3976

52

6,6883

форма письменная

378

520188

118

28

38

8,3511

82

5,2753

фонд пенсионный

576

520188

161

56

39

8,2952

45

7,4595

Результаты обработки материала показали следующее [Буторина, Соловьёва 2012а, б]:

1. Как уже отмечалось ранее, в списке воспроизводимых частотных сочетаний оказались единицы разной природы, не все из них относятся к собственно коллокациям в лингвистическом понимании. Более половины полученного списка заняли терминологические сочетания, отражающие предметную область текстов. Определение объекта служит для его конкретизации, которая в большинстве текстов других функциональных стилей не требуется, что чаще всего приводит к употреблению только главного слова, входящего в сочетание: дело гражданское/ уголовное, лицо юридическое/должностное/ физическое, имущество движимое / недвижимое/ муниципальное.

2. Можно говорить об особенностях реализации в языке для специальных целей таких абстрактных смыслов, как «форма», «количество» и «качество». Примеры: объем финансирования, вид наказания, письменная форма, размер штрафа, электронный вид, разумный срок, предел полномочий, норма права, случай страховой.

3. Весьма показательным представляется следующий ряд сочетаний: настоящая статья, настоящее положение, настоящее постановление, настоящий порядок, настоящее дело. Здесь слово настоящий выполняет функцию артикля и выражает значение местоимения этот. Интересно, что прилагательное данный, синонимичное прилагательному настоящий, в рассмотренном корпусе юридических текстов не было выявлено в качестве связанного слова. При необходимости выражения смысла дейксиса в юридических текстах привилегию имеет настоящий по сравнению с данный, а для слова данный характерно употребление в официально-деловом и научном стилях. Возможно, стилистика юридических документов является более строгой и ограниченной и не позволяет некоторых синонимических замен, которые допустимы в других подстилях официально-делового стиля.

Нами были выделены сочетания, ключевым словом которых является существительное, а связанным – глагол или другая часть речи, образованная от глагола. Здесь следует заметить, что в список попали преимущественно отглагольные существительные. И это, возможно, связано с тем, что юридическим текстам на русском языке присуще преобладание именных форм над глагольными для обозначения достаточно часто выражаемых смыслов.

Статистическая мера MI выделила следующие сочетания: ограничение жизнедеятельности, представлять угрозу, прийти к выводу, осуществление правосудия, совершение преступления, выплата пособия и т.д. Перечисленные сочетания представляются более узконаправленными и чаще употребляются в конкретных текстах коллекции, нежели в общем массиве.

В процессе работы с мерами ассоциации выявлены их особенности:

1. Меру t-score можно считать инструментом, отвечающим на вопрос «Какие несвободные сочетания являются характерными для данного типа текстов вне зависимости от его тематики?», и использовать ее как критерий для выделения «общеколлекционно значимых» сочетаний. Наиболее высокий ранг по мере t-score получили следующие примеры: орган власти, постановление Правительства, решение суда, судебное заседание, внесение изменений, государственная власть и т.д.

2. Мера MI не является адекватным критерием выделения несвободных единиц, характерных для всего массива текстов в относительно равной степени. При попытке определить, к какой составляющей текста данная мера наиболее чувствительна, конкретного ответа получено не было, однако в диссертации была выдвинута следующая гипотеза: самый высокий ранг по МI получают те сочетания, составляющие которых имеют гораздо большую тенденцию употребляться вместе, нежели по отдельности. «Традиционно считается, что с помощью меры MI хорошо выделяются низкочастотные специальные термины» [Ягунова, Пивоварова 2010], поэтому эта мера была проверена на некоторых несвободных сочетаниях, составляющие которых употреблены в корпусе сравнительно небольшое число раз (до 100). На нашем материале выдвинутая гипотеза нашла свое подтверждение.

Рассмотренный способ выделения несвободных сочетаний позволяет обрабатывать большие массивы актуальных документов, размещенных в Web-среде. После качественного анализа полученные результаты могут послужить материалами к словарю несвободных сочетаний в деловых текстах, а также использоваться в лингводидактике.


11 См., например, http: // www.sketchtngine.co.uk

12 Таблица подготовлена студенткой Института лингвистики РГГУ К.В. Соловьёвой.

13 Ключевое слово выделено полужирным шрифтом.
f(n) – частота встречаемости ключевого слова в корпусе; N – общее число словоупотреблений в корпусе; f(c) – частота встречаемости коллоката ключевого слова в корпусе; f(n,c) – частота встречаемости ключевого слова вместе с коллокатом в корпусе; Rank(MI) – ранг по MI, Rank(T-score) – ранг по T-score. Все коллокации упорядочены по Рангу MI, по убыванию.


Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674