Для статистического исследования официальных текстов интернет-коммуникации мы обратились к материалам официальных сайтов государственных структур РФ, а также справочника «Деловой Интернет» [Латышев 2002], деловых сетей государственных служащих, профессиональных деловых сетей (см. Приложение 2), к текстам досок интернет-объявлений, официальных русскоязычных версий сайтов муниципалитетов за пределами России – всего рассмотрено около 10 000 ссылок, наиболее значимые из которых приводятся в разделе «Источники материала». Процедуры выборки и поиска языковых единиц основываются на предположении о воспроизводимости (иногда с вариациями) текстовых фрагментов деловых коммуникаций, отражающих конвенции различных языковых уровней. Важной отличительной чертой институционального дискурса является его стереотипность, которая реализуется при помощи устойчивых языковых конструкций и сочетаний слов. Коллокации в корпусной лингвистике понимаются как статистически устойчивые словосочетания разной длины [Захаров, Хохлова 2010]. Совместная встречаемость лексем может быть выявлена при помощи программных средств (11), при этом учитываются меры статистической сочетаемости (меры ассоциации) языковых единиц MI и t-score на представительных массивах выборки. Их количественные характеристики можно считать показателями силы синтагматической связи между элементами словосочетаний. Именно материал интернет-коммуникации даёт возможность проведения такого рода исследований – ведь документы на бумажных носителях не доступны для статистического анализа в таком количестве, жанровом и региональном многообразии.
В настоящий момент существует немало статистических мер, позволяющих с достаточно высокой точностью выявить несвободные сочетания слов, однако мы обратимся к наиболее распространенным. Так, чаще других используются меры MI и t-score.
«Мера MI (mutual information) сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно» [Захаров, Хохлова 2010: 78]. Если значение MI (n,c) больше определенного значения (для русского языка часто называется значение 3 и более), тогда рассматриваемое сочетание слов можно считать статистически значимым.
Мера t-score также учитывает частоту совместной встречаемости ключевого и зависимого слов, отвечая на вопрос, насколько неслучайной является сила ассоциации (связанности) между ними.
Статистический подход был избран для снижения субъективности полученных результатов. Обработанный материал сведён в таблицы [Буторина, Соловьева 2012], фрагмент одной из которых приведён ниже.
Таблица 14 (12)
Коллокации (биграммы) модели «Существительное + прилагательное/ существительное» (13)
Коллокация |
f(n) |
N |
f(c) |
f(n,c) |
Rank |
MI |
Rank |
T-score |
|
|
|
|
|
(MI) |
|
(T-score) |
|
место жительства |
462 |
520188 |
60 |
44 |
7 |
9,6895 |
55 |
6,6252 |
место нахождения |
462 |
520188 |
99 |
72 |
8 |
9,6775 |
34 |
8,4749 |
предмет залога |
225 |
520188 |
215 |
76 |
9 |
9,6746 |
31 |
8,7071 |
оплата труда |
148 |
520188 |
235 |
53 |
10 |
9,6306 |
48 |
7,2709 |
ответственность ограниченная |
354 |
520188 |
126 |
67 |
11 |
9,6099 |
39 |
8,1749 |
фонд |
576 |
520188 |
55 |
41 |
12 |
9,3949 |
60 |
6,3936 |
управление |
440 |
520188 |
59 |
31 |
13 |
9,2789 |
73 |
5,5588 |
информация |
481 |
520188 |
57 |
31 |
14 |
9,2001 |
74 |
5,5583 |
общество |
600 |
520188 |
155 |
104 |
15 |
9,1842 |
22 |
10,181 |
власть |
707 |
520188 |
631 |
471 |
16 |
9,1012 |
3 |
21,663 |
срок разумный |
750 |
520188 |
18 |
14 |
18 |
9,0754 |
106 |
3,7347 |
объект |
520 |
520188 |
115 |
61 |
19 |
9,0516 |
42 |
7,7955 |
выплата |
262 |
520188 |
89 |
23 |
20 |
9,0031 |
89 |
4,7865 |
сфера |
284 |
520188 |
110 |
30 |
21 |
8,9645 |
79 |
5,4663 |
инстанция |
491 |
520188 |
386 |
167 |
22 |
8,8403 |
16 |
12,895 |
страхование |
383 |
520188 |
573 |
190 |
23 |
8,8149 |
12 |
13,753 |
имущество |
1109 |
520188 |
129 |
122 |
24 |
8,7931 |
20 |
11,02 |
имущество |
1109 |
520188 |
35 |
31 |
25 |
8,6985 |
75 |
5,5544 |
нарушение |
372 |
520188 |
44 |
13 |
26 |
8,6905 |
108 |
3,5968 |
иск встречный |
267 |
520188 |
24 |
5 |
27 |
8,6649 |
114 |
2,2306 |
объем |
226 |
520188 |
114 |
20 |
28 |
8,6575 |
98 |
4,4611 |
жалоба |
599 |
520188 |
398 |
185 |
29 |
8,657 |
14 |
13,568 |
связь почтовая |
624 |
520188 |
84 |
40 |
30 |
8,6329 |
61 |
6,3086 |
учет бухгалтерский |
496 |
520188 |
43 |
16 |
31 |
8,6082 |
104 |
3,9897 |
заявление исковое |
680 |
520188 |
148 |
75 |
32 |
8,5986 |
32 |
8,6379 |
объект |
520 |
520188 |
31 |
12 |
33 |
8,5971 |
111 |
3,4552 |
страхование |
383 |
520188 |
422 |
118 |
34 |
8,569 |
21 |
10,834 |
вид наказания |
532 |
520188 |
117 |
45 |
35 |
8,5549 |
51 |
6,6904 |
учреждение |
625 |
520188 |
438 |
188 |
36 |
8,4808 |
13 |
13,673 |
порядок внесудебный |
1361 |
520188 |
51 |
45 |
37 |
8,3976 |
52 |
6,6883 |
форма письменная |
378 |
520188 |
118 |
28 |
38 |
8,3511 |
82 |
5,2753 |
фонд пенсионный |
576 |
520188 |
161 |
56 |
39 |
8,2952 |
45 |
7,4595 |
Результаты обработки материала показали следующее [Буторина, Соловьёва 2012а, б]:
1. Как уже отмечалось ранее, в списке воспроизводимых частотных сочетаний оказались единицы разной природы, не все из них относятся к собственно коллокациям в лингвистическом понимании. Более половины полученного списка заняли терминологические сочетания, отражающие предметную область текстов. Определение объекта служит для его конкретизации, которая в большинстве текстов других функциональных стилей не требуется, что чаще всего приводит к употреблению только главного слова, входящего в сочетание: дело гражданское/ уголовное, лицо юридическое/должностное/ физическое, имущество движимое / недвижимое/ муниципальное.
2. Можно говорить об особенностях реализации в языке для специальных целей таких абстрактных смыслов, как «форма», «количество» и «качество». Примеры: объем финансирования, вид наказания, письменная форма, размер штрафа, электронный вид, разумный срок, предел полномочий, норма права, случай страховой.
3. Весьма показательным представляется следующий ряд сочетаний: настоящая статья, настоящее положение, настоящее постановление, настоящий порядок, настоящее дело. Здесь слово настоящий выполняет функцию артикля и выражает значение местоимения этот. Интересно, что прилагательное данный, синонимичное прилагательному настоящий, в рассмотренном корпусе юридических текстов не было выявлено в качестве связанного слова. При необходимости выражения смысла дейксиса в юридических текстах привилегию имеет настоящий по сравнению с данный, а для слова данный характерно употребление в официально-деловом и научном стилях. Возможно, стилистика юридических документов является более строгой и ограниченной и не позволяет некоторых синонимических замен, которые допустимы в других подстилях официально-делового стиля.
Нами были выделены сочетания, ключевым словом которых является существительное, а связанным – глагол или другая часть речи, образованная от глагола. Здесь следует заметить, что в список попали преимущественно отглагольные существительные. И это, возможно, связано с тем, что юридическим текстам на русском языке присуще преобладание именных форм над глагольными для обозначения достаточно часто выражаемых смыслов.
Статистическая мера MI выделила следующие сочетания: ограничение жизнедеятельности, представлять угрозу, прийти к выводу, осуществление правосудия, совершение преступления, выплата пособия и т.д. Перечисленные сочетания представляются более узконаправленными и чаще употребляются в конкретных текстах коллекции, нежели в общем массиве.
В процессе работы с мерами ассоциации выявлены их особенности:
1. Меру t-score можно считать инструментом, отвечающим на вопрос «Какие несвободные сочетания являются характерными для данного типа текстов вне зависимости от его тематики?», и использовать ее как критерий для выделения «общеколлекционно значимых» сочетаний. Наиболее высокий ранг по мере t-score получили следующие примеры: орган власти, постановление Правительства, решение суда, судебное заседание, внесение изменений, государственная власть и т.д.
2. Мера MI не является адекватным критерием выделения несвободных единиц, характерных для всего массива текстов в относительно равной степени. При попытке определить, к какой составляющей текста данная мера наиболее чувствительна, конкретного ответа получено не было, однако в диссертации была выдвинута следующая гипотеза: самый высокий ранг по МI получают те сочетания, составляющие которых имеют гораздо большую тенденцию употребляться вместе, нежели по отдельности. «Традиционно считается, что с помощью меры MI хорошо выделяются низкочастотные специальные термины» [Ягунова, Пивоварова 2010], поэтому эта мера была проверена на некоторых несвободных сочетаниях, составляющие которых употреблены в корпусе сравнительно небольшое число раз (до 100). На нашем материале выдвинутая гипотеза нашла свое подтверждение.
Рассмотренный способ выделения несвободных сочетаний позволяет обрабатывать большие массивы актуальных документов, размещенных в Web-среде. После качественного анализа полученные результаты могут послужить материалами к словарю несвободных сочетаний в деловых текстах, а также использоваться в лингводидактике.
12 Таблица подготовлена студенткой Института лингвистики РГГУ К.В. Соловьёвой.
13 Ключевое слово выделено полужирным шрифтом.
f(n) – частота встречаемости ключевого слова в корпусе; N – общее число словоупотреблений в корпусе; f(c) – частота встречаемости коллоката ключевого слова в корпусе; f(n,c) – частота встречаемости ключевого слова вместе с коллокатом в корпусе; Rank(MI) – ранг по MI, Rank(T-score) – ранг по T-score. Все коллокации упорядочены по Рангу MI, по убыванию.