Научная электронная библиотека

Русский язык в деловой интернет-коммуникации

Буторина Е. П.,

3.3. Статистические инструменты выделения связанных единиц

Для статистического исследования официальных текстов интернет-коммуникации мы обратились к материалам официальных сайтов государственных структур РФ, а также справочника «Деловой Интернет» [Латышев 2002], деловых сетей государственных служащих, профессиональных деловых сетей (см. Приложение 2), к текстам досок интернет-объявлений, официальных русскоязычных версий сайтов муниципалитетов за пределами России – всего рассмотрено около 10 000 ссылок, наиболее значимые из которых приводятся в разделе «Источники материала». Процедуры выборки и поиска языковых единиц основываются на предположении о воспроизводимости (иногда с вариациями) текстовых фрагментов деловых коммуникаций, отражающих конвенции различных языковых уровней. Важной отличительной чертой институционального дискурса является его стереотипность, которая реализуется при помощи устойчивых языковых конструкций и сочетаний слов. Коллокации в корпусной лингвистике понимаются как статистически устойчивые словосочетания разной длины [Захаров, Хохлова 2010]. Совместная встречаемость лексем может быть выявлена при помощи программных средств (11), при этом учитываются меры статистической сочетаемости (меры ассоциации) языковых единиц MI и t-score на представительных массивах выборки. Их количественные характеристики можно считать показателями силы синтагматической связи между элементами словосочетаний. Именно материал интернет-коммуникации даёт возможность проведения такого рода исследований – ведь документы на бумажных носителях не доступны для статистического анализа в таком количестве, жанровом и региональном многообразии.

В настоящий момент существует немало статистических мер, позволяющих с достаточно высокой точностью выявить несвободные сочетания слов, однако мы обратимся к наиболее распространенным. Так, чаще других используются меры MI и t-score.

«Мера MI (mutual information) сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно» [Захаров, Хохлова 2010: 78]. Если значение MI (n,c) больше определенного значения (для русского языка часто называется значение 3 и более), тогда рассматриваемое сочетание слов можно считать статистически значимым.

Мера t-score также учитывает частоту совместной встречаемости ключевого и зависимого слов, отвечая на вопрос, насколько неслучайной является сила ассоциации (связанности) между ними.

Статистический подход был избран для снижения субъективности полученных результатов. Обработанный материал сведён в таблицы [Буторина, Соловьева 2012], фрагмент одной из которых приведён ниже.

Таблица 14 (12)

Коллокации (биграммы) модели «Существительное + прилагательное/ существительное» (13)

Коллокация	f(n)	N	f(c)	f(n,c)	Rank	MI	Rank	T-score
					(MI)		(T-score)
место жительства	462	520188	60	44	7	9,6895	55	6,6252
место нахождения	462	520188	99	72	8	9,6775	34	8,4749
предмет залога	225	520188	215	76	9	9,6746	31	8,7071
оплата труда	148	520188	235	53	10	9,6306	48	7,2709
ответственность ограниченная	354	520188	126	67	11	9,6099	39	8,1749
фонд интервенционный	576	520188	55	41	12	9,3949	60	6,3936
управление доверительное	440	520188	59	31	13	9,2789	73	5,5588
информация массовая	481	520188	57	31	14	9,2001	74	5,5583
общество акционерное	600	520188	155	104	15	9,1842	22	10,181
власть исполнительная	707	520188	631	471	16	9,1012	3	21,663
срок разумный	750	520188	18	14	18	9,0754	106	3,7347
объект недвижимости	520	520188	115	61	19	9,0516	42	7,7955
выплата ежемесячная	262	520188	89	23	20	9,0031	89	4,7865
сфера здравоохранения	284	520188	110	30	21	8,9645	79	5,4663
инстанция апелляционная	491	520188	386	167	22	8,8403	16	12,895
страхование социальное	383	520188	573	190	23	8,8149	12	13,753
имущество недвижимое	1109	520188	129	122	24	8,7931	20	11,02
имущество движимое	1109	520188	35	31	25	8,6985	75	5,5544
нарушение существенное	372	520188	44	13	26	8,6905	108	3,5968
иск встречный	267	520188	24	5	27	8,6649	114	2,2306
объем финансирования	226	520188	114	20	28	8,6575	98	4,4611
жалоба кассационная	599	520188	398	185	29	8,657	14	13,568
связь почтовая	624	520188	84	40	30	8,6329	61	6,3086
учет бухгалтерский	496	520188	43	16	31	8,6082	104	3,9897
заявление исковое	680	520188	148	75	32	8,5986	32	8,6379
объект налогообложения	520	520188	31	12	33	8,5971	111	3,4552
страхование медицинское	383	520188	422	118	34	8,569	21	10,834
вид наказания	532	520188	117	45	35	8,5549	51	6,6904
учреждение образовательное	625	520188	438	188	36	8,4808	13	13,673
порядок внесудебный	1361	520188	51	45	37	8,3976	52	6,6883
форма письменная	378	520188	118	28	38	8,3511	82	5,2753
фонд пенсионный	576	520188	161	56	39	8,2952	45	7,4595

Результаты обработки материала показали следующее [Буторина, Соловьёва 2012а, б]:

1. Как уже отмечалось ранее, в списке воспроизводимых частотных сочетаний оказались единицы разной природы, не все из них относятся к собственно коллокациям в лингвистическом понимании. Более половины полученного списка заняли терминологические сочетания, отражающие предметную область текстов. Определение объекта служит для его конкретизации, которая в большинстве текстов других функциональных стилей не требуется, что чаще всего приводит к употреблению только главного слова, входящего в сочетание: дело гражданское/ уголовное, лицо юридическое/должностное/ физическое, имущество движимое / недвижимое/ муниципальное.

2. Можно говорить об особенностях реализации в языке для специальных целей таких абстрактных смыслов, как «форма», «количество» и «качество». Примеры: объем финансирования, вид наказания, письменная форма, размер штрафа, электронный вид, разумный срок, предел полномочий, норма права, случай страховой.

3. Весьма показательным представляется следующий ряд сочетаний: настоящая статья, настоящее положение, настоящее постановление, настоящий порядок, настоящее дело. Здесь слово настоящий выполняет функцию артикля и выражает значение местоимения этот. Интересно, что прилагательное данный, синонимичное прилагательному настоящий, в рассмотренном корпусе юридических текстов не было выявлено в качестве связанного слова. При необходимости выражения смысла дейксиса в юридических текстах привилегию имеет настоящий по сравнению с данный, а для слова данный характерно употребление в официально-деловом и научном стилях. Возможно, стилистика юридических документов является более строгой и ограниченной и не позволяет некоторых синонимических замен, которые допустимы в других подстилях официально-делового стиля.

Нами были выделены сочетания, ключевым словом которых является существительное, а связанным – глагол или другая часть речи, образованная от глагола. Здесь следует заметить, что в список попали преимущественно отглагольные существительные. И это, возможно, связано с тем, что юридическим текстам на русском языке присуще преобладание именных форм над глагольными для обозначения достаточно часто выражаемых смыслов.

Статистическая мера MI выделила следующие сочетания: ограничение жизнедеятельности, представлять угрозу, прийти к выводу, осуществление правосудия, совершение преступления, выплата пособия и т.д. Перечисленные сочетания представляются более узконаправленными и чаще употребляются в конкретных текстах коллекции, нежели в общем массиве.

В процессе работы с мерами ассоциации выявлены их особенности:

1. Меру t-score можно считать инструментом, отвечающим на вопрос «Какие несвободные сочетания являются характерными для данного типа текстов вне зависимости от его тематики?», и использовать ее как критерий для выделения «общеколлекционно значимых» сочетаний. Наиболее высокий ранг по мере t-score получили следующие примеры: орган власти, постановление Правительства, решение суда, судебное заседание, внесение изменений, государственная власть и т.д.

2. Мера MI не является адекватным критерием выделения несвободных единиц, характерных для всего массива текстов в относительно равной степени. При попытке определить, к какой составляющей текста данная мера наиболее чувствительна, конкретного ответа получено не было, однако в диссертации была выдвинута следующая гипотеза: самый высокий ранг по МI получают те сочетания, составляющие которых имеют гораздо большую тенденцию употребляться вместе, нежели по отдельности. «Традиционно считается, что с помощью меры MI хорошо выделяются низкочастотные специальные термины» [Ягунова, Пивоварова 2010], поэтому эта мера была проверена на некоторых несвободных сочетаниях, составляющие которых употреблены в корпусе сравнительно небольшое число раз (до 100). На нашем материале выдвинутая гипотеза нашла свое подтверждение.

Рассмотренный способ выделения несвободных сочетаний позволяет обрабатывать большие массивы актуальных документов, размещенных в Web-среде. После качественного анализа полученные результаты могут послужить материалами к словарю несвободных сочетаний в деловых текстах, а также использоваться в лингводидактике.

11 См., например, http: // www.sketchtngine.co.uk

12 Таблица подготовлена студенткой Института лингвистики РГГУ К.В. Соловьёвой.

13 Ключевое слово выделено полужирным шрифтом.
f(n) – частота встречаемости ключевого слова в корпусе; N – общее число словоупотреблений в корпусе; f(c) – частота встречаемости коллоката ключевого слова в корпусе; f(n,c) – частота встречаемости ключевого слова вместе с коллокатом в корпусе; Rank(MI) – ранг по MI, Rank(T-score) – ранг по T-score. Все коллокации упорядочены по Рангу MI, по убыванию.

Научная электронная библиотека

Монографии, изданные в издательстве Российской Академии Естествознания

3.3. Статистические инструменты выделения связанных единиц

Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания