Uchim biz
образовательный портал

Хороших методов существует ровно столько, сколько существует хороших учителей. (Д.Пойа)
Анкеты репетиторов

Добавить анкету


ПедСовет
Статьи на uchim.biz



Главная » Статьи » Ученикам » ВУЗы

Виды алгоритмов компьютерной лингвистики в историческом исследовании
Традиционным способом работы историка над историческим текстом долгое время было лишь его «кропотливое» вчитывание в содержание письменного документа. Данный способ работы безусловно позволял историку не только получить явные фактографические сведение об историческом контексте документа, но и, как утверждают многие историки позволял «услышать» прошлое, запечатленное в источнике.
Наша точка зрения о работе с текстами нарративных источников заключается в том, что получение информации при изучении исторических документов возможно только при использовании самых различных приёмов обработки текста, когда историк в лишний раз сможет перепроверить результаты своих исследований.
Отрицание такого подхода абсолютизирует роль источника, при котором происходит чрезмерная констатация фактов, являющихся частью реконструированной историком в нетекстовой реальности источника.
Можно долго оперировать философскими утверждениями относительно роли исторического текста в реконструкции прошлого, однако очевидно то, что при традиционном способе исторического познания в поле исследования историка не попадает сам создатель документа (реконструкция стратегий коммуникатора, предлагаемых им ценностей, моделей поведения, коммуникативных намерений), абсолютно не известен и сам получатель информации документа (реконструкция информационных потребностей, интересов и предпочтений аудиторий) [4].
Работа историка при традиционном подходе сводится к логической компоновке фактов, относительно своей парадигмы. В лучшем случаи мы получаем событийную картину элемента исторического прошлого, при этом нас никто не обезопасит от такого явления, с которым часто сталкиваются кинематографисты, а именно с проблемой синхронизации восприятия информации, как в среде ее создателей (авторов документов), так и редактора (историка), читателя.
Возможные пути решения наличной проблемы автор видит в задействовании методологического аппарата уже состоявшихся научных направлений, как компьютерная лингвистика в сочетании с исторической информатикой. Объектом исследований научных направлений является техническая обработка текста по выявлению лингвистических, социально-исторических компонентов языка (дискурса) и его особенностей.
Любая область междисциплинарного исследования требует конкретного пояснения понятий. Поэтому приведем в нашей статье определение понятия компьютерная лингвистика.
Компьютерная лингвистика − это область знания, связанная с решением задач автоматической обработки информации, представленной на естественном языке. Центральной научной проблемой компьютерной лингвистики является моделирование процесса понимания смысла текста (переход от обычного текста к формализованному представлению его смысла) и синтеза речи (переход от формализованного представления смысла к тексту на естественном языке). Этот вопрос возникает при рассмотрении ряда прикладных задач, в частности автоматического обнаружения и исправления ошибок при вводе текста в компьютер, автоматического анализа и синтеза устной речи, автоматического перевода текста с одного языка на другой, при общении с компьютером (диалоговой системой) на естественном языке, при классификации, индексировании, реферировании текстовых документов [2].
Единицами анализа в компьютерной лингвистики являются различного уровня части речи и языка: морфемы, слова, словосочетания, фразы, сверхфразовые единства. Данные единицы в совокупности представляют собой иерархическую систему, в которой запечатлено смысловое содержание текста (совокупность различных концептов). В качестве средств изучения единиц языка и речи могут выступать процедуры морфологического, семантико-синтаксического и концептуального (прагматического) анализа и синтеза.
Заявленная проблема в разные годы поднималась в трудах таких исследователей как: Ю.Д. Апресян, Л.И. Бородкин, Д.В. Виноградов, A.B. Гладкий, Б.М. Клосс, О.С. Кожунова, А.Л. Кобринский, И.Д. Мельчук, А.Е. Супрун, А. Тодд, Н.С. Трубецкой, Ч. Филмор, А.Т. Фоменко, Н.П. Харин и др.
Отметим работы, представляющие наибольший интерес для историков, применяющих компьютерный анализ текста:
• А.С. Григорьев «Разработка метода и создание системы полнотекстового поиска на основе статистической обработки ограниченного контекста слова»;
• Т.В. Ефимова «Лингвистический анализ и формальное представление содержания нарративного текста»;
• К.А. Чубинидзе «Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов»;
• Е.И. Прохоренко «Разработка новых методов и алгоритмов компьютерной обработки речевых данных в информационно-телекоммуникационных системах»;
• А.В. Сокирко «Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ».
При использовании приёмов компьютерной лингвистики историк способен решить ряд алгоритмов, в частности в вопросе обеспечения процессов сбора, накопления, обработки и поиска информации. Отметим виды этих алгоритмов:
1) Автоматизация составления, а также последующая лингвистическая обработка электронных словарей.
При работе с текстом нарративных источников историк сталкивается с проблемой тезаурусного наполнения описательной информацией своих трудов, особенно когда многое в тексте является уже известным, или когда источники перегружены фактографическим сопровождением исторического сюжета, события, ситуации (не имея введу детализацию).
Алгоритм автоматизированного составления словарей словосочетаний (слов), выражающих научно-технические понятия может быть полезным историку в составлении профессионально-тематических словарей области профессионального знания, с дальнейшей по возможности классификацией массива текстовых источников, по определению их принадлежности к тому или иному стилю (школе, направлению и др.) Такая возможность может быть реализована при классификации других нарративных источников, содержание которых при внешней одинаковости, имеет различное контекстное описание.
Тем самым историку открывается возможность проводить более целенаправленный отбор источников.
В системах компьютерного анализа текста электронные словари решают проблему установления парадигматических отношений между понятиями, выраженными отдельным словом или словосочетанием (синонимия, омонимия, причина-следствие и других устойчивые внеконтекстные ассоциативные отношения).
Опираясь на тезаурусы, терминологические (толковые) и энциклопедические словари, исследователь способен выявлять парадигматические отношения, что позволяет составлять словари парных связей слов. Полученные таким образом словари могут быть обогащены посредством процедуры логического вывода, в которой применимо правило смыслового переноса, когда через общие переменные можно находить связи между словами разделенные структурными частями массива текста (части предложений, предложения, абзац, раздел, текст, тексты).
2) Индексирование документов и информационных запросов.
С ростом числа «потенциальных» источников исторического исследования (массовые документы, многотомные собрания, диссертации, газетные статьи и др.) в оцифрованном виде историку представляется важным организация процесса обращения к ним по мере введения в свою практику необходимого массива документов, отобранных по заранее сформированному запросу информационного поиска.
Проблема компьютерного индексирования документов и запросов является достаточно традиционной для систем компьютерного поиска текстовой информации. В основе данных систем заложен алгоритм присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. Это позволяет трансформировать достаточно большие массивы документов в конкретно сформулированные «поисковые образы», являющиеся формализованным вариантам описания документов. При этом приобретаемый вид перечня ключевых слов и словосочетаний «поисковые образы» (хэши, индексы) документов позволяет историку сберечь время на систематизацию документов по тематике их содержания.
Кроме этого «поисковые образы» запросов, представленные в виде логических конструкций, в которых ключевые слова и словосочетания соединяются друг с другом логическими и синтаксическими операторами, позволяют сводить документы с более высокой долей корреляционной связи.
3. Автореферирование и аннотирование документов.
При выполнении научной работы у историка возникает необходимость смыслового сжатия собранных им материалов для систематизации и дальнейшего их анализа. Процедурой выполнение этой задачи служит реферирование научного текста. Под рефератом автор подразумевает доклад, сообщение, в котором отраженно основное смысловое поле текста документа(ов). При этом подход автоматического реферирования текста в компьютерной лингвистике основан на репродуктивном алгоритме воспроизведения первичного текста, где выделяются два способа составления реферата это конспект и резюме.
Под рефератом-конспектом подразумевают текст, содержащий фактическую информацию в обобщенном виде, а под рефератом-резюме – текст, содержащий сущностные компоненты первоисточника.
Из имеющихся способов реферирования текста отметим простой и сложный способ.
Простой способ автоматического реферирования основывается на применении статистического анализа, с привлечением весовых коэффициентов и сопоставления фразовых (лингвистических) шаблонов. Сложный способ применяется совместно с семантическим анализом текста, для выполнения которого требуются словари и онтологические тезаурусы, позволяющие получить логические выводы на основании временных, пространственных, каузальных и других показателей.
4) Построение лингвистических процессоров, обеспечивающих работу пользователей с автоматизированными интеллектуальными информационными системами на естественном языке, или на языке, близком к естественному.
Данная задача является достаточно новой в научном исследовании, в том числе и для историков. Она представляет собой генерацию предыдущих трех алгоритмов, являющихся основными элементами работы интеллектуальных (экспертных) систем компьютерной обработки текста.
Под системами экспертного анализа текста понимаются технологическая обработка информации, т.е. анализ контента открытых информационных ресурсов, относившихся к определенной предметной области, или исследование представленных в открытой среде фактов и точек зрения на проблемы, события и процессы в истории и различных сферах социальной и общественно-политической жизни [1].
Принцип выполнения данной задачи аналогичен сбору материалов, по истории или исторических материалов и их специального представления в виде онтологического списка (словаря) с дальнейшей автоматизированной обработкой данных.
Системы экспертного анализа позволяют историку развивать систему фактографических знаний событий, ситуаций, явлений применяя при этом специальные технологии и инструменты извлечения фактографической информации и проведения над ним семантического анализа, для получения уже вторичной (сгенерированной) информации. Кроме этого процесс экспертного (компьютерного) изучения текста позволяет историку смоделировать типовую структуру процесса формирования знания. Это же, что происходит и в научной практике, когда исследователь, привлекая новые источники, меняет свое представление об изучаемом объекте исторического познания.
Под структурой процесса формирования знания нами имеется в виду следующая схема: одиночный факт – обобщённый факт – эмпирическое суждение – гипотеза – формальное утверждение. Эта схема сведена к модели генерирования знания посредством введения семантического узла (факта) с контекстными связями других компонентов текста.
При этом в качестве модели интерпретации формального утверждения служит факт (узел) с наибольшим количеством смысловых (синтаксиса-семантических) отношений.
5. Извлечение фактографической информации.
Извлечение фактографической информации из наративных источников представляет собой процесс получения из неструктурированного текста релевантных данных, т.е. информации соответствующей типологии запроса.
Среди алгоритмов компьютерного анализа текста, данный алгоритм занимает функциональное место между информационным поиском и экспертным (смысловым) анализом текста. Для историка данная задача позволяет вычленить из текста нарративного источника информацию, сгруппированную по типу данных, а также категориально различимую в слабоструктурированном массиве текста. Это очень полезно при выделении из источников дат, название географических объектов, персоналий, понятий и др.
6. Определение авторства.
Вычленение информации из текста в виде словарного списка или же найденного набора данных по запросу, конечно же, позволяет историку в большинстве случаях решить основные задачи компьютерного анализа текста, однако исследовательская практика требует атрибутивного изучения нарративных источников. Атрибуция письменного источника в компьютерной лингвистке связанна с определением авторства текста, путем сопоставления стилистики написанного текста (зная кто создатель) с текстом над которым проводиться атрибуция.
Алгоритм определения авторства текста базируется на учете статистики употребления пар элементов (лингвистических), идущих друг за другом в тексте (букв, морфем, словоформ и т.п.).
Из ряда методов выполнение данной задачи отметим новый прием атрибуции текста, предложенный исследователем Д.В. Хмелевым [5]. Его метод основывается на формальной математической модели последовательности букв (и др. компонентов текста) как реализации «цепи Маркова». Так в качестве механизма выполнения данного приема служит матрица переходных частот слов (букв в словах) текста уже известного автора. Полученная матрица атрибутивного текста сравнивается с матрицами изучаемых текстов с последующим выводом процентного совпадения их значений. Процент совпадений, по которому следует считать тексты одного автора, должен быть не ниже 70%. Такой алгоритм позволяет историку не только определить возможного автора текста, но и вычленить различные списочные дополнения текста, внесенные автором либо же другими лицами при редактировании текста нарративного источника.
Названные алгоритмы компьютерной лингвистики, как правило, ценны при выполнении задач обработки исторических текстов посредством таких методов как контент-анализ, психолингвистический анализ, дискурс-анализ.
При реализации компьютерного контент-анализа в историческом исследовании решаются две задачи. Первая ориентирована на определение структуры текста изучаемых нарративных документов, вторая нацелена на семантическое определение смыслового взаимодействия различных составных частей текста. Для этого используется лингвистическая и статистическая техника, например кластерный анализ или анализ связей. При этом историк может воспользоваться рядом программ автоматизированного анализа текста. Среди них назвем ARRAS, TACT, TextPack V, SYREX, SATO и др. [6].
Использование компьютерных программ в контент-анализе обеспечивает этому методу явные преимущества, заключающиеся в надежности получаемых данных и быстроте анализа в сравнении с обычным, выполняемым людьми-кодировщиками, которые подвержены ошибкам из-за утомления и субъективных пристрастий. Трудоемкость составления программ окупается тем огромным объемом содержания, которое достаточно быстро и надежно можно проанализировать на компьютере.
Что же касается компьютерной реализации метода дискурс-анализа, то на начальном этапе работы она равносильна с проведением автоматизированного контент-анализа, когда системы индексируют наиболее значимые слова текста, размещают их по смысловым категориям, определяют частотность и корреляцию связей дескрипторов. На следующем этапе (металингвистическом уровне) используются приемы лингвистического анализа – определение шума, метафор, идиом, эмоционально-окрашенных слов. В дальнейшем производится интерпретация их значений.
Из числа программ наиболее подходящих для нашей работы являются такие разработки компьютерного дискурс-анализа как: NVivo 9, MAXqda, Atlas.ti, HyperRESEARCH, Kwalitan, EMOTAIX Tropes и др. [4, c.176].
На выполнение психолингвистического анализа исторических текстов ориентированы системы реализации психолингвистического контент-анализа, а именно: Vaal-2000, PROTAN, LIWC. Основной принцип работы данных систем заключается в составлении психологического портрета личности (группы) по результатам анализа текстов публичных выступлений. Основными компонентам такого анализа являются:
• оценки происходящих явлений (оптимистические, дружеские / враждебные, оптимистические / пессимистические, всесторонний / ограниченный);
• мотивации (достижение, близость, власть);
• личностные слова (я, мы, мне);
• выражение чувств;
• прямая отсылка к аудитории;
• интенсификации наречием;
• риторические вопросы,
• метафоры и т.д. [4, c. 177].
Основной проблемой применения в практике научно-исторического исследования систем алгоритмического анализа текста является его «историчность». Имеется в виду обозначение возможности раскрытия причинно-следственных связей рассматриваемых исторических событий в текстах нарративных источников. Поэтому их изучение посредством использования компьютерного контент-анализа, психолингвистического анализа и дискурс-анализа предполагает одновременно научную критику; в том числе определение временных и пространственных факторов, прямо или косвенно содержащихся в документах, их социальной направленности, общественного контекста, изменение смыслового содержания понятий во времени, «эзопова языка», − учета совокупности факторов, лежащих за пределами вычислительной лингвистики. В этом случае большую роль начинают играть исследования по теории и практике аргументации, риторике, социальной семиотике, психолингвистике, лингвистической семантике, прагмалингвистики и теории массовой коммуникации [3].

1. Белкин, В.Ю. Система экспертного ситуационного анализа открытых информационных ресурсов /В.Ю. Белкин, К.И. Костенко, Б.Е. Левицкий // Материалы X-ой Всерос. научно-метод. конф. «Телематика 2003» [Электронный ресурс] / Гос. научно-исслед. ин-т инф. технол. и телекоммун. – М., 2003-2012. – Режим доступа: http://www.ict.edu.ru/vconf/files/10105.pdf. – Дата доступа: 11.01.2012.
2. Белоногов, Г.Г. Компьютерная лингвистика и перспективные информационные технологии. Глава 1. / Г.Г. Белоногов. − М. : Русский мир, 2004. − 248 c.
3. Петров, А.Н. Компьютерный анализ текста: историография метода / А.Н. Петров // Круг идей: модели и технологии исторической информатики. Труды III конференции АИК / Ред. Л.И. Бородкин и И.Ф. Юшин. – М., 1996.
4. Сидорцов, В. Н. Изучение личности в истории: ориентация на контент-анализ, психоанализ, дискурс-анализ / В. Н. Сидорцов, А. А. Приборович. – Минск : Изд. центр БГУ, 2011. – С. 35.
5. Хмелев, Д.В. Распознавание автора текста с использованием цепей А.А. Маркова / Д.В. Хмелев // Вести. МГУ. Сер. 9. Филология. – 2000. – №2. – С. 115–126.
6. Lancashire, I. The Humanities Computing Yearbook. 1989/90 / I. Lancashire // A Comprehensive Guide to Software and Other Resources. – Oxford, 1991. – P. 489–497.
Категория: ВУЗы
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]
Мы рекомендуем

О проекте | Анкеты репетиторов | Обратная связь © 2009 - 2018 uchim.biz - НАЙТИ РЕПЕТИТОРА – ЛЕГКО Хостинг от uCoz
27.04.2018 Использование материалов допускается только при наличии активной ссылки Образовательный портал Uchim.biz