Презентация на тему: Лингвистические базы данных. Корпусная лингвистика. Тема 9

Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Исходные понятия корпусной лингвистики
Технология создания корпусов
Технология создания корпусов
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Лингвистические базы данных. Корпусная лингвистика. Тема 9
Список литературы
1/31
Средняя оценка: 4.8/5 (всего оценок: 88)
Код скопирован в буфер обмена
Скачать (184 Кб)
1

Первый слайд презентации

Лингвистические базы данных. Корпусная лингвистика. Тема 9

Изображение слайда
2

Слайд 2

Содержание Лингвистические базы данных: предпосылки создания лингвистических баз данных, история применения технологии БД в лингвистике. Виды, принципы функционирования, области применения. Исходные понятия корпусной лингвистики. Виды корпусов, принципы организации, системы управления, использование в прикладных целях. Важнейшие текстовые корпусы русского и других языков.

Изображение слайда
3

Слайд 3

Лингвистические базы данных Лингвистические электронные ресурсы должны решать следующие задачи: структурирование научной информации; структурирование и первичный анализ эмпирического материала; поиск новых способов фиксации и хранения эмпирического материала; верификация результатов исследования; поиск новых методов обработки материала для оптимизации исследования и получения новых результатов. Следовательно, необходимо создать различные информационные системы для аккумуляции, хранения и первичной обработки лингвистической информации: словари; лингвистические корпусы; лингвистические базы данных.

Изображение слайда
4

Слайд 4

Лингвистические базы данных В настоящее время компьютерное представление информации в виде баз данных используется в самых разных областях языкознания и прикладной лингвистики: описание языков, как широко известных, так и мало изученных, в типологической и сравнительной лингвистике; фонетические исследования; лексикография, в том числе составление словарей; изучение грамматики, выявление и оценка грамматических моделей; семантические исследования, включая составление тезаурусов; в компьютерной лингвистике и для решения прикладных лингвистических задач, в частности: обучение языкам с помощью компьютерных средств; создание систем автоматического перевода; обеспечение лингвистических аспектов речевых технологий (автоматического распознавания и синтеза речи); исследования в области психолингвистики; исследования в области социолингвистики; исследования в области диалектологии.

Изображение слайда
5

Слайд 5

База данных База данных — внутренний носитель знаний о предметной области; — совокупность данных, организованных по определенным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ. — объективная форма представления и организации совокупности данных (например, статей, расчетов), систематизированных таким образом, чтобы эти данные могли быть найдены и обработаны с помощью ЭВМ».

Изображение слайда
6

Слайд 6

Лингвистические базы данных: виды Наиболее универсальны по применению такие базы данных, назначение которых состоит в описании конкретных языков. Международный Компьютерный Архив Современного Английского Языка ( International Computer Archive of Modern English – ICAME ); Речевая База Данных Академии Авиации США; базы данных различных языков: французского, немецкого, голландского, японского, русского. Для некоторых лингвистических проектов сбор данных и исследования проводятся одновременно по многим языкам: Летний Институт Лингвистики США ( SIL ) составляет базы данных по 850 языкам; в рамках программы ЮНЕСКО - Системы Обеспечения Образовательных Новаций для Развития Стран Африки ( NEIDA ) -создается база данных по языкам Африки; задачей европейской программы Multilingual Corpora for Cooperation ( MLCC ), является создание масштабной базы данных европейских языков.

Изображение слайда
7

Слайд 7

Лингвистические базы данных: виды Кроме универсальных баз данных создаются информационные лингвистические ресурсы, фиксирующие единицы отдельных уровней языка: Фонетические. Лексикографические. Грамматические.

Изображение слайда
8

Слайд 8

Фонетические ЛБД Анализ речевых сигналов обычно связан с обработкой очень больших объемов исходного материала в силу этого именно в области фонетики впервые стали использовать технологии баз данных. Основное назначение фонетических баз данных – « поиск и проверка гипотез о свойствах звуков речи, тестирование и подгонка параметров моделей и методов анализа речевого сигнала, а также настройка систем автоматического распознавания и синтеза речи». Лингвистические задачи, решаемые с использованием фонетических баз данных: изучение фонетических свойств речи как на сегментном, так и на супрасегментном уровнях; разработка систем синтеза и автоматического распознавания речи; разработка систем верификации и идентификации личности по голосу.

Изображение слайда
9

Слайд 9

Фонетические ЛБД Фонетические базы данных включают: речевой материал, содержащий всевозможные варианты звуковых единиц с сохранением их естественной частоты встречаемости; описание этого материала в виде орфографической записи, транскрибированной записи и маркировок, соотносящих каждую единицу записи с соответствующим ей участком в акустическом сигнале. По типу представленного в базе материала выделяются: «полевые» записи; записи дикторов по телефону; записи искусственных текстов.

Изображение слайда
10

Слайд 10

Фонетические ЛБД По охвату материала фонетические базы данных можно разделить на три группы: «энциклопедические» - описывающие фонетический строй конкретного языка (языков); базы данных для обеспечения разработок в области речевой технологии (автоматического распознавания и синтеза речи); для решения других специальных задач (диалектологических, социолингвистических и т. п.). Индивидуальная структура и организация, речевой материал напрямую зависят от целей создания базы данных Создание фонетической базы данных - задача, требующая координированных усилий целого ряда специалистов: лингвистов, отвечающих за отбор адекватного материала, фонетистов, отвечающих за форму представления информации, программистов, создающих адекватную оболочку для хранения и оперирования фонетической информацией.

Изображение слайда
11

Слайд 11

Фонетические ЛБД Фонетический фонд русского языка: Кафедра фонетики и Лаборатория экспериментальной фонетики СПбГУ. Фонд создан в конце 80-х годов ХХ в. под руководством Л. В. Бондарко; Вычислительный центр РАН; Институт Проблем Передачи Информации РАН. База данных, предназначенная для разработки независимых от диктора систем распознавания; Отделение радиовещания Всероссийского Исследовательского Института Телевидения и Радио. база данных создана для обеспечения систем компилированного синтеза качественных радиовещательных сообщений на русском, украинском и киргизском языках; Речевые базы данных региональных и диалектных вариантов русского языка, базы данных для аллофонного синтеза: Филологический факультет СПбГУ, МГУ; специализированная акустическая база данных, обеспечивающая доступ к ценным архивным звуковым материалам, («Сказки русского севера», «Обрядовая поэзия Русского Севера (плачи)» - из звукового архива В. М. Жирмунского): кафедра фонетики СПбГУ; Фонетическая база данных русской литературной и диалектной фонетики. Институт русского языка РАН; База данных для аллофонного синтеза была создана и в МГУ им. М. В. Ломоносова.

Изображение слайда
12

Слайд 12

Лексикографические ЛБД В лексикографии базы данных используются для составления и обработки разного рода автоматизированных словарей. В форму баз данных переводятся уже готовые и известные словари. Активно разрабатываются словарные базы данных специальной и терминологической лексики. Базы данных, содержащие грамматическую информацию, представляют грамматические модели, существующие в языке, что дает возможность оценить функционирование грамматических моделей и выявить закономерности, необходимые для формирования статистически-вероятностной модели языка.

Изображение слайда
13

Слайд 13

Исходные понятия корпусной лингвистики Корпусная лингвистика – это раздел прикладной лингвистики, который направлен на разработку общетеоретических принципов «построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий». Корпусные исследования начались гораздо раньше, чем появились термин корпус. Формирование понятийной и терминологической системы корпусной лингвистики стали результатом разработки и применения новых методов. Причины возникновения нового методологического подхода: необходимость решения проблемы сбора и хранения лингвистических данных для полноценных исследований, организация удаленного доступа к данным; первичная аналитическая обработка материала и создание алгоритмов, облегчающих поиск конкретных лингвистических данных.

Изображение слайда
14

Слайд 14

Исходные понятия корпусной лингвистики В.П. Захаров указывает следующие предпосылки создания лингвистических корпусов: 1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений; 2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения; 3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях

Изображение слайда
15

Слайд 15

Исходные понятия корпусной лингвистики Лингвистический (языковой) корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Как правило, корпус сопровождается системой управления текстовыми и лингвистическими данными или корпусный менеджером (англ. corpus manager). Проблемная область / предметная область — область реализаций языковой системы, содержащая феномены, подлежащие лингвистическому описанию. Представлена множеством данных, обработка которых затруднена.

Изображение слайда
16

Слайд 16

Исходные понятия корпусной лингвистики Корпус данных – «сформированная по определенным правилам выборка данных из проблемной области» или ее структурированное отображение. Параметризация проблемной области – выделение некоторых характеристик текстов проблемной области, которые релевантны для предполагаемого исследования. Совокупность этих характеристик (их возможные комбинации) образует многомерную матрицу, служащую основой для отбора текстов в корпус. При этом происходит сужение проблемной области к исследовательскому корпусу или отбор качественно релевантных текстов, способных репрезентировать проблемную область в корпусе без включения однотипных контекстов. Порог отображения – соотношение между корпусом данных и проблемной областью при пропорциональном сужении. Каждый корпус данных является отображением проблемной области, но пропорционально суженным, т.к. невозможно отобразить абсолютно все контексты, функционирующие в ПО.

Изображение слайда
17

Слайд 17

Исходные понятия корпусной лингвистики Единица хранения корпуса данных – « совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на некотором метаязыке, определяемом процедурой формирования корпуса. На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе». Единицей хранения может выступать совокупность единиц любой длины от отдельного высказывания (корпус рекламных слоганов) до развернутых текстов (корпус художественной прозы). Структуризация материала – принципы, лежащие в основе определения единиц хранения данных. Желательно сопоставить корпусу опись данных, в которой единицы хранения характеризуются по тем параметрам, которые могут оказаться важными для пользователя.

Изображение слайда
18

Слайд 18

Исходные понятия корпусной лингвистики Репрезентативность корпуса – свойство корпуса, связанное с количественно-качественными параметрами представления проблемной области. Это достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Полнота корпуса – свойство, тесно связанное с репрезентативностью, экономичностью и порогом отображения. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Экономичность корпуса – характеристика, вытекающая из структурных параметров корпуса и связанная с экономией усилий пользователя, работающего с корпусом.

Изображение слайда
19

Слайд 19

Исходные понятия корпусной лингвистики Разметка корпуса – «приписывание текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте <…> метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков». Среди лингвистических типов разметки выделяются: морфологическая разметка; синтаксическая разметка; семантическая разметка; анафорическая разметка; просодическая разметка.

Изображение слайда
20

Слайд 20

Признак Типы корпусов Тип данных Письменные Речевые Смешанные Язык текстов Русский Английский и т.д. «Параллельность» Одноязычные Двуязычные Многоязычные «Литературность», специфичность Литературные Диалектные Разговорные Терминологические Смешанные

Изображение слайда
21

Слайд 21

Жанр Литературные Фольклорные Драматургические Публицистические Доступность Свободно доступные Коммерческие Закрытые Назначение Исследовательские Иллюстративные Динамичность Динамические (мониторные) Статические Разметка Размеченные Неразмеченные

Изображение слайда
22

Слайд 22

Характер разметки Морфологические Синтаксические Семантические Просодические и т.д. Объем текстов Полнотекстовые «Фрагментнотекстовые» Хронологический аспект Синхронические Диахронические «Общность» Общие Одного писателя Структура Центральные и архивные Ядерные и периферийные

Изображение слайда
23

Слайд 23: Исходные понятия корпусной лингвистики

Конкорданс – список контекстов, где искомая единица представлена в ее лексическом окружении и характеризуется набором статистических данных. Корпусный менеджер (корпус-менеджер) (англ. corpus manager) - специализированная поисковая система управления текстовыми и лингвистическими данными, которая включает программные средства для поиска в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Изображение слайда
24

Слайд 24: Технология создания корпусов

Создание корпуса включает в себя следующие этапы: 1. Определение списка источников эмпирического материала. 2. Перевод текстов в электронную форму (оцифровка текстов). 3. Филологическая обработка текстов (корректура и редактирование), а также подготовка библиографического и экстралингвистического описания текста. 4. Конвертирование и графематический анализ, заключающиеся в перекодировке, удалении дополнительного форматирования и некоторых объектов в виде графических объектов и таблиц.

Изображение слайда
25

Слайд 25: Технология создания корпусов

5. Разметка текста – «приписывание текстам и их компонентам дополнительной информации (метаданных). Метаописание текстов корпуса включает как содержательные элементы данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), так и формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ). Эти данные обычно вводятся вручную. Структурная разметка документа (выделение абзацев, предложений, слов) и собственно лингвистическая разметка обычно осуществляются автоматически». 6. Корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности (вручную или полуавтоматически). 7. Конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку. 8. Обеспечение доступа к корпусу.

Изображение слайда
26

Слайд 26

Название корпуса Описание корпуса Объем корпуса. Национальный корпус русского языка. http://ruscorpora.ru Национальный корпус русского языка, как и остальные существующие в настоящее время национальные корпусы, представляет собой некоммерческий Интернет-продукт, созданный разработчиками поисковой системы Яндекс ( Yandex ) и представительной группой московских и петербургских лингвистов. 70 млн словоупотреблений. Компьютерный корпус текстов русских газет конца ХХ-го века. http://www.philol.msu.ru/~lex/corpus 200 тыс. словоупотреблений. Система поиска по корпусу временно недоступна Корпус русского языка ХАНКО (Хельсинский университет). http://www.ling.helsinki.fi/projects/hanco/ Составлен по материалам журнала «Итоги» 100 тыс. словоупотреблений. Ручная морфологическая разметка

Изображение слайда
27

Слайд 27

Корпусы русских текстов на сайте Университета в Лидсе, Великобритания. http://corpus.leeds.ac.uk Русские корпуса Тюбингенского Университета. http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html Собрание не очень тесно связанных между собой подкорпусов, и не репрезентирует русский язык в целом. Словарь-корпус языка А.С. Грибоедова. http://www.inforeg.ru/electron/concord/concord.htm 120 тыс. словоупотреблений. Уппсальский корпус русских текстов. Доступен для поиска на сайте http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html 600 русских художественных (1960-88 гг.) и информативных (публицистических и научных) текстов (1985-89 гг.). 1 млн словоупотреблений. Фонетический фонд русского языка. Представляет звуковой материал, отражающий закономерности функционирования системы русского языка.

Изображение слайда
28

Слайд 28

Британский национальный корпус. http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk/ Представляет английский язык конца ХХ в. Включает письменные тексты (90 %) и устную речь (10 %) - орфографическая расшифровка спонтанных неформальных разговоров, «контекстно-ориентированную» устную речь. 100 млн словоупотреблений. Корпусные менеджеры SARA и XAIRA (http://www.xaira.org) Банк английского языка (Bank of English). http://www.collins.co.uk/books.aspx?group=153 Свободный доступ: http://www.collins.co.uk/Corpus/CorpusSearch.aspx 524 млн словоупотреблений, 56 млн в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн – брит. англ., 10 млн – амер. англ., 10 млн – брит. разговорн. англ.) Венгерский национальный корпус. http://corpus.nytud.hu/mnsz/ 100 млн словоупотреблений. Национальный корпус словенского языка. http://www.fida.net/eng/ Более 100 млн словоупотреблений.

Изображение слайда
29

Слайд 29

Польский национальный корпус. http://korpus.ia.uni.lodz.pl/ 93 млн словоупотреблений. Словацкий национальный корпус. http://korpus.juls.savba.sk 180 млн словоупотреблений. Используется корпусный менеджер Manatee/Bonito. Хорватский национальный корпус. http://www.hnk.ffzg.hr/ 53 млн словоупотреблений. Корпусный менеджер Manatee/Bonito. Чешский национальный корпус. http://ucnk.ff.cuni.cz Результат реализации академического проекта в Карловом университете Праги. Корпус представляет письменные тексты на чешском языке. 100 млн словоупотреблений + 100 млн нового корпуса современной лексики. Корпусный менеджер Manatee/Bonito. Корпус современного датского языка. http://www.korpus2000.dk/ 50 млн словоупотреблений. Тексты 1998–2002 гг. Корпус современного итальянского языка CORIS/CODIS. http://www.cilta.unibo.it/ricerca.htm 100 млн словоупотреблений.

Изображение слайда
30

Слайд 30

Корпус современного китайского языка (LIVAC Synchronous Corpus). http://www.rcl.cityu.edu.hk/livac/ 720 млн словоупотреблений. (150 млн иероглифов) Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany). http://corpora.ids-mannheim.de/~cosmas/ 1610 млн словоупотреблений. Корпусный менеджер COSMAS Эстонский корпус. http://test.cl.ut.ee/korpused/baaskorpus/1980/index.html.en Корпус испанского языка (исторический). http://www.corpusdelespanol.org/ 100 млн словоупотреблений, тексты 13–20 вв. Создан в Иллинойском университете, США Корпус латинских текстов «Персей». http://www.perseus.tufts.edu

Изображение слайда
31

Последний слайд презентации: Лингвистические базы данных. Корпусная лингвистика. Тема 9: Список литературы

Баранов А.Н. Введение в прикладную лингвистику. – М., 2001. Мишанкина Н.А. Основные направления прикладной лингвистики. Учебно-методический комплекс / Н.А. Мишанкина, ТГУ. - Томск, 2010. Режим доступа: http://edu.tsu.ru/eor/resourse/192/tpl/index.html. Шаров С.А. Представительный корпус русского языка в контексте мирового опыта. НТИ, 2003, серия 2, N5 Зубов А.В., Зубова И.И. Информационные технологии в лингвистике: учеб. Пособие для студентов линг.фак.вузов. – М.: Изд.центр «Академия», 2004. – 208 с. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. СПб., 2005. 48 с.

Изображение слайда