Презентация на тему: Современная корпусная лингвистика

Реклама. Продолжение ниже
Современная корпусная лингвистика
План лекции
Современная корпусная лингвистика
Что такое корпус?
Корпусы могут быть:
Корпус vs. электронная библиотека
Современная корпусная лингвистика
Для чего нужен корпус и как он помогает лингвистам в исследованиях?
Современная корпусная лингвистика
Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика
История и современность
Традиционная лингвистика vs. корпусная лингвистика
Современная корпусная лингвистика
Современная корпусная лингвистика
Современная корпусная лингвистика
Корпусы национальных языков мира vs. специализированные корпусы
Современная корпусная лингвистика
Национальный корпус русского языка
Национальный корпус русского языка
Владимир Плунгян, «О корпусной лингвистике »
Домашнее задание от Т.И. (до 10.11 ):
1/21
Средняя оценка: 4.3/5 (всего оценок: 17)
Код скопирован в буфер обмена
Скачать (287 Кб)
Реклама. Продолжение ниже
1

Первый слайд презентации: Современная корпусная лингвистика

Тупицына Екатерина

Изображение слайда
1/1
2

Слайд 2: План лекции

Что такое корпус? Для чего он нужен и как он помогает лингвистам в их исследованиях? Корпус vs. электронная библиотека. Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика. Корпусы национальных языков мира vs. специализированные корпусы. Национальный корпус русского языка. Владимир Плунгян, «О корпусной лингвистике ».

Изображение слайда
1/1
3

Слайд 3

http://www.gramota.ru – справочно-информационный портал «Русский язык» http://www.ruscorpora.ru – Национальный корпус русского языка

Изображение слайда
1/1
4

Слайд 4: Что такое корпус?

Corpus ( на латинском ‘ тело ’) В.П. Захаров, к.ф.н., доцент кафедры математической лингвистики филологического факультета СПбГУ: лингвистический корпус – «большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач». в широком смысле: в узком смысле: совокупность текстов, объединенных каким-либо общим признаком (автор, время издания, жанр: корпус текстов Льва Николаевича Толстого, корпус русской лирики ХХ века). совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой.

Изображение слайда
1/1
5

Слайд 5: Корпусы могут быть:

по языку представления текстов : одноязычные, многоязычные; по жанровой принадлежности : литературные, разговорные, диалектные, публицистические, смешанные; по свободе доступа : открытые, коммерческие, закрытые; по динамичности : динамические (мониторные), статические и проч.; по форме хранения : в звуковой форме, письменные, смешанные; по назначению : исследовательские, иллюстративные; по наличию дополнительной информации : аннотированные (размеченные), неразмеченные.

Изображение слайда
1/1
6

Слайд 6: Корпус vs. электронная библиотека

Лингвистический корпус текстов Электронная библиотека образцы текстов; полные тексты; лингвистическая разметка; библиографические и историко-культурные элементы данных; лингвостатистика ; отсутствие статистики; репрезентативность языкового материала «условная»; полнота текстов электронной библиотеки; отбор языкового материала на основе критериев репрезентативности, лингвистической и историко-культурной значимости. отбор текстов, определяемый выбором составителей библиотеки.

Изображение слайда
1/1
7

Слайд 7

Библиотека Максима Мошкова ( http://www.lib.ru/ ); Фундаментальная электронная библиотека ( http://feb-web.ru/ ); Русская виртуальная библиотека ( http://www.rvb.ru/ ); Библиотека Алексея Комарова ( http://ilibrary.ru/ ).

Изображение слайда
1/1
Реклама. Продолжение ниже
8

Слайд 8: Для чего нужен корпус и как он помогает лингвистам в исследованиях?

машинный перевод ( http://translate.google.ru ) ; сбор лингвистической информации по заданным параметрам – лексическим и грамматическим; лексикография ( частотные словари, семантическая деривация, неологизмы); семантика (семантические категории слов); диахронная лингвистика (исторические исследования); лингвистическая обработка больших массивов текстов; системы автоматической обработки текста.

Изображение слайда
1/1
9

Слайд 9

Объем выборки – 504 лексемы. В среднем у каждого глагола обнаруживаются 2-3 значения, в которых реализована сема ‘ говорение ’ : 504 х 2 = 1008 ЛСВ со значением речи. ВОРЧАТЬ, -чу, - чишь ; нсв. 1. (на кого-что ). Сердито бормотать, выражая неудовольствие, раздражение (обычно в адрес кого-, чего-л.); брюзжать. И Василиса, второй раз согревавшая девочкам обед, переставала ворчать. (Людмила Улицкая. Казус Кукоцкого (Путешествие в седьмую сторону света) // «Новый Мир», 2000); Он позвонил ещё раз и ещё раз и начал ворчать и тихонько ругаться. (М. А. Булгаков. Мастер и Маргарита, часть 1 (1929-1940)) 2. Издавать негромкие урчащие звуки, выражая недовольство, угрозу, злобу и т.п. (о животных) (БТС) ГОРЛАНИТЬ, -ню, - нишь ; нсв. что и без дополн. Разг.-сниж. Говорить, кричать или петь слишком громко, во всё горло (БТС). Россия, конечно же, великая страна, но надо все-таки совесть иметь и не горланить согласно грубой пословице: « Нажрался, как дурак на поминках». (Евгений Попов. Подлинная история «Зеленых музыкантов» (1997)); И пешеходы выпрыгивали из-под нашей машины, как куры, и мы мчались с неслыханной быстротой, и мне было очень весело, и на душе было свободно, и очень хотелось горланить что-нибудь отчаянное. (Виктор Драгунский. Денискины рассказы/ На Садовой большое движение (1963))

Изображение слайда
1/1
10

Слайд 10: Из истории развития корпусной лингвистики: традиционная лингвистика vs. корпусная лингвистика

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. Два аспекта: создание и разметка (аннотирование) корпусов текстов, разработка средств поиска по ним; собственно лингвистический – экспериментальные исследования на базе корпусов.

Изображение слайда
1/1
11

Слайд 11: История и современность

конец XIX – начало XX в. – создание частотных словарей 60-х гг. ХХ в. – первые корпусы текстов (прообразом служат словарные картотеки) 1963 г. – Брауновский корпус ( Brown Corpus) появление периодических изданий, посвященных проблемам корпусной лингвистики: International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal 2001 г. – начало работ по созданию Национального корпуса русского языка

Изображение слайда
Изображение для работы со слайдом
1/2
12

Слайд 12: Традиционная лингвистика vs. корпусная лингвистика

Традиционная лингвистика Корпусная лингвистика изучение языка; изучение речи; описание и объяснение языка; описание языка, как он проявил себя в речи; идёт от теории к её объяснению и подтверждению в фактах речи; опирается на данные корпуса текста; квалитативные методы; квантитативные методы; часть традиций, базирующихся на рационалистических методах; часть традиций, базирующихся на эмпирических методах; текст рассматривается как некоторая абстракция; текст рассматривается как физическая сущность; внимание не только к форме, но и к содержанию; основное внимание уделяется форме; рассматривает тексты в локальной перспективе; рассматривает тексты в глобальной перспективе; анализирует некоторую конкретную, искусственно ограниченную, проблемную область; фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном никакими догмами;

Изображение слайда
1/1
13

Слайд 13

Традиционная лингвистика Корпусная лингвистика опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований; опирается на наблюдение речевой деятельности, проявленной в виде текстов; предпочитает логические рассуждения; пользуется вероятностными методами и статистикой для первичной обработки речевого материала; искусственные примеры из изолированных от текста словоупотреблений; проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте; дедуктивные методы обработки эмпирического словесного материала; индуктивные методы обработки эмпирического словесного материала (суть научного метода); верит в открытия, основанные на процедурах, оценках, сравнениях и т.д. верит в научные открытия, основанные на обработке эмпирических данных. Но что же именно изучает лингвистика – язык или речь?

Изображение слайда
1/1
14

Слайд 14

« Corpus linguistics doesn’t mean anything. It’s like saying <…> suppose physics and chemistry decide that instead of relying on experiments, what they’re going to do is [to] take videotapes of things happening in the world and they’ll collect huge videotapes of everything that’s happening and from that maybe they’ll come up with some generalizations or insights. Well, you know, sciences don’t do this ». N. Chomsky [ Andor, J.: 2004, ‘The master and his performance: An interview with Noam Chomsky’, Intercultural Pragmatics, 1:1, 93-111]

Изображение слайда
1/1
Реклама. Продолжение ниже
15

Слайд 15

«Корпусная лингвистика ничего не значит. Это все равно, что сказать <…> допустим, что физики и химики, вместо того, чтобы полагаться на эксперименты, начнут записывать на видео все, что происходит в мире, соберут большую коллекцию того, что происходит, и на основе этого может быть придут к каким-то обобщениям или озарениям. Вы же знаете, что в науке так не принято» N. Chomsky [ Andor, J.: 2004, ‘The master and his performance: An interview with Noam Chomsky’, Intercultural Pragmatics, 1:1, 93-111]

Изображение слайда
1/1
16

Слайд 16: Корпусы национальных языков мира vs. специализированные корпусы

http://www.ruscorpora.ru – Национальный корпус русского языка; http://opencorpora.org/ – Открытый корпус русского языка; http://www.narusco.ru/ – Корпус русского литературного языка; http://nkjp.pl/ – Национальный корпус польского языка; http://korpus.cz/ – Национальный корпус чешского языка; http://www.natcorp.ox.ac.uk/ – Британский национальный корпус; http://www.ge.ilc.cnr.it/strumenti.php – Национальный корпус итальянского языка; http://cblle.tufs.ac.jp/llc/ja/search.php?menulang=en – Обучающий корпус японского языка и др.

Изображение слайда
1/1
17

Слайд 17

http://foni.uio.no:3000/users/sign_in – корпус древних переводов Нового завета университета Осло; http://www.childes.psy.cmu.edu – корпус детской речи; http://www.statmt.org/europarl/ – корпус слушаний Европарламента; https://ec.europa.eu/jrc/en/institutes/ipsc/?id=198 – корпус документов Евросоюза (более 20 языков); и др.

Изображение слайда
1/1
18

Слайд 18: Национальный корпус русского языка

объем – более 500 млн. слов; метаразметка и морфологическая разметка; 13 корпусов текстов; возможность задать подкорпус ; графики частотности словоформ; тексты XVIII – XIX веков + исторический корпус.

Изображение слайда
Изображение для работы со слайдом
1/2
19

Слайд 19: Национальный корпус русского языка

1. Поиск по корпусу (основной, газетный, синтаксический…). 2. Выбор подкорпуса (автор, дата создания текста, жанр…). 3. Графики частотности.

Изображение слайда
1/1
20

Слайд 20: Владимир Плунгян, «О корпусной лингвистике »

Изображение слайда
1/1
21

Последний слайд презентации: Современная корпусная лингвистика: Домашнее задание от Т.И. (до 10.11 ):

Выберите два любых полисеманта, у которых не менее 3 значений. Найти примеры употребления каждого ЛСВ слова. Матлингвисты – художественные тексты второй половины XX в ека, востоковеды – публицистические тексты XXI века, филологи – художественные тексты XIX века. 2. Выберите два любых слова и проследите частотность их употребления в текстах с 1800 по 2010 год. С чем может быть связано такое строение графика частотности? Какие экстралингвистические факторы, по вашему мнению, повлияли на такое словоупотребление? ! Задание оформить на двух страницах А4 следующим образом (подписать ФИО и группу!): шрифт – Times New Roman, размер шрифта – 12, выравнивание по ширине, отступ слева и справа – 0 см, интервал перед и после – 0 пт, первая строка – отступ 1,25 см, междустрочный интервал – множитель 1,15.

Изображение слайда
1/1
Реклама. Продолжение ниже