Презентация на тему: Лекция 5

Лекция 5.
Лекция 5.
Лекция 5.
Как производится поиск с помощью информационно-поисковой системы
Параметры информационного поиска
Релевантные документы, найденные и ненайденные документы и «шум»
Поисковый запрос
Атрибуты документов/ метаданные для поиска
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Лекция 5.
Найдем негативные отзывы потре-бителей о Sony DSC-F 828 CyberShot
Лекция 5.
Лекция 5.
1/27
Средняя оценка: 4.0/5 (всего оценок: 82)
Код скопирован в буфер обмена
Скачать (857 Кб)
1

Первый слайд презентации: Лекция 5

Информационные поисковые системы (ИПС) Internet Search Engines Принципы автоматизированного поиска

Изображение слайда
2

Слайд 2

Информационно-поисковая система (ИПС) Каталоги – «вчерашний день» ( Rambler Top100 и пр.) НО: сохраняется принцип библиотеки (стеллажи, каталоги, пневмопочта для требований, система доставки книг и пр.) Любая система, включающая в себя: некоторый массив информации (напр. документов), представленной в виде электронной базы данных средства поиска по этому массиву (с помощью фильтров и/или языка запросов) возможность полного или частичного доступа пользователя к найденной информации (документам) Примеры ИПС электронные базы данных и поисковые машины Интернет, Google, Yandex, Паблик.ру, anekdot.ru, сайт zakupki.gov.ru, сайты билетных агентов, туроператоров … 2

Изображение слайда
3

Слайд 3

Из чего состоит/ как работает ИПС Не ищет по всему интернету. Состоит из: веб-паук (для интернет ИПС) или технология заливки текстов (для баз СМИ) + база-индексатор + алгоритм поиска и оценки релевантности (степени соответствия документа запросу) Примерный алгоритм: робот-браузер (веб-паук, обходчик, crawler и пр.)  скан содержимого  скачивание информации  импорт в базу данных  индексация в базе данных  наложение алгоритма поиска  проверка/верификация найденного по запросу  выдача пользователю Google, Yandex ( Rambler, Yahoo, MSN, Alexa …) – до десятка роботов (базовый краулер, индексатор картинок, индексатор зеркал, индексатор блогов, индексатор новостных потоков…) + «дятлов»/ простукивалок … Релевантность определяют на основе комплекса факторов: наличие слов, расстояния между словами, поиск по тем же словам, посещаемость, индекс цитируемости страницы, шрифт и положение искомого на странице, возраст сайта и пр. … Не всегда проникают «вглубь»/Не заходит за «шлюзы»/ не всегда корректно работает со сниппетами (например соцсетей )… 3

Изображение слайда
4

Слайд 4: Как производится поиск с помощью информационно-поисковой системы

4 Как производится поиск с помощью информационно-поисковой системы Пользователь Потребность в информации Поисковая система Результат удовлетворяет? качество, количество найденной информации Результат поиска (найденная информация, документы) Средства поиска Массив информации, документов Выдача найденного Поисковый запрос Уточнение поисковой задачи / запроса Exit НЕТ ДА

Изображение слайда
5

Слайд 5: Параметры информационного поиска

5 Параметры информационного поиска Релевантность (Relevance) - мера соответствия результатов поиска задаче, поставленной в запросе Коэффициент полноты поиска (Recall ratio) - отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве Коэффициент точности поиска (Precision ratio) - отношение числа найденных релевантных документов к общему числу выданных документов Поисковый шум (Noise) - совокупность выданных нерелевантных документов Коэффициент шума (Noise ratio) - отношение числа выданных нерелевантных документов в к общему числу выданных документов Задача оптимизации поиска – добиться максимальной выдачи релевантных документов при минимизации шума

Изображение слайда
6

Слайд 6: Релевантные документы, найденные и ненайденные документы и «шум»

6 Релевантные документы, найденные и ненайденные документы и «шум» Исходный массив документов, по которым производится поиск Документы исходного массива, отвечающие потребностям поиска (теоретически релевантные) Поисковый шум (найденные нерелевантные документы) Все найденные по запросу документы Найденные документы, отвечающие потребностям поиска (эмпирически релевантные документы) Ненайденные релевантные документы ( упущенный полезный сигнал)

Изображение слайда
7

Слайд 7: Поисковый запрос

7 Поисковый запрос Что такое поисковый запрос? Это совокупность настроек и «команд» к поисковой системе, ограничивающая область и предмет поиска в сообразно информационно-поисковой задаче Пользователя Элементы запроса могут быть заданы в неявном и/или явном виде Явный - элементы запроса формируются с помощью языка запросов Неявный – когда элементы запроса можно выбрать с помощью предлагаемых поисковой системой «флажков» (рубрик, диапазона дат, типов докуметов и т.п.) Пример информационно-поисковой системы, формирующей запрос в неявном виде – сайт почти любого туроператора (как правило, необходимо выбрать вариант из набора жестких параметров – страна, курорт, число туристов, параметры отеля, продолжительность отдыха и т.д.) Развитые поисковые системы позволяют комбинировать запрос в виде явно и неявно заданных элементов (Яндекс, Google, Паблик.ру, Factiva и др.) Наиболее удобные для «продвинутого» поиска системы (напр. Factiva, Lexis ) позволяют задавать почти любые неявные элементы запроса в явном виде (вместо отметки всевозможных «флажков» можно задать все то же самое в командной строке запроса)

Изображение слайда
8

Слайд 8: Атрибуты документов/ метаданные для поиска

8 Атрибуты документов/ метаданные для поиска Заголовок (Название документа) Автор Источник, Сайт, URL Дата, время Начало документа (лид, первый абзац), конец документа Подписи (теги) к фотографиям, картинкам, видеороликам, аудиороликам Размер документа (в словах, печатных знаках или килобайтах) Формат файла ( html, doc, pdf и т.д.) А также: Число просмотров (популярность), тональность, жанр, количество внешних ссылок на документ, атрибутируемые объекты внутри документа, ссылки на другие документы, уникальный номер или код документа и т.д.) Атрибуты документов, используемые в Информационно-правовой системе « Кодекc » Название документа Вид документа Принявший орган Номер документа Дата принятия документа Дата и номер регистрации в Минюсте России Тип документа Статус документа (действие/ недействие ) Дата начала действия и дата окончания действия

Изображение слайда
9

Слайд 9

9

Изображение слайда
10

Слайд 10

Google Google занимает более 70 % мирового рынка поиска. Около 150 тыс. ЭВМ. В день индексирует ~ 50 млн. поисковых запросов и свыше 8 млрд. веб-страниц. Всего ~ 10+ трлн. документов ( 700+ млн. на рус.) Собственная интеллектуальная техника анализа текстов (~словарь Романова). От содержания – к авторитетности (цитируемости) Поиск с ограничением по объему выдачи (10, 20, 30, 50, 100 текстов / страница), 101 языку и 237 странам мира, по 10 расширениям файла, срокам изменения страниц (за последние 3,6,12 месяцев), исключая или включая страницы с сайта / домена Поиск по разделам: новости (4500+ источников, ~500 рус.), блоги, группы, каталоги, научно-технические ресурсы (scholar) Типы поисков: простой, расширенный (вкл. базовые логические – И, ИЛИ, НЕ, - и контекстные операторы), языком запросов, прямая работа с URL (если на сайте плох свой поиск) Служба перевода страниц… НО: Даже профессиональные аналитики обычно используют ~5% функций 10

Изображение слайда
11

Слайд 11

11

Изображение слайда
12

Слайд 12

Что делает Google по умолчанию? Допускает в запросе максимум 32 слова (слова+операторы) -блоги, -новости Рекомендуемый простой запрос – до 150 символов (рус.) Исправление орфографии, другие варианты написания Использование синонимов (англ), схожих написаний Поиск с похожими условиями (англ) Поиск по однокоренным словам: [прыгать]  прыжки Не учитывает морфологию языков! Не учитываются: регистр (искл.:OR ), знаки препинания и спецсимволы (@#$%^&*()=+[]\...) скобки для удобства! Эквивалентны пробелу: !#%?^{}"+$€£¥()[]`~<>—* Игнорирует стоп-слова (артикли, предлоги, цифры, местоимения…) Персонализация поиска (напр., на основе данных о ранее посещенных сайтах) 12

Изображение слайда
13

Слайд 13

Базовые операторы Google AND – пробел по умолчанию OR или символ _ | _ ( пробелы! ) NOT (_ - ) [сочи -спорт -олимпиада] или [сочи - site :. ru ] (пробел перед минусом, чтобы не путать с дефисом) Точное словосочетание или слово «» [«Александр Пушкин»] ≠ Александр Сергеевич Пушкин; [«Россия»] ≠ РФ Заполнение пропусков (_ * _) – замена одного или нескольких неизвестных слов [«мой дядя * честных правил»] или [«мой дядя ** правил»] но [19 * 7 ] ( не более **** ) Поиск по типу файла - filetype : [футбол filetype:pdf ] Поиск в пределах определенного веб-сайта - site : [ ирак site:kommersant.ru ] или определенного домена [ ирак site :. ru ] Приоритетность запроса Google : слева направо [таксы длинношерстные | короткошерстные intext :«охотничьи собаки» filetype:pdf ]; можно скобки для удобства : таксы (длинношерстные | короткошерстные) intext :(охотничьи собаки) filetype:pdf 13

Изображение слайда
14

Слайд 14

Некоторые полезные операторы Поиск страниц со ссылками на определенный URL " link: " [link:google.ru] Поиск похожих страниц " related: " [related:nytimes.com] Оператор обязательного присутствия + [Елки +II] Определение [ define: трубопровод] Поиск синонимов - ~ [виды ~млекопитающих] Поиск с числами в пределах - [#.. #] [Олимпиада 1950..2012] Поиск за последние месяцы - date: [Олимпиада date:3] Кэш сайта - cache: [cache:www.irs.gov] Информация о странице - info: [info:www.theonion.com] Операторы поиска по текстам ссылок на странице- allinanchor: [allinanchor: useful parenting sites] - все слова в ссылке; - inanchor: (одно слово в ссылке) Поиск только по тексту на страницах allintext: [allintext:ingredients chicken lime]; intext: Поиск по заголовкам страниц- allintitle: [allintitle: Google Advanced Operators] - все слова; - intitle: [Жириновский intitle: пьяный] Операторы поиска по цепочке URL - allinurl: и - inurl: Поиск с фильтром эдалт-контента - safesearch: 14

Изображение слайда
15

Слайд 15

15

Изображение слайда
16

Слайд 16

Особенности Яндекса Синтаксический анализ - учитывает морфологию русского языка и использует механизм нечеткого поиска Простой и расширенный поиск (регион, дата обновления/ заливки, место, язык, формат страницы и тип документа – графика редко в HTML) «Прошаривание сайтов» Яндексом иногда эффективнее, чем поиск по всей базе Уточнение области поиска: поиск в регионе, поиск в найденном… Поисковые колдунщики (прямой ответ на релевантных сайтах - погода, котировки, вики, химик… или предложение спецрубрик – маркет, новости, расписания…) Сортировка по релевантности – по умолчанию (по дате – optional) Подсказки: поисковые подсказки (обновляются по мере набора), исправления ошибок (иногда устоявшееся употребление расходится с правилами), puntо/ раскладка, связные запросы [вместе с … ищут …] Быстрые ссылки в выдаче (переход сразу к разделам/ страницам) Навигационная цепочка (соответствует структуре) Сохраненный кэш Обнаружение по ссылкам (даже если нет прямых вхождений запросных слов) 16

Изображение слайда
17

Слайд 17

17

Изображение слайда
18

Слайд 18

Язык поиска Учитывает морфологию русского языка – все возможные формы слова (но не разные части речи) Поиск регистрозависимый. Заглавная/ строчная [!лужков] Поиск по словам, которые ссылаются на страницу (« Ленинка » и РГБ) Стоп-слова (предлоги, частицы, местоимения, цифры) обычно игнорируются. Ищутся: +на [Ростов +на Дону ] Скобки формируют группы в сложных запросах мумие && (лечение | лечебный) Логическое «И» пробел – нежесткое «И»: вначале – слова недалеко друг от друга, затем – в одном документе, затем – фактически переходит в « ИЛИ» слова в пределах одного предложения _ & _ [культура & Китая] слова в пределах одного документа _ && _ [сканеры && Новосибирск ] принудительное/приоритетное _ + [технический прогресс + антирес ] Логическое «НЕ» _ ~ _ слова не должно быть в предложении [кремль ~ Москва] _ ~~ _ слова не должно быть в документе [кремль ~~ Москва] _ - не всегда корректно работающая двойная ~~ Логическое «ИЛИ» | [аэроплан | самолет] 18

Изображение слайда
19

Слайд 19

Полезные контекстные операторы Слово в точной форме с заданным регистром ! [!День] Слово в словарной форме !! [!!день] - искать день, дня и т.д., но не производную форму слова девать Точное значение «» Пропуск слова/слов * Расстояние в N слов в любую сторону /N [Александр /2 Иванов Расстояние в N предложений в любую сторону &&/N [памятник Пушкину &&/3 площадь Искусств] Расстояние в N слов в прямом порядке /+ (т.е. между заданными словами может встречаться одно слово) [Иван /+2 Тургенев] Расстояние от 1 слов в обратном порядке до 2 слов в прямом /(-1 +2) [Всеволод /(-1 +2) Иванов] Поиск по заголовкам документов [ title: Максвелл] Поиск по URL [ url: …] Поиск по фрагменту URL [ inurl: …] Поиск по одному типу файлов [ mime: pdf] Ограничение по языку [ lang: en] Ограничение по дате [ date: 200712*] по интервалу [ date: 20071215..20120201], [ date: >20091231] 19

Изображение слайда
20

Слайд 20

Полезные советы: составление запросов Как должен выглядеть искомый ответ? (напр.: рынок стали) Чем проще и короче запрос, тем лучше (предел усложнения – у всех разный) Выбор ключевых слов для машины. Уже упоминавшиеся / устоявшиеся слова/словосочетания (гипертрофия принципа: « заоптимизированные » SEO-рекламные тексты на сайтах) Чем информативнее, тем лучше (ср. [популярные рингтоны ] и [популярные мелодии]) Ограничиваем запрос. Стараемся исключать слишком широко употребимые слова Переформулируйте с использование синонимов! (Лужков-кепка-пасечник-старик Б атурин-градоначальник- …) « пЕши правЕльно » НО! [« превед медвед »] или [ предИнфарктный ] Разные варианты написания ищем по ИЛИ Релевантность документа – не менее трех вхождений Учитываем возможность омонимии 20

Изображение слайда
21

Слайд 21

Полезные советы: поиск в ISE От простого к сложному (типичная ошибка – вакансия) «Пристрелка» – последовательные итерации с уточнением. Смотрим на шум. Уточняем терминологию Часто аннотаций в выдаче достаточно Иногда проще задать вопрос живым языком Не отбрасываем окончания слов (для Google !) Поиск аналогов рус+англ Не все в сети – иногда нужно скачать книгу/ pdf Пользуемся кэшем - сохранённой копией, если ссылка битая Используйте несколько поисковых систем Некоторые сайты лучше « прошариваются » yandex / google, чем встроенным поиском Редактируя url часто попадаем на неиндексируемое 21

Изображение слайда
22

Слайд 22

22 Статистика Запросов wordstat.yandex.ru

Изображение слайда
23

Слайд 23

Что найдут запросы в Яндексе [ Кузькина ~/+1 мать ] и [ Кузькина ~ мать ] и [ Кузькина ~~ мать ] ? [ продажа & сканеров && Новосибирск ] ? [ великий /2 хурал ] ? [ цыпленок жареный | пареный ] и [ цыпленок (жареный| пареный) ]? [ годовой /+1 отчет ] и [ годовой /1 отчет ~ «отчет годовой » ] и [«годовой отчет» ] ? [ Алексей /(-1 +2) Толстой ] и [ Алексей * Толстой ]? [ кривой ~~ (кривой & рог) ] ? [ квадроид ~~ url=www.kvadroid.ru ] ? [ аватар -! аватары -! аватарки ] ? [ реклама & маркетинг ~~ (курс | работа | книга | семинар) ] ? [ академик+Забабахин ] и [ академик + Забабахин ] и [ + академик +! Забабахин ] и [ академик /(-3 +10) Забабахин ] ? 23

Изображение слайда
24

Слайд 24

Найдем все упоминания о том, что говорили В.Путин, Д.Медведев или А.Миллер о трубопроводных проектах ОАО «Газпром», исключая украинскую и казахскую проблематику 24 ((Дмитрий /2 Медведев) | Путин | Миллер)) & Газпром +трубопровод ~~ (Украина | Киев | Янукович | Бойко | Казахстан | Астана) ПРИМЕР 1

Изображение слайда
25

Слайд 25: Найдем негативные отзывы потре-бителей о Sony DSC-F 828 CyberShot

(+"sony" +"828" +"Cyber Shot") +( мнение | форум | общение | отзыв | рекламация | рекомендация | недостаток | тест | обзор | сравнение | минусы | проблема | опыт | негативный | !!купил) 25 ПРИМЕР 2

Изображение слайда
26

Слайд 26

Найдем анонсы предстоящих событий на август-сентябрь 2012 по теме электро-энергетики, не касающиеся компании Русгидро 26 ((августа | сентября) /2 2012) (электроэнергетика | ГЭС | ТЭЦ | электростанция | иркутскэнерго | мосэнерго | ОГК) ~русгидро ПРИМЕР 3

Изображение слайда
27

Последний слайд презентации: Лекция 5

Спасибо за внимание … Вопросы? 27

Изображение слайда