В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в




Скачать 43.26 Kb.
НазваниеВ настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в
Дата публикации15.09.2014
Размер43.26 Kb.
ТипДокументы
literature-edu.ru > Информатика > Документы
В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в повседневную жизнь. Это стало мощнейшим стимулом развития информационного поиска. Сейчас это миллионы пользователей, огромные базы данных. Однако традиционные системы поиска все хуже справляться с задачей поиска нужных документов. В связи с появлением таких интеллектуальных поисковых систем, как Googleи «Яндекс», задача заметно упростилась, однако постоянное совершенствование технологий SEO снижает эффективность поиска в данных системах, что вынуждает использовать новые алгоритмы и подходы к поиску. SEO-технологии направлены на увеличение релевантности выдаваемых документов поисковым словам и фразам, что ведет к тому, что в верхних строках поиска могут оказаться документы, не имеющие никакого отношения к тем, которые хотел отыскать пользователь.. Дело в том, что веб-разработчики специально добавляют ключевые слова по сходной тематике. Допустим мы имеем сайт посвященный стиральным машинам, то в блоке <title>title> обычно размещают ключевые слова, которые выдираются роботами-пауками поисковых систем. Соответственно туда помещают все сходные слова например: Утюг, телевизор, мама, хозяйство, где купить, продажа бытовой техники, постирать, погладить, высушить и т.д. При этом очевидно, что из слов «мама хозяйство высушить» можно проводить разные аналогии. Например сушка грибов в домашних условиях, или как правильно погладить белье

Сейчас веб-технологии открыли доступ к публикации информации миллионам пользователей, из-за этого возникла необходимость упорядочить и систематизировать получаемую информацию, что невозможно сделать без поисковых систем.

Целью данной работы является создание системы поиска, которая может получать информацию из источников различного типа (Интернет, локальная база данных, словари, информация от пользователей) и обеспечивать выборку необходимой пользователю информации. Система должна обеспечивать сбор, хранение, анализ и интерпретацию данных с учетом синтаксиса и семантики русского языка. Система может применяться для выдачи релевантных документов по неструктурированным запросам пользователей, формирования определенных предпочтений и «подстановку» необходимых документов под эти предпочтения. Дополнительную сложность решению задачи придает разнообразие электронных документов: юридические акты, учебники, неформальное общение пользователей, статьи, обзоры, рецензии и т.д. Несмотря на то, что многие источники информации содержат неструктурированные данные, каждый из них имеют скрытую структуру, подчиненную как правило законам и правилам того языка, на котором был написан документ, что позволяет выделяя эту скрытую структуру находить необходимую информацию и понимать общую семантику документа.

Отличия от аналогов.

примечание А3. Аналоги безусловно есть. Не знаю насколько мой алгоритм будет близок. Тот же Яндекс и Гугл работают именно так. Они анализируют семантику документа. И соответственно когда приходит пора показывать документов Гугл старается на первую страницу поместить несколько документов разной семантики, которая может быть у запроса, чтобы пользователь определился с тем, что он хочет. Как яндекс работает толком не знаю не читал еще, но думаю используются похожие алгоритмы. В идеале нужно сделать систему обучаемой. Чтобы исходя из запросов, которые производятся можно было сказать, какие запросы чему соответствуют. е .

Ожидаемые результаты.

В результате выполненной работы была разработана система интеллектуального поиска, отличающаяся от аналогов тем, что она реализует семантический анализ документа на основании поиска узловых точек документа. в отличие от большинства других систем, которые выдают семантику по наибольшему числу вхождения тех или иных специфических терминов.

В основные задачи системы будет входить:

Для достижения поставленной цели необходимо решить следующие задачи:

  1. Сбор информации необходимой для запроса.

  2. Анализ собранной информации и выделение в ней текста, в котором будет производится анализ.

  3. Нахождение характерных особенностей текста, выявление семантических связей между его фрагментами и поиск в соответствии с этими особенностями. Должны быть определены аннотации и ключевые слова.

  4. Следующая задача состоит в том, чтобы определить, к какой категории может относиться документ. Структура каждого документа, как правило, определяется ее создателем, что ведет к различию структур документов даже по сходной тематике. При этом на один запрос пользователя могут приходиться десятки и сотни тысяч документов, которые будут содержать определенные ключевые слова.

  5. Затем следует определить семантику документа и его основную мысль. В книге «введение в информационный поиск» описываются подобные алгоритмы, которые позволяют выделять семантику по терминам. Также там есть необходимые математические выкладки. Вот с документом все естественно проще, потому что срез текста больше и определяющих вариантов меньше, чем в поисковом запросе. Есть чисто моя мысль попробовать разбирать предложение синтаксическим разбором на подлежащее-сказуемое и исходя из этого строить общую структуру отношений на основании подчиненных членов, которые будут определять это подлежащее и сказуемое и соответственно строить быть может дерево или заносить в вектор (хотя граф пожалуй подойдет лучше всего) все дополнения и обстоятельства, которые определяют тот или иной член. Но остается сама задача семантики того, что есть. Насчет этого еще попробую. Это все пока бред. Мысль толком не сформировал. Здесь я также рассчитывал на вашу помощь, потому что как мне кажется задача весьма сходна с генерализацией. Плюс хочу поговорить с разными лингвистами, как это можно определять. Есть ли какие у кого мысли.

  6. Соотнести семантику документа и поисковый запрос пользователя для сравнения релевантности запросу и присвоить документу определенный ранг.

  7. Вывести все документы, которые были найдены, в порядке ранжирования.

В таких условиях следует определить предметную область документа и общую семантику, чтобы она могла коррелировать с запросом пользователя. Поэтому важно определить ключевые слова, структуру документов. Особое значение приобретает анализ документа с точки зрения синтаксиса и лингвистики в целом, что позволит отделять значимые части друг от друга.

Используемая литература:

Введение в информационный поиск. Маннинг, Рагхаван, Шютце

Добавить документ в свой блог или на сайт

Похожие:

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconМетодические указания по выполнению курсовых работ и проектов. 11....
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconИспользование интернет-технологий в образовательном процессе
Конечно, такую возможность школа не могла не использовать, и спустя два дня, состоялся наш первый выход в Интернет. Качество связи...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconУчителям-словесникам Подборка Интернет-ресурсов
В помощь преподавателю (методические материалы, интернет-ресурсы, обзоры, сценарии, викторины, каталоги электронных носителей, мероприятия...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconИспользование электронных презентаций Power Point в обучении иностранным...
Внедрением в учебный процесс компьютерных технологий и Интернета (не только на уровне поиска и подбора необходимой информации). Современные...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconПредставление программ
И в настоящее время развитие многих современных направлений компьютерных индустрии невозможно представить без понимания методов анализа,...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconКафедра «Экономика и менеджмент в машиностроении»
В это время большинство авторов считали, что «бумажное управление» не нужно и устарело. Однако второй этап делопроизводства показал,...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconМетодические указания по выполнению контрольных работ написаны в...
А. Г. Колобов, канд физ мат наук, доцент кафедры компьютерных технологий, первый зам директора института математики и компьютерных...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconАктивизация познавательной деятельности школьников через проектную...
Формирование творческой личности, обладающей элементарными навыками самостоятельной научно-исследовательской работы по математике...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconУчебное пособие. Введение
Однако автор этой книги и несколько его коллег готовят в настоящее время работу, которая будет включать и анализ самых новых философских...

В настоящее время количество электронных документов увеличивается с нарастающими темпами. Этому способствует проникновение компьютерных и интернет-технологий в iconПродвижение бизнеса в Интернет: все о pr и рекламе в сети
В рунете существуют уже сотни тысяч сайтов, а количество русскоязычных блогов превысило два миллиона. Интернет-бизнес стремительно...

Литература


При копировании материала укажите ссылку © 2015
контакты
literature-edu.ru
Поиск на сайте

Главная страница  Литература  Доклады  Рефераты  Курсовая работа  Лекции