0

М иналото лято търсачката на Google отмина един крайъгълен камък, добавяйки трилионния адрес от списъка с уеб страници, които познава. Но, колкото и невъзможно голям да изглежда техния брой, това представлява само една малка част от необятния океан от данни на глобалния уеб.

Зад тези трилион страници се крие още по-голямо количество скрити данни - финансова информация, каталози със стоки, разписания на полети, медицински изследвания и всякакъв друг вид материали, събрани в бази данни, които остават до голяма степен невидими за търсачките.

Трудностите, с които се сблъскват най-популярните търсачки, са свързани с проникването в така наречения "дълбок уеб" (Deep Web).

Те им пречат да не могат все още да дават отговори на въпроси като "Какъв е най-евтиният билет за полет от Ню Йорк до Лондон за утре?" А отговорите са готови, стига търсачките да знаят как да ги намерят.

Сега започва да се оформя нов вид технологии, които ще разширят обхвата на търсачките в далечните ъгли на мрежата. Когато това се случи, то не само ще подобри качеството на резултатите от търсенето, но и окончателно ще промени начина, по който компаниите ще правят онлайн бизнес.

Търсачките разчитат на програми, познати като паяци (или гъсеници), които събират информация като вървят по следите на хипервръзките, от които е образувана глобалната мрежа.

Този подход работи добре за страници, които оформят повърхността на уеб, но те проникват по-трудно в базите данни, които отговарят на написаните заявки.

Тази част на уеб е само върха на айсберга, казва Ананд Раджараман, съосновател на Kosmix - нова компания за изследване на Deep Web. Инвеститор в нея е главният изпълнителен директор на Amazon.com Джефри Бeзос.

В Kosmix са разработили софтуер, която сравнява търсения с бази данни, които най-вероятно съдържат релевантна информация, след което връща преглед на темата, извлечена от множество източници.

Повечето търсачки се опитват да ви помогнат да намерите игла в купа сено, казва г-н Раджараман, но ние се опитваме да ви помогнем да разучите цялата купа.

Тази купа сено е безкрайно голяма. В уеб има свързани милиони бази данни и безброй много възможни пермутации на термини за търсене. Просто няма начин която и да е търсачка, независимо колко мощна е тя, да претърси всяка възможна комбинация от данни в движение.

За да извлекат смислени данни от Deep Web, търсачките трябва да анализират термините за търсене на потребителите и да решат как да свържат тези заявки с конкретни бази данни.

При огромния брой варианти на формулиране на заявки за търсене и структури от бази данни тази задача представлява сериозна изчислителна трудност.

Това е възможно най-интересният проблем с интеграцията на данни, казва Алън Халеви, бивш преподавател по компютърни науки в университета на Вашингтон, който сега води екипа на Google, занимаващ се с решаване на ребуса Deep Web.

Стратегията на Google за Deep Web включва изпращането на програма, която да анализира съдържанието на всяка база данни, която открие. Ако например търсачката намери страница с форма, отнасяща се до изобразително изкуство, тя започва да налучква вероятни термини за търсене като "Рембранд", "Пикасо" и т.н., докато някои от тези термини върне съвпадение.

След това търсачката анализира резултатите и разработва прогнозен модел на съдържанието на базата данни.

Професор Джулиана Фриър от университета на Юта работи върху амбициозен проект, наречен DeepPeep, който има за крайна цел да обхване и индексира всяка база данни в глобалния уеб. Извличането на толкова много комбинации от данни изисква сложен модел на изчисления на вероятности.

Наивният начин е да се търсят всички думи в речника, казва проф. Фриър. Вместо това, DeepPeep започва с малък брой примерни заявки, които след това могат да се използват за формиране на разбиране на базите данни и избор на правилните думи за търсене.

На базата на този анализ, програмата след това генерира автоматични термини за търсене, като се опитва да обхване колко може повече данни.

Г-жа Фриър твърди, че нейният подход открива повече от 90% от съдържанието на всяка дадена база данни. Нейната работа наскоро привлече вниманието на една от големите компании, които предлагат търсене в уеб.

Извън сферата на потребителските търсения, технологиите за Deep Web могат да позволят на компаниите да използват данните по нови начини.

Например сайт за здравеопазване може да се реферира към данни от фармацевтични компании и да ги сравни и допълни с най-новите открития от медицински изследвания.

Тази степен на интеграция на данни може евентуално да посочи пътя към нещо подобно на семантичния уеб, който дава една все още нереализирана визия за мрежа от взаимосвързани данни.

Технологиите за Deep Web носят обещанието, че подобни ползи могат да се постигнат на много по-ниска цена чрез автоматизация на процеса на анализ на структурите от бази данни и многостранно рефериране на резултатите.

Коментари 0
Кирилица:
Фонетична
Имате 2000 позволени символа

* Моля, коментирайте конкретната статия и използвайте кирилица! Не се толерират мнения с обидно или нецензурно съдържание, на верска или етническа основа, както и написани само с главни букви!

Блондинка в банката: - Здравейте, бих искала да отворя обща сметка... - С кого? - Все ми е едно... Важното да е с някой, който…
Прочети целия
Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни

Последни

Главчев официално стана и външен министър

Главчев официално стана и външен министър

България Преди 44 минути

В сградата на Министерство на външните работи Главчев проведе и работна среща с ръководния състав

Екипът на "Шогун" на премиерата

Ще има ли втори сезон на хитовия сериал "Шогун"?

Любопитно Преди 45 минути

Уникалният успех на първи сезон може и да промени плановете на продуцентите

Добре де, може да е опростена версия, но мъжете в повечето случаи така си я представяме тая класация...

Топ 10 най-сексапилни жени в света

Любопитно Преди 1 час

От "леле, колко е яка" до "Това не е истина"...

<p>Ердоган: Прозорецът на възможностите няма да бъде отворен винаги</p>

Ердоган призова за нормализиране на отношенията между Турция и Армения

Свят Преди 1 час

Въпреки общата граница Армения и Турция нямат дипломатически отношения

Още една формация няма да участва в коалиция с ПП-ДБ на предстоящите избори

Още една формация няма да участва в коалиция с ПП-ДБ на предстоящите избори

България Преди 1 час

В позицията си от партията обясняват, че присъединяването им към ПП-ДБ било с цел да бъдат постигнати реформи в "противовес на модела на ГЕРБ и ДПС"

"Той е нейният омар": 10 култови цитата от "Приятели"

"Той е нейният омар": 10 култови цитата от "Приятели"

Любопитно Преди 1 час

Ето някои от най-запомнящите се цитати от вечния сериал "Приятели"

В опит да прекосят Ламанша: Мигранти загинаха в района на град Вимрьо

В опит да прекосят Ламанша: Мигранти загинаха в района на град Вимрьо

Свят Преди 1 час

Около 100 мигранти са били спасени днес при операция с три хеликоптера и няколко спасителни лодки

<p>Колко процента от родителите на деца до 4 г. подкрепят задължителната имунизация</p>

Проучване на МЗ и УНИЦЕФ: Общо 61% от родителите на деца до 4 г. подкрепят задължителната имунизация

България Преди 2 часа

Според изследването има тенденция към нарастване на дела на родителите, които отказват задължителната имунизация на децата си

<p>Спецов с коментар&nbsp;за случая със заплашен служител на НАП</p>

Директорът на НАП за случая със заплашен служител на ведомството: Нулева толерантност към агресията

България Преди 2 часа

По първоначална информация конфликтът е възникнал заради забележка за неправилно паркиране

Мъск се нахвърли върху Австралия заради постановление за скриване на специфично съдържание

Мъск се нахвърли върху Австралия заради постановление за скриване на специфично съдържание

Свят Преди 2 часа

Австралийският премиер заяви в сутрешното шоу по "Ей Би Си Австралия", че Мъск е "арогантен милиардер"

Медицински феномен: Мъж произвежда алкохол в стомаха си

Медицински феномен: Мъж произвежда алкохол в стомаха си

Свят Преди 2 часа

Диагнозата е потвърдена от трима независими лекари, оправдан е през съда за шофиране

Талантливата Криста: Бляскавото бъдеще на музикалната сцена

Талантливата Криста: Бляскавото бъдеще на музикалната сцена

Любопитно Преди 2 часа

Талантът на Криста не се разпростира само на клубната, театрална и фестивална сцена

Снимката е илюстративна

"Нито студено, нито топло": Прогнозата за времето на Цветница и Великден

България Преди 3 часа

Температурите ще продължат да бъдат априлски, каза синоптикът към НИМХ Анастасия Кирилова

Meta отваря виртуалната си платформа и за други

Meta отваря виртуалната си платформа и за други

Технологии Преди 3 часа

Horizon OS ще може да се използва от още производители

<p>Пожар избухна на остров Крит, евакуирано е селище (СНИМКИ)</p>

Пожар избухна на остров Крит, евакуирано е селище

Свят Преди 3 часа

Огнеборците се опитват да предотвратят разпространението на огъня, но усилията им са затруднени от ветрове със сила девета степен по скалата на Бофорт