WWW (World Wide Web) Part 1

Разпределена информационна система - WWW

Кратка история на WWW

През 1989 година изследователи от CERN (Eвропейска лаборатория за физика на частиците) в Женева си поставят за цел да разработят подходящо средство за предаване на текстова и графична информация на разпределените изследователски групи в средата на TCP/IP базирана мрежа. Изборът на документи или преглеждането на графика изисква търсене и намиране на машината, където е желаната информация, установяване на връзка с нея, прехвърляне на информацията до локална машина. Всяка подобна процедура налага стартиране на различни приложения (Telnet, FTP, Archie, или друга подходяща програма за визуализация на текст и графика). Поставената задача е създаване на система за достъп до произволен тип информация посредством унифициран интегриран интерфейс без необходимост от изпълнение на много стъпки при достъп и ползване на желания документ.

В течение на една година, предложението за проекта е било усъвършенствано и започва работа по реализацията му. В края на 1990 година изследователите от CERN разполагат с работещ в текстов режим клиент и графичен браузър, предназначен за компютри от фамилията NExT. През 1991 година WWW е предоставен за общо използване в CERN. С развитието на проекта е прибавен достъп до други Internet услуги (WAIS, Telnet, Gopher, anonymous FTP).

През 1992 година CERN публикува проекта WWW (World Wide Web). Потребителите веднага оценяват рационалното в идеята и започват да създават свои WWW сървъри, за да направят своята информация достъпна по Internet. Започна работа и по създаване на лесни за използване интерфейсни програми - WWW клиенти.

В края на 1993 година WWW клиенти са разработени за различни компютърни системи, включително Unix (X Windows), MacOS (Macintosh), MS Windows (PC).

През лятото на 1994 година WWW е вече най-популярното средство за достъп до ресурсите на Internet. Появяват се нови понятия - browser и navigator. Двете понятия отразяват функцията на един WWW клиент, предназначен да извлича, интерпретира и изобразява мултимедийни документи на екрана на локалната машина.

Какво представлява WWW

Информационната система World Wide Web (WWW или W3) е една от най-популярните услуги, достъпни чрез Internet. Тя позволява да се комбинират текст, аудио, видео, графика и анимация в мултимедийни документи. Хипервръзки в тези документи правят възможен достъпа до други документи, свързани с първичния. Те от своя страна могат да сочат към други документи, намиращи се в други сървъри по мрежата без да имат директна връзка помежду си. По същество се оформя една паежина от контексно-ориентирани връзки.

Информационната система World Wide Web е базирана на хипертекст (hypertext) технология. Една дума в хипертекст документ може да служи като указател (hyperlink) към друг документ, в който се намира информация свързана с думата-указател. В съвремените Web документи свободно се комбинират хипервръзки, аудио и видео фрагменти, графични икони и изображения, което ги превръща в хипермедийни.

Информационната система WWW се състои от множество информационни сървъри (Web servers), които са постоянно достъпни по мрежата и непрекъснато се променят. Наблюдаваните промени са насочени към съдържанието на информацията, начина на нейното представяне и структуриране. Нови Web точки непрекъснато се появяват в Internet и създават една общодостъпна информационна среда.

За получаване на достъп до WWW е необходима връзка с мрежата и програма клиент (client, browser), която интерпретира и визуализира документите. Документите са хипермедийни и съдържат текст с команди за структуриране. По този начин WWW клиентът извършва форматиране с цел получаване на най-добрите възможни визуални резултати върху екрана на компютъра.

Фигура 1 - Схема на взаимодействие във WWW

На Фигура 1 е показана общата архитектурна схема на информационната среда Word Wide Web. Един Web сървър съдържа структурирана информация на отделни страници. Информацията е структурирана по отделни теми или задачи, които формират в сървъра информационна точка (Web Site).

Фигура 2 - Модел на взаимодействия Web клиент-сървър

Достъпът до отделна страница (Фигура 2) се контролира от сървъра (Web server), извличането на нейното съдържание се осъществява по протокол HTTP, визуализацията на страницата става при Web клиента (Web browser). Взаимодействието между клиента и сървъра се изпълнява на няколко стъпки посредством протокола HTTP, базиран на TCP/IP фамилия протоколи. Web клиентът изпращта заявка за връзка с Web сървър чрез неговия IP адрес или символичното му име. След установяване на връзка със сървъра в неговата информационна база се открива търсената от клиента страница. Сървърът прехвърля по адреса на клиента съдържанието на страницата. Web клиентът в клиентската машина интерпретира съдържанието на получената страница и я изобразява на монитора. При наличие на звукови или видео компоненти, те се проиграват с изобразяване на страницата.

Унифициран локатор на ресурси URL

В настоящия момент съществуват множество протоколи и системи за търсене и извличане на документи по Internet. Тези системи имат за цел да осигурят глобално търсене на документи при различни компютърни платформи и произволна дълбочина на вмъкване в компютърните мрежи. Една област, в която не е удачно да се правят преобразувания (за разлика от различните формати и протоколи) са имената и адресите, които се използват за идентифициране на обекти. Обща характеристика на всички модели данни е концепцията за ”обект”. Обектът се идентифицира чрез име или адрес, следователно може да бъде дефинирано множество от пространства на имената, в които тези обекти съществуват. Системите, използвани в практиката, често осъществяват достъп до обекти и смесват обекти, които са част от различни съществуващи системи. Следователно важно значение придобива проблемът за универсално множество от всички обекти, и следователно универсално множество от имена и адреси - конвенция за именуване. Това позволява имена от различни пространства да се третират по еднакъв начин, въпреки че имат различни характеристики, както и обектите, към които се отнасят.

Универсалният идентификатор на ресурси (Universal Resource Identifier, URI) е елемент от това универсално множество от имена. Унифицираният локатор на ресурси (Uniform Resource Locator,URL), е форма на URI, изразяваща адрес, който съответствува на алгоритъм за достъп при използуване на мрежовите протоколи.

Една друга форма, не с такова голямо приложение като URL, е унифицираното име на ресурси (Uniform Resource Name,URN),предназначено за постоянни имена на обекти.

Съществуват два типа URL. Първият представлява абсолютен URL, който съдържа пълния адрес. Не е нужно нищо друго, за да се намери желаната информация.

Вторият тип представлява относителен URL. Относителният URL съдържа само необходимото допълнение към базовия адрес за намиране на желаната информация от текущо установената позиция (директория, виртуална машина и др.).

WWW клиентите използват URL за определяне месторазположението на файл в определен сървър. Един URL включва типа на желания за използване ресурс (Web, Gopher, WAIS), адреса на сървъра, местонахождението на търсения файл в дървото на директориите и неговото име с разширение.

Един типичен абсолютен URL адрес се състои от следните елементи:

услуга://главен_компютър.област [:порт]/път/файл.разширение

service://host.domain [:port]/path/file.ext

service:// показва по какъв начин се осъществява достъп до документа. Някои от най-често използуваните услуги са дадени в Таблица 1:

Таблица 1

*Услуга*	*Функция*
file://	Отваряне на файл в локалната система file:///пътека_директория/име_на_файл.разширение
ftp://	Използуване на FTP-сървър за извличане на файл: ftp://сървър:порт/директория/име_на_файл.разшир.
http://	Използуване на WWW-сървър за извличане на файл: http://сървър:порт/директория/име_на_файл.html
mailto:	Възможност за изпращане на електронна поща mailto:име@машина.област
WAIS://	Търсене на документ в WAIS сървър: wais://сървър:порт/база_данни
gopher://	Използуване на механизъм gopher: gopher://сървър:порт/директория/име_на_файл#маркер
telnet://	Достъп до отдалечена машина: telnet://име:парола@сървър:порт
news://	Прочитане на отдалечени новини: news:име_на_рубрика

Главен компютър (host) представлява символично име или адрес на машина, в която се намира търсената информацията или до която ще се осъществява достъп.
Област (Domain) е символна комбинация за определяне на областта в която се намира кореспондентската машина.
Порт (port) е опция, която се включва само ако съответната услуга не е достъпна при използване на стандартно установения номер на порт за нея. Например услугата Gopher използва по подразбиране порт 70, а HTTP - 80).
Път (path) указва пътя от коренната директория до желаната информация.
Файл.разширение (file.ext) e името на файла, който се извлича.

Пример за абсолютен URL:

http://mulmedp.tu-sofia.bg/bookhtml/book-2.htm

Относителният адрес включва само част от пълния адрес. Относителни адреси се използуват само вътре в даден HTML документ за търсене на информация, свързана с този документ и съхранявана в текущата директория.

Пример за относителен адрес:

<img src=“/pictures/pict4.gif”>

Протоколът HTTP

Една от целите на проекта WWW е лесното получаване на информация, независимо от това къде се намира по Internet мрежата. Като стандартен формат за представяне на WWW документи се използва хипертекст. Протоколът HTTP (Hypertext Transport Protocol) е прост комуникационен протокол за извличане на документи на базата на TCP/IP протоколи от Web сървъри по Internet с цел тяхното изобразяване от Web клиенти. Той се базира на факта, че документите, които се извличат, съдържат информация за бъдещите връзки, които потребителят може евентуално да заяви (за разлика от FTP или Gopher, при които информацията за възможните бъдещи връзки трябва да бъде предадена чрез протокола).

Взаимодействието между Web сървър и Web клиент се подчинява на мрежовия модел клиент/сървър. На Фигура 3 е показана общата схема на взаимодействие между Web сървър и Web клиент по отделните нива на многослойния мрежов модел на ISO. На фигурата физическият слой е представен при връзка по модем към обществена телефонна мрежа.

Фигура 3 - Схема на взаимодействие по модела на ISO

Протоколът за пренасяне на хипертекст HTTP притежава необходимата простота и скорост за разпределена корпоративна хипермедийна информационна система (Intranet). В такава система е необходимо бързо проследяване на връзки между информационни единици, които се намират върху отдалечени станции. Времето за отговор трябва да бъде от порядъка на 100 ms за проследена връзка, което налага изискването за бързина при извличането на информация. Трябва да се вземе под внимание, че информационните системи, използувани в практиката, изискват повече функции, включващи търсене, актуализация и анотация.

Протоколът HTTP е обектно-ориентиран и може да се използува в разпределени обектно-ориентирани системи. Важно негово свойство е универсалност на представяне на данните, което позволява системите да са независими от нови, по-усъвършенствани методи за представяне на данни. Протоколът HTTP позволява използването на отворено множество от методи. Той се базира на достъпа, осъществяван от URI (Universal Resource Identifier) към който се включват - име - URN(Uniform Resource Names) (виж [RFC 1737]) или адрес - URL (Uniform Resource Locators) (виж [RFC 1738]) (виж Забележка).

Компонентите на протокола HTTP са:

изпращане на заявка до сървъра;
метод, приложен върху обекта, специфициран чрез URL;
заглавна информация (list of headers) в съобщението-заявка;
получаване на отговор;
кодове на състоянието;
заглавна информация (list of headers) за всеки предаван обект;
съдържание на всеки предаван обект;
формати.

За работа с WWW не са необходими знания върху HTTP. Протоколът се обслужва от съответните приложения, както от страна на сървърите, така и от страна на клиентите. Трябва да се отбележи, че този протокол обуславя подръжката на информационни услуги в Internet и не може да се разглежда като конкурент на останалите видове основни протоколи и свързаните с тях услуги. Независимостта на HTTP протокола го превръща в платформа при комуникацията между потребители/услуги и proxies/gateways и други Internet протоколи като SMTP, NNTP, FTP, Gopher, WAIS с което осигурява хипермедиен достъп до ресурси на различни приложения и с това улеснява интегрирането на услугите. Протоколът HTTP/1.0 (HyperTextTransferProtocol) - е описан подробно в [RFC 1945] (виж Забележка).

Забележка: Съкращението RFC (Request for Comments) представлява рубрика, поддържана от специализирана работна група (Network Working Group), с описание на всички технически аспекти на Internet протоколите.

Копие на стандартната спецификация на протокола HTTP може да се намери на следния адрес:

http://info.cern.ch/hypertext/WWW/Protocols/HTTP/HTTP2.html

Интернет за персонални компютри