WORLD WIDE WEB



Что такое WWW

World Wide Web (либо WWW или W3) - это проект, начатый несколько лет назад в CERN (Европейском центре ядерных исследований), для построения распределенной гипермедиа-системы. Любое слово в гипертекстовом документе может быть указателем или ссылкой (link) на другой документ, содержащий более подробную информацию по данной теме. Эти документы могут быть приготовлены разными авторами и храниться на различных серверах.

Чтобы открыть следующий документ достаточно подвести курсор на нужную ссылку и нажать кнопку мыши (в текстовом интерфейсе - свои особенности).

В WWW-системах также реализуется схема "сервер-клиент". Web гипермедиа серверы, расположеные повсюду в Internet'e, откликаются на запросы программ-клиентов, которые называются browser'ами и запускаются на вашем компьютере.

Browser считывает требуемый документ, подгружает другие материалы из аналогичных источников. С помощью browser'а кроме того вы можете иметь доступ к разнообразным файлам - через FTP, NNTP, gopher, WAIS и другие средства. В последнее время бурно развиваются серверы с возможностями поиска документов по ключевым словам, обширные базы данных (search engine).

Browser может воспроизводить не только текст, но и изображения, звук, анимацию. Именно в этом смысле и раскрывается здесь понятие "hypermedia" как обобщение для гипертекста - т.е. некая среда с указателями на другие среды.


Что такое URL

Каждый гипертекстовый документ или объект в Internet имеет свой "идентификатор", а именно URL, что означает "Uniform Resource Locator". Примеры URL:

http: //www.is.chel.su/Rest/
ftp://ftp.is.chel.su/windows/networking/
news:comp.infosystems.www.announce
telnet://camms2.caos.kun.nl
wais://wais.com
file://ftp.is.chel.su/windows/networking/ws_ftp.zip

Левая часть URL до двоеточия определяет метод доступа, оставшаяся часть - его особенности. Так два "слэша" после двоеточия указывают на имя машины (возможен также вариант с номером порта, например, http://www.best.com:80).


Доступ к WWW

а) Безусловно, лучший вариант - это использование browser'a на своей собственной машине. Его интерфейс предоставит Вам прозрачный доступ к серверам WWW. Но необходимое первоначальное условие - TCP/IP подключение, поэтому Ваш компьютер должен находиться в локальной сети, имеющей выход в Internet, либо связываться через SLIP- или PPP-модемное соединение с UNIX-системой, предоставляющей доступ к глобальным сетям.

Для полноценной работы с WWW желательно иметь программы-клинеты, работающие в графическом режиме; замечательно так же, если у Вас есть звуковая плата. Такие программы существуют для множества платформ, в том числе и для "повсеместной" MS Windows. Небольшой обзор browser'ов будет дан ниже.

б) Существуют программы-клиенты, которые могут запускаться вами удаленно через Internet. Для этого Вам следует иметь свой 'login' на UNIX-системе, через которую Вы работаете, либо через серверы, предоставляющие свободный доступ через 'telnet'. Это довольно своеобразный вариант: иметь возможность работать через 'telnet' и не иметь собственного графического browser'a, но он - не редкость в следующих ситуациях:

в) Если у Вас нет альтернативы и у Вас только e-mail "подключение" к Internet, то пошлите письмо на адрес:

agora@mail.w3.org

со строкой-командой

send http://www.earn.net/gnrt/www.html,

оставив поле 'Subject' пустым. Так вы получите ответ, содержащий простой документ с подробной информацией о WWW.

Команда send (регистр букв не имеет значения) возвращает вам документ с данным URL, который отформатирован в строки по 72 символа в ширину и содержит пронумерованные ссылки, которые можно в последующем также получить. Для этого сделайте 'Reply', сохранив поле 'Subject' неизменным, а в тект письма поместите лишь номер(а) ссылки.

Аналогом команды send, но с получением всех документов, на которые есть ссылки на данной странице, служит команда

deep URL

Сервер может пересылать и двоичные файлы, если они указываются в виде отдельных URL. В этом случае файлы предварительно кодируются UUENCODE, максимальная длина сообщения не превышает 5000 строк.

Существует еще один WWW-mail сервер с адресом:

webmail@curia.ucc.ie,

который реагирует на команду:

go URL

Иногда зарубежные серверы становятся недоступными на несколько дней или даже недель и без каких-либо объяснений. Если вы получили сообщение об ошибке или полное молчание в ответ на ваш запрос, то, пожалуйста, повторите его через день, через два и т.д.

Следует отметить, что разработчики данного ПО предостерегают от таких попыток использовать e-mail доступ к Web-серверам, как:

Кроме того, WWW-mail сервер лимитирует длину каждого возвращаемого файла, обычно в 1000 или 5000 строк.

г) Еще один оригинальный "низкоуровневый" способ доступа к WWW существует в США - через факс. Такой сервис предлагает фирма Universal Access (http://www.ua.com/). Скорее всего, для вас он мало подойдет (:-) ) из-за оплаты международной связи и отсутствием тонового набора телефонного номера в России.


Навигация

Пожалуй, основная проблема при работе с WWW - найти нужные вам документы. Дело в том, что их очень много, речь идет о миллионах Web страниц и они непрерывно прибавляются - официально и без анонсирования - несколько сотен или тысяч ежедневно. И этот процесс подобен растущему снежному кому.

Несмотря на то, что гипертекстовые документы взаимосвязаны, тем не менее важно определиться с "первой" точкой входа в это множество документов для сокращения времени поиска, большей отдачей для вашей работы.

Перед вами есть несколько путей и самый лучший из них - объединение всех возможностей:

1. Информация, которая распространяется по вашим "профессиональным" сетевым каналам.

Обычно это news-группы и телеконференции вашего круга интересов, информация от коллег, друзей и т.п. Как правило, вы уже имеете представление как с ней обращаться.

2. USENET-группы, посвященные WWW и др. источники:

comp.infosystems.www.announce
comp.internet.net-happinings

позволят Вам ознакомиться со многими анонсами новых URL и связанных с ними ресурсов.

What's New with NCSA Mosaic (http://www.ncsa.uiuc.edu/SDG/Software/Mosaic/Docs/whats-new.html)
- неофициальная газета, отражающая новинки мира WWW (серверы и средства)

WWW FAQ (http://www.boutell.com/faq/)
- наиболее полный документ, затрагивающий все или почти все вопросы, касающиеся "технической" стороны использования WWW.

3. Ваш собственный "hot list".

Большинство browser'ов с графическим интерфейсом представляют возможность вам вести свой собственный список (списки) интересных URL. После того, как очередной гипертекстовый документ будет получен добавьте его к вашему перечню.

Кроме того, обычно полезные для начинающих ссылки, содержатся на вашем WWW-сервере. Его администратор заинтересован в их обновлении и поддержке, т.к. это облегчает его "сосуществование" с пользователями. Видимо, не стоит пренебрегать и этим путем.

Вообще говоря, ведение каталогов URL по темам - целое направление, в котором "специализируются" многие серверы и отдельные люди. Часто они создают весьма внушительные списки, которые весьма интересны. В качестве примеров ниже даны URL таких наиболее известных каталогов:

WWW Virtual Library
http://www.w3.org/hypertext/DataSource/bySubject/Overview.html

Yahoo
http://www.yahoo.com/ - пожалуй один из наиболее полных индексов различных Web-серверов и тем с возможностью поиска

Global Network Navigator
http://nearnet.gnn.com/gnn/GNNhome.html

4. Поиск по всем WWW-серверам

1995 год для WWW был ознаменован расширением числа хорошо написанных рoботов, которые создают индексированные базы данных о содержимом множества Web-серверов. Можно сказать, что на сегодняшний день это мода разместить такое ПО на том или ином узле сети, но она во многом облегчила нашу нелегкую жизнь - было создано мощное средство поиска URL по ключевым словам, содержащимся в заголовке или тексте HTML (HyperText Markup Language) документов.

Взгляните на перечень некоторых таких индексаторов. Они также содержатся в URL:

http://www.is.chel.su/Internet/index.ru..html

Lycos
http://www.lycos.com/
- в августе 1995 г. этот Web содержал индексы по более 5,7 млн. страницам

Yahoo
http://www.yahoo.com/
- один из наиболее полных каталогов с развитыми поисковыми возможностями

Web Crawler
http://webcrawler.com/
- индексирование по всему тексту документов в данном случае может привести вас не к тому точному результату, которого вы ожидаете из-за слабого соответствия. Но вместе с тем это очень мощная база данных.

World Wide Web Worm (WWWW)
http://www.cs.colorado.edu/home/mcbryan/WWWW.html
- строит свои индексы только на основе заголовков документов и содержимого URL.

Open Text
http://www.opentext.com/
и др.

В заключение еще одна ссылка на страницу, содержащую URL таких роботов -

http://cuiwww.unige.ch/meta-index.html

Поиск с применением search engine безусловно превращается в один из основных способов ориентации в огромном числе существующих HTML-документов. Но это и не панацея от всех бед: в большинстве случаев индексы URL документов становятся доступными только после пересылки их вручную на такие роботы. Кроме того, информация часто дублируется, т.к. пока поисковый аппарат Internet не обладает распределенностью в полном смысле этого слова. Думаем, что все впереди. Протокол HTTP имеет огромные возможности, которые далеко не использованы в настоящее время.

Возвращаясь к теме e-mail доступа к WWW-сереврам, отметим, что поиск возможен и здесь. Пошлите на agora@mail.w3.org письмо с командой "send" для выполнения такого поиска.

Для Lycos вся строка выглядит следующим образом:

http://query1.lycos.com/cgi-bin/pursuit/music

music. (точка означает точное соответствие)
music.+jazz. - для нескольких слов

Поиск с помощью Web Crawler во многом аналогичен, не поддерживается только "."

http://webcrawler.com/cgi-bin/WebQuery/music

Для каталога CUI WWW вам следует разделять отдельные слова "% 20"; поиск проводится только по точному соответствию, поэтому "." не требуется:

http://cuiwww.unige.ch/w3catalog?music ?music % 20 jazz


Некоторые Browser'ы

Выше уже шла речь о двух программах-клиентах, работающих в текстовом режиме под UNIX: Line Mode Browser и lynx (кстати, существует DOS-версия последней - DosLynx, отличная программа, работающая с пакетным драйвером и позволяющая даже просматривать графические файлы, но не заполняемые формы, его можно найти на

ftp://ftp2.cc.ukaus.edu/pub/WWW/DosLynx/

Здесь остановимся на browser'ах, имеющих графический пользовательский интерфейс и работающих на различных платформах: Unix, MS Windows и Macintosh - далеко не весь перечень, причем будут кратко рассмотрены только некоммерческие продукты, которые вы всегда можете получить через FTP-серверы.

Netscape

Видимо вы не прогадаете, взяв этот browser в качестве первого. В последующем можно будет попробовать и другие, сравнивая их с одним из лучших продуктов.

Browser разработан фирмой Netscape Communications Corp. (URL:http://home.netscape.com/info/index.html). Netscape - коммерческий продукт, но свободен для оценки полезности и для использования внутри университетов и институтов.

Существуют версии для X Window, MS Windows, Macintosh, NeXT и др. (16-bit версия работает и на OS/2 Windows).

Открывает несколько соединений с сервером (обычно 4) одновременно загружает и отображает на мониторе изображения пошагово (или "инкрементально") по мере их загрузки. Это важное свойство при работе через модемы или при низкой скорости соединения. Вы можете не ждать полной загрузки документа, а перейти через гипертекстовую ссылку к следующему URL. Все это делает browser одним из лучших сейчас.

Программа поддерживает таблицы и ряд расширенний языка HTML, которые не являются стандартными, но улучшают привлекательность документов: центрирование элементов, обтекание графики текстом, манипулирование с высотой шрифта, изменения цвета основы (подложки) и использования GIF- и JPEG-файлов для ее создания, поддержка динамических документов Имеется встроенный JPEG-viewer и модуль для прослушивания звуковых файлов.

Потратив некоторое время на настройку всех параметров Netscape, включая внешние viewer'ы вы получите исключительно добротный инструмент для работы с WWW, но желательно при этом иметь побольше оперативной памяти на вашем компьютере.

NCSA Mosaic

Собственно с этой программы все и начиналось. Она была разработана в NCSA (National Center for Supercomputing Applications) и вызвала огромный всплеск интероса к WWW и Internet вцелом. Это уже в последующем произошла "перетечка кадров" в Netscape Communication. Но тем не менее NCSA успешно продолжает конкурировать со своим главным соперником и следует своим лучшим традициям.

Последние версии Mosaic также поддерживают таблицы и вдобавок частично математические символы, по крайней мере, верхние и нижние индексы, а также центрируются элементы HTML-документов и др. Вы также можете прервать загрузку страницы и перейти через ссылку - к другому документу.

Получить портированные версии NCSA Mosaic можно на ftp.ncsa.uinc.edu в директории Mosaic.

К сожалению, browser'у свойственны и недостатки в основном технического плана: вновь небыстрая печать, большой размер исполняемых файлов и иногда нехватка памяти при загрузке больших документов.

Arena

Пожалуй, единственный browser, поддерживающий такие свойства языка HTML Level 3, как математические формулы. Собственно, он и был создан для тестирования всех особенностей Level 3. В остальном, Arena выглядит достаточно посредственно после Netscape и NCSA Mosaic.

Программа может запускаться только под X Window, исходные тексты в директории /pub/www/arena на ftp.w3.org.

Quarterdeck Mosaic

Browser для MS Windows, разработанный Quarderdeck и доступный для beta-тестирования (см. http://www.qdeck.com/beta/).

Кажется, этот browser обеспечивает самый быстрый вывод на печать по сравнению со своими "собратьями" из Netscape Communication и NCSA.

Достоинства: параллельная "инкриментальная" (три типа) загрузка in-line изображений, возможность получения документов в различные окна, очень гибкая настройка, кроме того вы можете открыть дополнительное окно для вывода списка URL, которые вы посетили, или всех URL, присутствующих в данном HTML-документе, или 'hot list' и т.д.

Недостатки: опасение, что после тестирования продукт примет коммерческий статус.

IBM OS/2 Web Explorer

Приложение, разработанное специалистами IBM для своей оперативной системы OS/2. Вы можете получить его с ftp01.uy.us.ibm.net в каталоге /pub/Web/Explorer.