Полезная информация стоит дорого - эту хорошо известную всему цивилизованному миру истину с большим трудом на своем собственном нелегком опыте усваивает типичный российский пользователь глобальных компьютерных сетей. С ускоренным ростом сетей прямо связана проблема поиска информации как о первоисточниках, представленной в электронном виде, так и об электронных ссылках на всем привычные бумажные носители информации – книги, журналы, газеты. Сегодня, если хорошо поискать, в сети Интернет можно найти практически все от эротических картинок, анекдотов и пособий для террористов до серьезных научных докладов, диссертаций и патентных работ. Предлагаемый пользователям сети объем информации настолько велик, что поиск чего-либо узкоспециализированного на поисковых интернет-системах, ориентированных на среднестатистического пользователя, зачастую не дает желаемого результата.
Приступая к поиску той или иной информации, в первую очередь следует определиться с его полнотой. Согласитесь, что при поиске информации для студенческого реферата по производителям пластмасс в нашей стране и для аналитического обзора рынка производителей пластмасс Российской Федерации и тенденций его развития, подготавливаемого для министерства, запрашивается фактически одна и та же информация. Однако, если для решения первой задачи вполне достаточно нескольких документов по теме, то для успешного решения последней необходима уверенность в том, что найдены и изучены все, в том числе и новейшие, только что изданные работы ведущих экономистов, аналитиков и прочих специалистов, связанных с этой областью. Неполная и непроверенная информация, положенная в основу важных государственных решений, приведет к тому, что весьма вероятные при таком раскладе убытки многократно перекроют стоимость дорогостоящего поиска информации в специализированных базах данных.
Нужны ли специалисты по информации в наступившем веке умных компьютеров?
Пользователь, не знакомый со специализированными сетями и информационными базами данных, обычно начинает поиск с информации в сети Интернет. Сеть Интернет представляет собой совокупность соединенных друг с другом физическими и логическими связями компьютерных подсетей, построенных с использованием единых технических стандартов. Сеть STN International (The Scientific and Technical Information Network) представляет собой международную негосударственную форму сотрудничества трех крупнейших производителей вторичной научно-технической информации (авторские публикации в различных научных журналах – типичный пример первичной информации, в то время как реферативные журналы с подборками ссылок на опубликованные научные работы не менее типичный пример вторичной информации).
Переходя к описанию специализированной сети STN и методам поиска в ней информации, не могу удержаться от комментария на тему того, почему рассказ о ней заслуживает внимания не только специалистов, заинтересованных в поиске какой-либо узкоспециализированной информации, но и самого широкого круга читателей. Судя по названию, сеть STN ориентирована на людей науки, а высокая стоимость поиска в ней информации не предполагает обращение к ресурсам этой сети ради праздного любопытства. Скажу более, высококлассный специалист в своей предметной области – химик, техник или биолог, никогда не работавший ранее с STN, столкнется порой с непреодолимыми трудностями при попытке самостоятельно найти информацию в этой сети. Для случая разового обращения к ресурсам STN оптимальным вариантом решения будет возложить процедуру по поиску информации на специалиста, специально обученного стратегии и методикам проведения поиска. Такой специалист выступает связующим звеном между заказчиком поиска и программным обеспечением, т.е. инструментом для его проведения. Необходимо отчетливо понимать что логические рассуждения человека и логические действия поисковой машины могут сильно отличаться друг от друга и то, что кажется человеку совершенно очевидным и однозначным совершенно не обязательно будет таковым и для компьютера. Когда какие-либо параметры запроса отсутствуют, система использует некоторый набор допущений. В результате может быть найдена искомая информация, но не менее вероятна ситуация получения груды информационного мусора, за который также придется заплатить.
Рассказывая о STN, я хочу показать на примере этой сети особенности, общие для всех сетей, предлагающих пользователям доступ к специализированным базам данных. Рассматривая функционирование других сетей, предоставляющих доступ к коммерческим базами данных, например, с информацией о котировках акций для игроков на фондовых и товарно-сырьевых биржах, можно заметить, что, несмотря на разное информационное наполнение баз данных, методы представления и поиска информации в коммерческих базах данных сходны. Для вариантов с платным доступом к информации стоимость проведения поиска выступает одним из решающих факторов. В отличие от баз с бесплатным доступом информацию следует не только найти, но и найти с наименьшими затратами. Практика работы с коммерческими базами показывает, что задача поиска и вывода одной и той же информации зачастую с успехом может быть решена несколькими способами, но стоимость их может отличаться на несколько порядков.
Как не парадоксально на первый взгляд, но для поиска информации в коммерческих базах данных недостаточно иметь только общие представление о работе с персональным компьютером и четкое представление о том, что хочешь найти. Без этого, разумеется, не обойтись. Но также необходимо знать стратегию и тактику поиска информации в конкретных семействах (кластерах) баз данных. На мой взгляд, задача поиска информации в специализированных базах данных является уделом специалистов, но не просто специалистов в тех или иных предметных областях, а специалистов по поиску информации. Компьютерный специалист, никогда не сталкивающийся с химией (физикой, математикой, биологий и пр.), не сможет выполнить исчерпывающий поиск по просьбе человека пришедшего к нему с запросом на поиск. Специалист-предметник, знакомый с компьютерной техникой в общих чертах, скорее всего в конце концов найдет нужную ему информацию, но, затратив на поиск неоправданно много денег, просто разочаруется в возможностях компьютерного поиска.
Если предположить, что и далее с ростом общего числа коммерческих баз стоимость поиска в них информации будет снижаться незначительно, то можно прогнозировать постоянное увеличение числа информационных коммерческих центров, специализирующихся на поисках информации по запросу пользователей, так как для того, чтобы успешно находить специальную информацию, нужно обращаться к специалистам по поиску такой информации или самому стать таким специалистов в какой-то одной выбранной области. Увы, к этому в некотором роде печальному выводу, никак не могут прийти современные руководители фирм и производств. Начальник, оснастивший свой офис компьютерами с доступом к сети Интернет и обучивший сотрудников азам компьютерной грамотности, многое теряет, "экономя" деньги на обучении специалиста в области поиска информации. Хотя на первый взгляд подобный подход более чем логичен. Зачем тратить “лишние” деньги ведь все так "просто" – садись за компьютер и ищи!
STN International
В сети STN представлено более 230 баз данных (БД) с самой разнообразной информацией, характеризующейся как научная. Однако эта характеристика совсем не значит, что собранные данные актуальны только для представителей фундаментальной науки. Например, данные о производителях той или иной химической продукции заинтересуют бизнесменов, специализирующихся в этой области, так как помогают находить поставщиков сырья, покупателей готовой продукции, а также отслеживать действия конкурентов.
Как уже отмечалось ранее, сеть STN образована тремя ведущими производителями: Chemical Abstracts Service (США), Fachinformationszentrum Karlsruhe (ФРГ) и JST (Япония). Доступ ко всем базам данных осуществляется на едином языке Messenger, принятом в STN. Все базы данных условно разделены на тематические группы – кластеры. Воспользовавшись одной командой, можно провести поиск не только в отдельно взятой базе данных, но и во всем кластере сразу.
В большинстве библиографических (наиболее распространенных в STN) баз данных цена одного часа работы составляет от 30 до 170 долларов. Общая стоимость поиска, как правило, складывается из трех основных составляющих: времени связи, количества поисковых терминов и объема выводимой на экран информации. В базах данных с информацией о химических веществах может взиматься дополнительная плата за поиск информации по химической структуре, а в числовых (различного рода справочники с физико-химическими и другими константами) – за использование встроенных программ обработки данных.
Объемы баз данных впечатляют. Например, в БД Registry c 1957 г. зарегистрировано более 27 млн. различных химических веществ, а БД INSPEC – наиболее полная электронная база данных с информацией по физике. Патентная информация широко представлена в большинстве предметных библиографических БД, а также в кластере специальных патентных баз данных (например, в БД INPADOC). Работа с патентными базами стоит от 105 до 250 долларов в час, кроме того, за вывод каждой ссылки на экран необходимо дополнительно затратить от 1 до 5 долларов. Замечу, что бесплатные базы данных с патентами можно найти в сети Интернет, хотя возможности для проведения поиска в этих БД значительно более скромные, так же как и общее число представленных патентов.
Для проведения поиска можно воспользоваться тремя возможностями. Первая – подсоединиться к одному из узлов STN с помощью telnet, после чего, пройдя идентификацию, использовать для работы набор команд языка Messenger. Данные передаются в виде ASCII-кодов, отображаясь в алфавитно-циф-ровой форме. Достоинство – возможность работы при низкой скорости связи, главный недостаток – фактически полное отсутствие удобного интерфейса ввода-вывода. Вторая возможность – использование http-протокола для просмотра страниц с гипертекстом – программное средство STN on the Web. Работать с интерфейсом довольно удобно, но, к сожалению, стоимость работы увеличивается на 5% к заявленной в Price List. Третья возможность – использовать специально написанную под операционной систему Windows программу STN Express (ver 5.0), обеспечивающую пользователю максимально удобный интерфейс и позволяющую решать все задачи по выводу и вводу информации, в том числе генерацию структурных формул.
Как подключиться к STN?
Для входа в сеть STN пользователю необходимо ввести персональный идентификатор (логин) и секретное слово (пароль). Зарегистрироваться в сети STN и самостоятельно проводить в ней поиск информации может любой желающий. Для самостоятельной регистрации необходимо зайти на один из сайтов STN и ввести информацию о себе в предлагаемую регистрационную форму. Заплатив со своей кредитной карты 50 долларов в качестве минимального взноса, пользователь получает логин, пароль и минимальный набор справочной литературы, необходимой для поиска.
Для пользователей из стран с высокой заработной платой индивидуальный способ работы вполне допустим. Если учесть, что зарплата высококвалифицированного специалиста в этих странах не менее 200 долларов в день, то даже не слишком оптимально выполненный поиск за 300-500 долларов обходится дешевле, чем одна-две недели, которые затратит специалист, собирая информацию в обычной библиотеке.
Отечественная научная школа как в области фундаментальной, так и прикладной науки заслуженно считается одной из сильнейших в мире. Однако для отечественного среднестатистического пользователя заявленная выше сумма поиска в БД STN не просто дорого, а очень дорого. Учитывая бедственное положение отечественной науки и заинтересованность STN в продвижении собственных услуг на российский научный рынок, высшим учебным заведениям предоставляются значительные скидки на доступ к этой сети.
При содействии STN в нашей стране создано несколько сервисных центров, специализирующихся на поиске информации в этой сети и предоставляющих некоторые, порой весьма значительные (до 10% от общемировых цен), скидки для учебных и научных заведений. Поэтому удобнее сотрудничать с такими центрами, чем самостоятельно подключаться к сети STN и пытаться проводить поиск своими силами.
Несмотря на высокую стоимость поиска, сеть STN является бесприбыльной организацией, так как стоимость поиска с трудом покрывает расходы, связанные со сбором, классификацией данных и последующим их вводом в компьютер.
Что осталось за бортом...
Рассказ об STN подходит к концу, но среди нерассмотренных вопросов остался один, заслуживающий особого внимания: как на практике проводить поиск информации в сети STN и почему решение этой задачи не является тривиальным и связано со многими сложностями. К сожалению, сколько-либо подробное его рассмотрение в контексте этой статьи невозможно. Ведь для этого необходимо уделить несколько страниц основам работы с языком Messenger, гораздо больше места займет описание форм представления информации в базах данных STN, используемых полей и стоимостных аспектов их вывода. После этого для лучшего понимания изложенного материала необходимо подробно разобрать два-три простых примера поиска информации и только после этого углубиться в дебри хитростей и тонкостей, без знания которых сформулировать и реализовать на практике стратегию оптимального поиска информации в базах данных сети STN не представляется возможным.
Довольно много информации по методам и особенностям проведения поиска в разных БД представлено на главных сайтах STN, кроме того, STN ежемесячно издает 24-страничную газету “STNews” с изменениями, дополнениями, усовершенствованиями и ответами на вопросы пользователей. К сожалению, в число языков, на которых публикуются материалы, русский не входит. Некоторые переведенные тексты можно найти на сайтах центров, представляющих STN в России. Учебные пособия на русском языке по поиску информации в базах данных STN практически отсутствуют.