Информационные уровни документа
Одним из важнейших внутренних свойств информации является объём, дающий возможность её количественного измерения.
Каким образом можно подсчитать количество информации в документе? Прежде чем попытаться ответить на этот вопрос, нужно сделать два предварительных замечания. Во-первых, следует признать, что в настоящее время отсутствует универсальная мера для измерения количества информации. Есть лишь условные меры, которые характеризуют информацию, содержащуюся в определённом документе, предназначенном для соответствующего потребителя, в конкретной ситуации. И, во-вторых, любой документ является многоуровневой информационной системой, где каждый уровень имеет свои количественные параметры. Есть физический уровень, синтаксический (знаковый), семантический (значимый), структурный, латентный и др.40
Для определения количества информации необходимо прежде всего воспользоваться общенаучным методом измерения. Поскольку документированная информация всегда содержится на каком-либо материальном носителе, постольку первое, самое общее представление о её количестве может дать физический уровень, т.е. натуральный (физический) объём, занимаемый информацией. Так, первоначальное представление о документах на бумажных носителях можно получить, измерив их в килограммах, в кубических метрах, а также по количеству единиц хранения (дел) и даже по длине полок в архивохранилищах. Для аудиовизуальных и машиночитаемых документов могут быть использованы такие единицы измерения как длина киноплёнки или магнитной ленты в метрах, количество фотографических кадров, видеокассет, магнитных или оптических дисков и т.п.
Информационный объём письменных документов можно выразить в печатных листах, условных печатных листах, в учётно-издательских и авторских листах, перейдя таким образом на синтаксический (знаковый) уровень. Печатный лист - это оттиск на одной стороне листа бумаги формата 60 ? 90 см. В условных печатных листах просчитываются оттиски на бумаге других форматов (например, 70 ? 90 см и др.) через специальный коэффициент.
Учётно-издательский лист, также как и авторский лист, равен 40 тыс. печатных знаков, включая пробелы между словами, или 3000 см¦ графического материала (иллюстраций, карт и т.п.).
В информатике количество информации определяется с помощью такой единицы измерения как бит (двоичная цифра, используемая для кодирования любой информации). Восемь бит
составляют 1 байт; 1 килобайт (Кбайт) = 1024 байт; 1 мегабайт (Мбайт) = 1024 Кбайт = 1048576 байт; 1 гигабайт (Гбайт) = около 1 млрд байт.
Однако физический объём документа, также как и количество знаков в нём, т.е. синтаксический уровень, не дают представления о реальном количестве информации в документе. Подсчитать же это реальное количество весьма непросто. Не случайно отдельные авторы вообще считают подобный подсчёт невозможным. В поисках наиболее эффективных путей измерения реального количества документированной информации предлагаются различные способы, используются различные понятия. В частности, некоторые исследователи (Б.В.Бирюков, Г.Г.Воробьёв) предлагают так называемый тезаурусный подход. Для обозначения реального количества информации, вложенного в какой-либо информационный объём (в книгу, газету, официальный документ и т.п.), вводится понятие информационная ёмкость. Реальное же количество информации, извлекаемое конкретным потребителем, обозначается понятием информативность
документа.
Содержание всей информации в определённой информационной системе называется "тезаурус" (от греч. "thesauros" - запас). "С точки зрения информативности тезаурус каждого сообщения делится на три части: 1) основная информативность - то, что дано и что получено; 2) потери информативности - то, что дано, но не получено из-за рассеянности, спешки, незнания языка или предмета; 3) бесполезная информация - информационный шум"41.
Получатель (приёмник) информации также имеет свой тезаурус, который отличается от тезауруса автора документа, но тоже делится на три части: 1) основная информативность - то, что дано и что получено; 2) простая ассоциативная информативность - то, что автор не дал, но подразумевал и предполагал дать и получатель сумел извлечь, благодаря своей квалификации; 3) сложная ассоциативная информативность - то, что автор не дал, не предполагал давать, но получатель извлёк.
Без ассоциативной информативности, кстати, немыслимо эффективное развитие научных исследований, равно как и вообще невозможен творческий процесс во многих других областях человеческой деятельности.
Цифровая оценка информативности осуществляется путём составления двух списков дескрипторов (от англ. "descry" - распознавать), т.е. значимых слов или словосочетаний, несущих смысловую нагрузку и нередко именуемых ключевыми словами. В первый список помещаются все дескрипторы документа, а во второй - дескрипторы получателя, приёмника. Количество дескрипторов, повторяющихся в обоих списках, служит показателем информативности.
Отношение информативности к информационной ёмкости называется информационной плотностью документа. Информационная плотность, как правило, меньше единицы, так как в каждом документе содержится определённое количество бесполезной информации для данного конкретного потребителя42.
Информационная ёмкость и информативность документа зависят от многих факторов: от языка, стиля (в текстовых документах), от структуры, степени формализации и т.п.
Одним из важнейших внутренних свойств информации является её организация, структура. По способу внутренней организации информацию можно разделить на две группы:
- логически неупорядоченный набор сведений (данные);
- логически упорядоченный набор данных43.
Таким образом, изучение информационных свойств документированной информации, хотя на первый взгляд и может показаться чем-то достаточно далёким от практики документационного обеспечения управления, в действительности тесно связано с этой практикой. Рассмотренные теоретические проблемы необходимо принимать во внимание на многих этапах работы с документами: при использовании унифицированных текстов; в процессе свёртывания информации либо, напротив, преднамеренного создания в необходимых случаях её избыточности; в ходе анализа, критической оценки информации и т.п.Иначе говоря, свойства документированной информации реализуются как раз в процессе непосредственной работы с документами, начиная от их создания и заканчивая архивным хранением и использованием в качестве исторических источников.