Александр Болдачев. Информация и данные

заметки из FB
Информация
Год написания: 
2019
Систематизация и связи
Философия науки и техники

Это серия записей с моей страницы в Facebook.com. Поскольку это отдельные записи, то в них есть повторы. Кому интересно можно почитать обсуждения.

Информация - это значение данных.

Прежде всего следует отметить, что данные не имеют значения сами по себе, а могут быть значимыми только для систем их принимающих или генерирующих. Следовательно, данные не являются информацией и не содержат информации. Информация (значение данных) фиксируется только при взаимодействии данных с системой. Данные значимы для принимающей системы, то есть информативны, если они меняют ее состояние. Данные значимы (имеют значение) для передающей системы, то есть информативны, если в их структуре фиксируется ее состояние, что означает, что при приеме этих данных система (та же система или подобная ей система) изменит свое состояние (при этом не обязательно перейдет в состояние фиксируемое при их генерации).

Не буду приводить примеры. Либо вы сами их придумаете, либо я их приведу в комментариях к этой короткой записи.

*

Информация - это значение данных. Значение - это то, что есть только здесь и сейчас. Значение никому не передашь (именно в виде значения - моего состояния). Значение не сохранишь. Те данные, которые имели значение для меня вчера, то есть были информативны, сегодня могут уже не иметь никакого значения или иметь другое значение. Ведь я, как система, уже изменился.

Об информации возможно говорить только в двух случаях, в двух, станем их так называть, информационных ситуациях: (1) при генерации данных с целью зафиксировать текущее состояние системы-источник и (2) в момент изменения состояния системы-приемник при получении/восприятии данных. Только в этих двух ситуациях данные имеют значение. Сами по себе, вне системы источника и системы приемника они не имеют значения, то есть не являются информацией.

Итак, информация не есть то, что передается или сохраняется. Передаются и сохраняются только данные.

Теперь о данных. Данные - это структурированный набор знаков.

Прежде всего ответим на вопрос, почему именно знаков, а не просто объектов? Летящий в мою голову камень вполне себе изменит мое состояние. Но это не информационная ситуация. А вот если я увижу, как кто-то поднимает камень и приму решение убегать, то тут камень играет роль знака, и этот знак инициировал информационную ситуацию - перевел меня в состояние бега.

Хотя, конечно, здесь мы имеем дело с некоторой тавтологией: если нечто для нас значимо (способно изменить наше состояние), то мы это и называем знаком. То есть любой объект или структура объектов, которые вызывают информационную ситуацию мы называем знаками.

Ну и очевидно, что данными - конкретными данным - мы называем не просто случайное множество знаков, а их набор с фиксированной и сохраняемой при передаче и хранении структурой. Скажем так, если мы изменим структуру данных, то это будут уже другие данные.

*

Может ли быть значение без данных?

Я могу воспринять значение некоторых данных ("красный свет светофора") только потому, что у меня уже есть возможность/способность воспринять это значение, то есть я знаю значение этих данных (иначе не придал бы им значения и попал под машину).

И тут мы подошли к введению нового понятия (и термина) "знание". Знание - это как раз то, на стороне субъекта (принимающей системы), что позволяет ему воспринять значение данных, то есть информацию.

Является ли знание информацией? Нет, поскольку, просто знание чего-то, возможность воспроизведения этого знания, не приводит автоматически к информационной ситуации. Знание значения знака "красный свет светофора" не заставляет меня останавливаться (менять состояние) каждый раз, когда я извлекаю его из памяти.

Знание - это собственные данные принимающей системы, которые позволяют ей воспринимать значение внешних данных. Знания - это, по сути, фиксированные модели для распознавания значений в потоке данных.

Иногда, знаниями можно назвать и внешние данные, если при встраивании их в принимающую систему, они будут использоваться в информационных ситуациях. Таковые знания-данные содержат учебники, инструкции, правила.

*

Следует различал сигнал и данные. Не всякие данные являются сигналом, но сигнал всегда данные. Загорание секции светофора - это сигнал, а книга (просто предназначенная для чтения) - это не сигнал, а данные.

Сигнал - это данные, генерируемые с целью перевода принимающей системы в заданное состояние, то есть для инициации определенной информационной ситуации.

Для того, чтобы сигнал был сигналом для принимающей системы, последняя должна обладать знанием, необходимым для однозначной фиксации значения данных сигнала.

Человек должен обладать знанием ПДД, для восприятия данных "загорелся красный фонарь светофора", как сигнала со значением "стой".

*

Коммуникация - это обмен сигналами.

И именно обмен. В коммуникации обязательна должна быть цепочка информационных ситуаций (как минимум три). Но простого обмена данными для коммуникации недостаточно, необходим обмен сигналами.

*
Сигнал - это данные, генерируемые с целью перевода принимающей системы в заданное состояние, то есть для инициации определенной информационной ситуации.

Информация - это значение данных. Система либо фиксирует в данных свое состояние путем придания им значения, либо изменяет свое состояние при фиксации значения данных.

Данные - это структурированный набор знаков.

*

Коммуникация подразумевает генерацию данных системой А для целенаправленного изменение системы В, и обязательный ответ системы В в форме генерации данных с целью изменить состояние системы А.

Просто распространение данных (радиовещание или хрюканье свиней) - это не коммуникация.

Итак, коммуникация - это обмен сигналами. Именно обмен. И именно сигналами.

*

Данные - это множество объектов. Но не всяких объектов. Камни у дороги - это данные? Мебель в комнате - это данные? Нет. Если, конечно, не считать, что все, что дано нам, то и есть данные. Но мы все же об информации, об информационных ситуациях.

Итак, данными мы называем то, что может вызвать информационную ситуацию, то есть то, что может иметь значение для конкретной системы здесь и сейчас, вызывающее изменение ее состояния (для простоты будем пока говорить только о принимающей системе).

Стол, камень, цветок на подоконнике, конечно, могут вызвать информационную ситуацию. Но не в общем случае, не сами по себе, а только при выполнении одного условия: они не должны представляться тем, чем они есть, они должны иметь значение, не совпадающее с понятием, под которое они подпадают. Цветок на подоконнике в информационной ситуации имеет значение "провал", а не "горшок с фикусом". Значение красного света светофора - "стой", а не "красный цвет". Значение выстрела стартового пистолета - "старт", а не "громкий хлопок". Значение объекта "0" - "ноль", а не "овал".

Такие специфические объекты, которые заведомо и задумано имеют значение отличное от понятий, под которые они подпадают вне информационных ситуаций, мы называем знаками. Так вот, данные - это множество знаков. Но не просто множество (случайный набор), а упорядоченное множество знаков, сохраняющее свою структуру во времени.

Знак - это объект (вещь, предмет), которому вообще или в конкретной информационной ситуации придается значение, отличное от понятия, под которое он подпадает вне ее. Типичными знаками являются слова - они обозначают понятия ("стол", "камень", "цветок"), но сами подпадают под понятие "система графических элементов".

Данные - это упорядоченное множество знаков, сохраняющее свою структуру во времени. В данных значения могут иметь и отдельные знаки (скажем, слова, цифры) и их комбинации (выражения).

*

Знак - это объект, которому вообще или в конкретной информационной ситуации придается значение, отличное от понятия, под которое он подпадает вне данной ситуации.

Знак вещь конвенциональная. Есть знаки, относительно которых существуют глобально социумные договоренности: буквы, цифры, знаки дорожного движения и т.п. А есть знаки локально конвенциональные, ситуационные - тот же цветок на окне. Для профессора Плейшнера цветок имеет значение "провал", для других он вообще не является знаком, хотя возможно допустить, что некто мог договориться, что цветок имеет еще какое-то значение.

Итак, одно и то же множество объектов может быть интерпретировано как разные наборы данных при условии, что имеются различные конвенции относительно знаковой сущности объектов. Например, две последовательности графических знаков TOP и TOP англичанином и русским будут восприняты как разные данные.

*

В обиходе, да и в профессиональной среде, под информацией чаще всего понимают сведения, множество фактов о чем-то, запечатленных в знаковой форме – в тексте, числах, графиках, картинках и пр. Однако пока эти сведения и факты хранятся на всевозможных носителях или передаются по линиям связи, то это лишь данные – сырые данные. Вне и до их «потребления» некой системой (человеком или техническим устройством) мы не имеем права говорить об их информативности, то есть способности что-то кому-то сообщить.

С одной стороны, это так потому, что система принимающая данные, должна «понимать» их, иметь представление о значении знаков. Например, человек просто должен владеть языком, на котором написано сообщение. С другой – получаемые данные (сведения и факты) могут быть уже известны системе или принципиально для нее бесполезны, а значит – не информативны. К примеру, человек может уже давно стоять у светофора, и переключение его секций не имеет для него никакого значения.

Следовательно, невозможно говорить об информативности хранимых и передаваемых сведений. Информативность может проявиться только при приеме данных и она, в первую очередь, является функцией от сложности и состояния принимающей системы. И очевидно, что объективным критерием информативности данных для конкретной системы является изменение ее состояния при их получении.

Итак, надо строго различать данные и информацию, то есть различать просто структурированное множество знаков и значение этого множества для конкретной системы.

Тут еще надо отдельно отметить, что данные – это не обязательно данные (сведения, факты) о чем-то, знак может иметь значение и только в конкретной информационной ситуации, не указывая на нечто вне нее. К примеру, выстрел стартового пистолета или красный сигнал светофора не имеют никакого значения вне конкретных информационных ситуаций, не являются знаками вне их. Поэтому, в определении данных не следует указывать на наличие в них каких-то сведений: данные – это просто упорядоченное множество знаков, сохраняющее свою структуру во времени. Можно, конечно, еще добавить, что это множество знаков хоть потенциально должно иметь возможность инициировать информационные ситуации, но мы не можем сделать это предположение исходя лишь из анализа знаков. Поэтому целесообразно в определении данных оставить лишь упоминание об упорядоченном множестве знаков.

*

Традиционное определение информации, как сведений, приводит к тому, что ее зачастую отождествляют с текстом (понимаемом в самом широком смысле, как форма фиксации содержания на каком-либо языке, хоть на языке танца т.п.).

Сделав такую подмену, исследователи, вместо изучения именно информационных ситуаций – реакций систем на знаки, начинают заниматься анализом текста и его составляющих (суждений, слов, букв). И тогда информации приписывают истинность, достоверность, полноту, понятность и пр. Хотя очевидно, что все перечисленные атрибуты имеют отношения только и исключительно к суждениям или фрагментам текста. Только суждение может быть истинным или ложным, а текст понятным, полным, достоверным или содержать непроверенные факты. Все эти атрибуты текста исследуются в логике, семиотике, педагогике, юриспруденции и т.п., но уж точно не имеют никакого отношения к информатике, к информационным ситуациям.

Давайте обратимся к нашим типовым примерам информационных ситуаций и зададим вопрос: можно ли в переключении светофора, выстреле стартового пистолета, в цветке на окне и в реакциях на эти знаки найти нечто истинное или ложное, посчитать что-то полным и понятным? Нет. А почему? Да просто потому, что информационные ситуации не про текст.

Да, информационные ситуации могут инициироваться и текстом (как структурой знаков), но это не дает нам право переносить характеристики текста в область анализа информации. Одну и ту же информационную ситуацию может вызвать и истинное, и ложное суждение, как полный, так и неполный и непонятный текст. К примеру, парольная фраза, для того, чтобы она «сработала», не должна быть истинной и понятной.

С отождествлением информации и текста связано и устойчивое деление информации на синтаксическую и на семантическую. Ну, да, именно так мы и рассматриваем текст: с одной стороны, он структурированное множество знаков, а с другой - носитель некоторого содержания. Но как мы теперь уже знаем, «синтаксическая информация» - это просто данные. А собственное содержание текста (его полнота, истинность суждений, понятность и пр.) не имеют прямого отношения к информационным ситуациям, которые в первую очередь, определяются структурой и состоянием принимающей системы, а не «семантическим содержанием» данных, взятых сами по себе. Семантика, содержание, значение и значимость есть только на стороне принимающей системы. И в этой схеме информация, понимаемая как значение данных, не может быть не семантической, не иметь значения.

Итак, информация, как значение данных, не может быть ни истинной, ни ложной, ни достоверной, ни непонятной. Все это про текст, и только про текст, и должно изучаться соответствующими дисциплинами. Хотя текст, конечно, можно и нужно рассматривать, как данные (структурированное множество знаков). Ну и, конечно, информация именно как значение данных всегда про семантику.

*

Сейчас уже можно сказать и несколько слов о количественной стороне проблемы информации.

Прежде всего, очевидно, что все байты-мегабайты - это совсем не про информацию, а только про объем данных, про формальное количество знаков сохраненных на некотором носителе или передаваемых по линиям связи. Упоминание о том, что у меня на флешке размещено 7 гигов данных однозначно может сказать лишь об одном - сколько свободного места там осталось. Хотя косвенно объем данных может свидетельствовать о возможном количестве информационных ситуаций, которые могут быть инициированы этими данными.

Все игры с вероятностями и энтропиями это также не прямо про информацию, а больше про данные: их кодирование/раскодирование, потери при передаче по каналам связи. Но косвенно анализ энтропии упомянутых 7 гигов данных может подсказать: там случайный мусор, миллиарды раз размноженный один символ или сложно структурированные данные, которые могут участвовать в большом количестве информационных ситуациях, то есть иметь множество значений.

Итак, как мы должны считать информацию?

Во-первых, что, наверное, уже очевидно, принципиально невозможно говорить об информационности данных вне и до указания принимающей системы, по изменению состояния которой и фиксируются информационные ситуации. Если система может находиться только в двух состояниях - стоять/идти (бежать) - то какие бы данные ей ни скармливали, они будут "содержать" только две единицы информации или одну, если не подразумевается обратный переход в исходное состояние. Две единицы информации можно "замерить" в ситуации со светофором и стартовым пистолетом (если участь, что повторный выстрел возвращает бегунов на старт) и одну - в случае цветка на окне (вариант один – развернуться и бежать подальше).

Во-вторых, анализируя данные на предмет потенциального наличия в них информации, то есть на возможность инициации этими данными информационных состояний, следует подсчитывать не количество знаков, слов, предложений, а пытаться выделить в данных факты, события, которые могут иметь значение для принимающей системы. Это легко понять на примере анализа данных, содержащихся в протоколах с места преступления. Какие факты, какие зафиксированные там события могут повлиять на раскрытие преступления? Наверное, не все. Опытный следователь умеет отфильтровывать потенциально значимые данные, то есть информацию. А для обывателя эти протоколы информационно пусты.

Но это конечно, все на пальцах. Но хотя бы понятно, в какую сторону смотреть и где проводить границы.

*

Как и раньше некоторые комментарии и свои ответы на них я буду выносить в новую публикацию.

Александр Дергилёв: А для чего все переиначивать? Есть количественный подход, а есть семантический. Как раз они раскрывают то, что вы написали?

Александр Болдачев: Я понимаю, что многих вполне устраивает, когда в энциклопедии они читают, что "информация - это сведения", и согласны с этим, а потом сами произносят "у меня на флешке семь гигов информации".

Вам не кажется, что в этом коротком примере слово "информация" используется в двух разных значениях. И ладно бы это была философия или искусствоведение, а это ведь информатика - дисциплина претендующая на предельную строгость и рациональность.

Теперь про семантический подход.

Во-первых, вспомним опять "информация - это сведения". И как вы думаете, могут ли сведения быть не семантическими? Назовете ли вы сведениями то, что вы не поняли, что не имеет для вас значения? Как может быть семантический подход к тому, что по природе семантично.

И с другой стороны, о чем тогда синтаксический (количественный) подход? Что там измеряют? Информацию (сведения)?

Во-вторых, кто-нибудь сможет нам пояснить в чем семантичность хоть одно из ныне предложенных семантических подходов к анализу информации. Именно информации, а не текста, вероятности и логичности языковых суждений?

*

Чтобы понять, о чем я тут распинаюсь уже столько записей, надо ответить на простой вопрос: можем ли мы назвать информацией то, что никому не дано? Можем ли говорить об информативности сообщения, которое никто не получал?

Если не можем, тогда зачем мы данные называем информацией.

Если - да, то есть мы правильно называем данные 
словом "информация", то каким термином нам обозначить понятие "значение данных/сообщения для конкретного получателя"?

Сложилась такая ситуация, когда теории информации занимаются всем чем угодно (хранением, кодированием и передачей данных, анализом истинности и понятности текста), но только не самой информационной ситуацией - влиянием значения данных на состояние конкретной системы.

Давайте задумаемся над исходной проблемой: зачем нам вообще понадобилось вводить понятие "информация"? почему мы вообще обсуждаем информацию? Да только потому, что столкнулись с явлением изменения состояния системы без физического/энергетического воздействия на нее. Так вот, это самое явление - влияние информации на конкретную систему - практически не учитывается в теориях информации. Они продолжают возиться с данными.