Записи НЛО - вопрос по дешифровке

Предположим, в наши руки попала «флешка» инопланетного происхождения, содержащая терабайты различных интересных данных — фото, видео, аудио, тексты, таблицы и т.д.
Мы собрали интерфейс для чтения этой флешки и осталась только проблема дешифровки:
мы видим некий двоичный код, но не знаем ни способа его трансляции в видео/текст, ни языка.

Спрашивается, сможем ли мы понять хотя бы что-то? Например, определить, что здесь является картинками, а что звуком?

А если при этом мы — НАСА и можем задействовать сотни ученых и суперкомпьютеров?

39 комментариев

avatar
Насколько я понимаю, если записи не были специально зашифрованы системой, которая должна защитить от попыток анализировать данные, можно будет разобрать их файловую систему и типы файлов, если они вообще похожи на наши.
Расшифровать их язык, возможно, не удастся, если там не будет букваря или чего-то в этом роде.
И мы вряд ли сможем быть уверены, что правильно воспроизводим цвета в их видеоизображениях (и что это вообще цвета, а не, допустим, глубина или шероховатость у инопланетян, полагающихся на эхолокацию).
avatar
Допустим, зашифрованы не были.
Насколько реально разобрать файловую систему? А то тут многие говорят, что никак.

Предположим, что инопланетяне из нашей вселенной, а не лавкрафтианских миров с неевклидовой геометрией и непостижимой логикой.
avatar
Если есть постоянный контакт с инопланетянами и доступ к их технике — то никаких проблем.

Если они пользуются иным уровнем технологии — то никак. Как ты бы расшифровывал инфу с DVD в эпоху CD?
avatar
Понятно, что если есть контакт с инопланетянами, то проблем никаких (если это не вторженцы, конечно).

У нас есть понимание физического принципа работы устройства памяти.
avatar
Заголовки файлов одинакового формата должны в значительной степени повторяться. И тем более — концы файлов.
Значительная часть файловой системы будет в начале данных. Или в конце, если мы неправильно поняли, где начало.
И так далее. Я полагаю, что с сотнями учёных и суперкомпьютерами мы сможем разобраться в файловой системе.
avatar
Вообще довольно забавные предположения, что там должна быть файлы, файловая система, заголовки и т.д. Но если сузить до «расшифровать NTFS абсолютно не зная спецификаций» — то это будет не такая уж простая задача. Когда файлы на физическом носителе вовсе не обязаны идти подряд, MFT в разных местах и т.д. Это фактически зашифрованные данные.
avatar
Кстати да, совсем забыл что файл не обязан идти одним куском.
avatar
Вообще довольно забавные предположения, что там должна быть файлы, файловая система, заголовки и т.д.
Всё зависит от того, расшифровываем ли мы флешку инопланетян, которые совсем как люди, только с косметическими отличиями (тогда мы можем ожидать, что их решения по хранению информации мало отличаются от наших), либо по-настоящему чужных 3.14 мерных морских звёзд (которые в самом деле могут подойти к вопросу организации данных совершенно по-другому).

Но если сузить до «расшифровать NTFS абсолютно не зная спецификаций» — то это будет не такая уж простая задача.
Но решаемая, насколько я понимаю.
avatar
У Ефремова было произведение, где он вывел, что все разумные существа должны быть о двух руках, двух ногах, прямоходящие и с головой, угу. Могут глаза у каких-то быть побольше, росточку поменьше.

А задача чисто теоретически решаемая, особенно если для анализа Тб информации есть, чтобы разобраться в структуре. А практически я бы предложил расшифровку через какой-нибудь большой чит — это уже для ТС. Иначе не верится, хоть убей :)
avatar
У Ефремова было произведение, где он вывел, что все разумные существа должны быть о двух руках, двух ногах, прямоходящие и с головой, угу. Могут глаза у каких-то быть побольше, росточку поменьше.
Это наверняка не единственный тип внешности, которая может быть у естественно эволюционировавших разумных существ (разумные осьминоги наверное будут не похожи), но как минимум можно ожидать, что он не редкий.
avatar
Ожидать можно, проверить-то все равно не получается сейчас.
avatar
Это и хорошо — можно рассуждать сколько влезет. :)
avatar
Угу. Называется «резонёрство».
avatar
А задача чисто теоретически решаемая, особенно если для анализа Тб информации есть, чтобы разобраться в структуре.
Да, возможность расшифровки нам обеспечивают именно терабайты информации, благодаря которым можно составлять статистику и сравнивать. Без этого условия наверняка ничего не выйдет.
avatar
Вообще не факт, что там будут именно биты информации. Никто не мешает инопланетянам иметь минимальную ячейку памяти, которая может находиться в одном из трёх положений. Или пяти…

Во-вторых нужно знать, что там вообще может быть. Желательно вообще видеть одно из изображений, которые там хранятся.

В-третьих очень желательно понимать, где там оглавление, а где сами файлы. Иначе у нас просто неструктурированная каша.

В-четвёртых, если и получится что-то получить, то лишь если это что-то хранится в формате без сжатия. Типа bmp или wav. Иначе, не имея алгоритмов инопланетного сжатия информации, это вообще не возможно.

Подводя итоги. Мы можем получить информацию, если она хранится без сжатия, мы видели примеры и имеем хотя бы минимальное представление об устройстве хранения.
При этом картинку получить проще чем звук, а звук проще чем видео.
avatar
Про биты: об этом я думал, допустим, что мы физически разбирали устройство и видели, что ячейка памяти может принимать одно из двух положений (или одно из пяти, не важно).

Про структуру — насколько это критично?

С остальным — согласен.
avatar
Структура — критично. Если мы не знаем не только как зашифровано, но и что должно получиться — бесполезняк.

Ну, грубо говоря, все символы алфавита, которые ты видишь на экране, передаются как числа. Однако имея только набор чисел ты не сможешь прочитать фразу. Нужна ещё таблица кодировки, соответствие числа символу.

Впрочем, мы можем попробовать расшифровать текст, если знаем, какие-то его характеристики. Например, что это осмысленное слово на английском. Или в нём только латиницы и цифры…

Если же мы не знаем ни языка, ни кодировки, ни даже сколько разрядов тратится на одну букву… Это бесполезно.

Если же говорить про структуру, то… Если мы к тому же не знаем, где начинается файл… Это не считая того, что файл с картинкой уже состоит из нескольких логических блоков, которые мы должны как-то выявить…
avatar
Если оно шифровано — однозначно нет, в остальных случаях возможны варианты.
avatar
Dusha, ??? ??? ? ?????? — ????? ???????? ?????????? ???????? ?? ????????? )

????????, ????????? ???????????? ??????? ??????? ?? ???????????. ??? ????, ????? ? ???? ?????????????. ???????????? ?????? ????. ?????????? ????????? ???????? ????????? ??????? ?????? ?????????, ??????. ?????????? ??????.

??? ?????????? ?????? — ?????? ?????? :) ??? ???? ?????????. ???-??? ??????????, ??…
avatar
Вообще, у нас в примере техническая цивилизация, что хорошо — техника кое-что скажет о своих хозяевах, хотя бы в том смысле, до какой степени они шли параллельно с нами. И объёмы информации, как я понимаю, солидные — со многими древними письменностями проблемы в объёмах и сохранности (хотя там мы знаем, что писали люди — то есть с их гипотетическими потребностями и физиологическими ограничениями явно проще).

Но вообще при наличии интерфейса довольно велик шанс, что мы имеем что-то помимо флешки — иные фрагменты техники, а то и останки самих инопланетян. Добавочная информация такого рода должна повысить шансы на расшифровку.
avatar
Найти инопланетянина-толмача это да — реальный вариант.
avatar
«Меньше знаешь — дольше спишь»
avatar
Я и не знаю.
Это один мой знакомый отжал у кого-то Aphone 5S и теперь ковыряется во флешке, т.к. щупальце для разблокировки прихватить не догадался. ;-)
(A =Alien)
avatar
«Двоичный код» — это уже, вероятно, наше собственное представление информации, которая попала к нам в руки. Даже на этом уровне, не зная о том, какой системой кодирования пользовались для сохранения информации, вытащить её вряд ли получится. Я уже не говорю о том, что необходимо знать особенности файловой системы и быть способным отделить метаинформацию непосредственно от той, которая нам нужна. Ну, и следующий уровень: если нам удалось отделить сами файлы, мы должны ещё и суметь прочесть их формат, который опять-таки может не иметь ничего общего с теми, которыми располагаем мы сами.
avatar
Какая разница оно зашифровано или нет? Бинарный код сам по себе шифр.
Если нет ключа — тоесть непонятно как там все устроенно (форматы, файловые системы, итд), никаких шансов вообще, ну разве что они очень, очень похожи на наши.
avatar
Картинка двоичным кодом может быть (простое число) х (простое число) пикселей. Или (простое число) х (простое число) х (простое число), если трехмерная. Тогда прочесть ее можно будет только одним единственным образом и она неизбежно выдаст именно то изображение, которое нужно.
avatar
Формат цвета пикселя может быть (красный)х(зелёный)х(синий) или (оттенок)х(насыщенность)х(светлота) или (циан)х(маджента)х(жёлтый)х(ключевой) или может быть таблица с цветами, а потом их индексы, и т.д.
И это только у нас.
Если мы не можем уверенно говорить про цвет одного пикселя, то…

UPD: Ах да, мы не можем утверждать, что инопланетяне пользуются привычной нам системой координат.
avatar
И изображение не обязано кодироваться прямоугольной матрицей, да. Даже с привычной системой координат :)
avatar
UPD: Ах да, мы не можем утверждать, что инопланетяне пользуются привычной нам системой координат.
Можно ожидать, что пользуются. В крайнем случае, есть не так много систем координат, которыми имеет смысл пользоваться, и мы можем перебрать их все.
avatar
Есть, кстати, читерский способ, который нам очень поможет: если устройство обменивается данными с другим устройством, то анализируя трафик мы можем сильно облегчить себе работу.
avatar
Разбор подобного бинарника в любом случае будет заключаться в поиске аналогий и череде предположений. Грубо говоря вначале идет анализ статистики, выявление закономерностей. Скажем таким образом можно предположить, где лежат упорядоченные данные (допустим видео или аудио), далее поиск в этих кусках математических зависимостей. Если будет найдена хоть одна зацепка, то какое-то количество информации теоретически(и при наличие эпического везения у тех бедняг, которым дадут такую задачку) можно будет извлечь(допустим несжатую аудио дорожку). Но точно не все.
avatar
Сразу вспомнился Лем с «Голосом неба»
avatar
О да!
avatar
В контексте своей профессии, могу подтвердить и расширить вышесказанное. Чтобы можно было прочитать криптотекст созданный чужими нужно:

Его расшифровать, что практически нереально. Предположим он уже в открытом виде (глупо и маловероятно, но)

Провести семантический анализ. Семантически анализ мертвых земных языков занимал у ученых годы и десятилетия, и это учитывая схожую понятийную базу двух культур. Если например у чужих такое же странное понимание времени как у Story of Your Life Чанга, фиг мы их поймем без активной помощи.

Очень выгодным будет наличие астрономических и математических данных в содержимом, при условии что чужие не происходят из региона Вселенной с другими физическими законами — но и это не дает гарантии, т.к. способ записи этих данных может быть несовместим с нашим ходом мышления.

Если это сферические зеленые человечки в вакууме — гуманоиды, с мира со схожей на нашую историей, культурно совместимые — вполне посильная, в рамках нескольких лет, задача. Упоминание картинок и видео намекает что зрение у них такой же опорный орган чувств, это еще более облегчит работу.

Критически важным в такой работе станет наличие известного текста. Любой кусок данных о значении которого люди хотя бы догадываются будет _в разы_ сокращать работу семантических алгоритмов.
avatar
Оффтопик — Ted Chiang по русски будет всё-таки Тед Чан. А то будут люди искать…
avatar
Хех, а я над этим с минуту раздумывал, так или эдак. Увы, мне до профессионального перевода как до звезд.
avatar
Тут не столько профессионализм, сколько традиция.
avatar
Твоя правда. Оправдаюсь тем что попросту не вижу переводов. Пару дней тому серьезно завис на попытке порекомендовать товарищу Altered Carbon.
avatar
Пришел в голову ещё один нюанс: а мы точно знаем, что интерфейс «ксенофлешка-земной компьютер» работает корректно?..

Если «да», это значит, что мы уже очень далеко продвинулись. Тогда что-то выудить в разумные сроки мы точно сумеем, дальше — как пойдет (терабайты — это, всё же, не комар чихнул).

Если нет — велик риск, что мы будем пытаться анализировать бессмысленную цифровую кашу :(
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.