Потянуло что-то на реверс инжиниринг форматов. Однако, с чего начать? С чего-то полезного, это ясно. Но есть слишком простые форматы, где и ломать нечего. Например, *.svg или *.tgf какой-нибудь, там и так всё очевидно. А есть слишком сложные - бинарники всякие и криптоконтейнеры. Нужно с чего-нибудь не слишком простого, не слишком сложного.
А ещё желательно, чтоб открытая спецификация была. Но в неё не смотреть! Ибо такие правила. Потом можно свериться, когда расколупаю. Ну, а за спеку могут опенсорс проги сойти, которые уже реализуют (проприетарный) формат.
В общем, начал с семантической базы
*. Как раз в последней версии зарелизили только базу данных, но не сопровождающую прогу. Первым делом проанализировал частоту символов и подтвердил очевидное, таки да, это плоский текст. :)