Preslovljavanje (Transliteration)

mpele · March 29, 2012, 10:20pm

Морам да изнесем нека запажања. Тренутно постоји пар хиљада објеката које треба пресловити. Јесте велика цифра али мислим да када се договоримо како да се ради, да ћемо то за пар дана да завршимо. После тога не очекујем велики број измена на дневном/месечном нивоу.

Ми можемо направити свемирски алат али питање је колико ће он касније имати посла.
Описаћу могућ начин проналажења грешака. Колико ми је познато скоро сви овде владају основама линукса па ћу онда само набацати пар команди (команде су фигуративне)

wget serbia.osm.bz - то је 30так Mb
unzip serbia.osm.bz
cat serbia.osm | grep name > tagovi

Прегледом фајла tagovi нађу се грешке. У обичном едитору се нађе id објеката који је проблематичан и онда га је лако исправити. Гледајући ову просту процедуру да ли има потребе да превише компликујемо ствари.

То и није нека мистерија. Пут (way) се састоји из тачака, а тачке нису у фајлу који се учитава у ЈОСМ. У самој дефиницији објекта се налазе само референце на тачке.

osmosis може да филтрира фајл serbia.osm и да извуче само објекте са тагом population и да то сними као осм фајл, који се онда учитава у ЈОСМ и даље је прича јасна. Дакле још једна команда.

Већ постоји плагин за то: tageditor . Фактички гледано наш плагин је почео као његов форк. Додуше, сада баш и немају заједничких тачака.

Бот ради пар минута за целу Србију. При томе направи све оне фајлове које сте видели и целокупну базу са свим изменама (за генерисање osmand мапе). Нисам се бавио оптимизацијом рада а простора за то има више него много.

Ако бот стартујемо једном дневно (постоје дневне копије ОСМ базе за Србију) добићемо фајлове са “спорним” објектима. Моја идеја је да се направи php скрипта која би контролисала преузимање фајлова на начин да када неко затражи фајл она му да само један линк. За следеће преузимање нуди следећи линк (итеративно повећа број за један) и тако даље. После бота би се ресетовао бројач фајла са изменама и све из почетка. Скрипта би била проста а постигли би да се не дуплира рад над истим подацима. Не верујем да ће бити толика навалица за алтернативним обрадама које би заобишле овај систем и правиле озбиљније проблеме.