Ако следите личния ми блог, ще знаете, че обичам отворените данни и визуализациите на такива. В разговор с познати стана дума за BalkanLeaks и изтеклите нецензурирани факсове на американското посолство. Те са пълни с информация, която просто моли да бъде обработена. Можем да намерим доста статии за съдържанието, но някои интересни моменти се пропускат. Невъзможно е като човек чете този документ да обхване и разбере всичко. Затова си мисля, че ще е добре да се обработи информацията.
На първо време това може да стане като графика – връзките между фирми, личности, какви са взаимоотношенията им и как са се променяли с времето. Това може да се направи на който и да е софтуер – от Office пакетите до програми за обработка на снимки. Това ще даде добра първоначална представа за връзките между споменатите хора. Към всяка групировка може да се споменат свързаните лица, с каква нелегална дейност се занимава и в кой регион действат.
Следващата стъпка би била да се оформи всичко това в отворен формат. Слагам това на второ място, защото знанията събрани от графиката, ще могат да се използват за създаване на структурата данни, която да описва хората и връзките в подземния свят. Естествено, в тази структура трябва да се остави възможност за оставяне на свободен текст под формата на обяснения, както и допълнителни полета. Това е защото не е възможно да се формализират всички взаимоотношения между тези структури.
Данните във факса са стари и могат да бъдат бъдат обогатени от търговския регистър (докато го има). Могат също така да се допълнят с информация от медиите кой е жив и кой къде е. Това, което според мен следва е даване на възможност на посетителите да въвеждат сами информация. На местно ниво хората знаят най-добре кой какъв е, за кой работи и какво прави. Тази информация остава в рамките на „публичната тайна“ и не достига печата по обясними причини. Една такава анонимна платформа за публикуване на връзки между хората може да е от голяма полза. Ще използва силата на crowd sourcing-а в това, което медиите ги е страх да попитат.
Разбира се, връзките въведени по този начин ще бъдат маркирани като „непотвърдени“ докато не се докажат от журналистическо или полицейско разследване. Самата платформа ще трябва да позволява въвеждането на нови личности и фирми, търсенето на стари, поправянето, допълването и добавянето на нови връзки във времето. Може да се въведе концепцията за събитие – нещо, което е повлияло връзките като сливане, убийство, дело или нов играч на пазара. За целта ще е най-добре да се използват онтологии или нормални XML-и. Ще трябват около 6-7 различни формуляра, които да въвеждат информацията. Мисля си обаче, че ще може да се направи и с нормален Google Docs документ и формуляри към него.
Цялата тази информация ще може да се използва от всички за визуализация на престъпността в България, както и за събиране на данни за нея. Проблемът с това начинание е, че е опасно. Това е причината и да не го направя сам. Който и да го направи, трябва да остане анонимен. Предложих го като идея на няколко вестника, но явно са преценили, че не си струва.

Занимавам се с уеб програмиране от известно време, и смятам че идеята е чудесна. Няма смисъл от нормални документи, по-добре всичко да е в XML/JSON.
Може доста добре да се получи
един пример за вдъхновение
http://theyrule.net/
Уникален е този сайт!
Нали
Много показателен.
letzdoit
GAE google app engine
Тази платформа не я знам. Само на python ли е или може и на php и java?
java може!
супер
http://code.google.com/appengine/docs/java/overview.html
bg.wikimafia.org да си направим?…
…само се опасявам, че май по-подходящо ще е mafia.government.bg.
Освен чисто техническата страна, освен опасно/безопасно, има и… морална (?!) страна – вероятност анонимно/непотвърдено да бъде „очернена“ личност/корпорация от конкурент/недоброжелател.
Точно затова ще е непотвърдения статус. Може да се гласува от посетители или само журналисти до колко могат да го потвърдят. малко като каузите в Капитал. има го и момента, че някой може просто да започни да си клепа така. Може и непотвърдените да се проверяват за достоверност и тогава да се пускат от модератори като вероятни, но недоказани.
Тази част винаги е проблем при crown sourcing-а – модерацията и потвърждаването на данни, но не се сещам за друг начин да се извлече местното знание и публични тайни. Може само да се даде на журналисти да пишат, но и там има същите проблеми.
е нали идеята е да се следват само balkanleaks документите и от там да се синтезират данните, и еръзките между документите, тоест ако balkanleaks си проверяват източниците …
Да, но в първата фаза. Мисля си, че тъй като документите са стари, ще е полезно да се обновят с нови данни. От друга страна обаче има много „местно знание“, което може да се привлече. Това обаче има доста усложнения за модерация. Така или иначе на първо време трябва да се направи точно отворените данни за онзи документ. Заедно с визуализацията той сам по сеже си ще бъде полезен. Тъй като обаче е доста информация, ще е добре да има инструмент, за да може повече хора да помагат с попълването.
аха това за анонимното leaks от месната власт е проблемно от доста гледни точки. на мен по-интересно , и възможно, е да се систематезира текущата информация от балканлийкс в инфо-граф с личности и компании по нодовете .. нещо такова. а кой ще може да добавя, триябва да се помисли и реши …
Съгласен, но и това е много информация. Пак ще трябва формуляри и app за целта.
Аз имах подобна идея за Велико Търново. Всички общински съветници и връзките между тях и техните фирми да бъдат описани.
За съжаление с новият търговски регистър май май няма да успея да довърша проекта.
А започнал ли си го? Дори да не можеш да го довършиш, пусни информацията, която имаш.
ako ima naviti moje da se probvame edin google app-engine app da probvame. java ili python na men mi e vse edno. moje i php ako niakoi ima idea kak nai-lesno i burzo da stane. nesto nagotovo ako moje da se izpolzva
то основния проблем е да се направи структурата и формулярите. Ако има някакъв автоматичен начин ще е супер. имам няколко идеи.
Съгласен съм, че от местни източници може да се появи интересна и много богата информация. Винаги може на читателя да му се позволи да показва и скрива непотвърдените връзки, а и те ще бъдат ясно обозначени.
Основният проблем, според мен е, как точно ще бъдат описани връзките. Могат да имат множество характеристики, които трябва предварително да обмислим – дали ще са категоризирани, дали ще имат формални параметри и т.н., и също предполагам, че трябва просто свободен текст.
Всяка връзка м/у два елемента ще трябва да има линк към по-подробна информация, където може да се помести и таймлайн на развитието и.
Изглежда ще има два основни вида елементи – хора и фирми. Някакви други?
ПИП, знаеш че бих предпочел Питон пред Джава
ще ти пиша допълнително за разни технически неща. AppEngine е перфектен – мястото на подобен сайт е в облака!
Ще направя някакъв прототип, за да можем да си говорим по-конкретно за реализацията. Формуляри – при всички случаи.
Затова говоря, че ще е добре да се използват онтологии за описването на връзките. С тях няма да има нужда да се дефинират конкретно връзките и данните да следват точно схемата. При въвеждането на нов тип връзка, онтологията ще обновява моделът си. За толкова сложен модел и версии обаче ще трябва да се иъползва някой reasoner за онтологии и доста сложни програми. Всичко това може лесно да се направи и с нормален RDF, XML и дори рационална база данни.
Проблемът е генерирането на формулярите от обновените схеми и пазенето на старите типове данни и оберъщането им в новия формат. Затова ми хрумна да направя цялостен engine за целта, но нямам време. Не знам дали този дето го даваш прави всичко това. Определено ще е полезно.
Съгласен съм – някакъв тип онтология ще е най-подходяща. Още в началото като прочетох поста ти се сетих за това http://www.foaf-project.org/, макар че не позволява произволна информация да се съдържа във връзките (има различни видове връзки, като можем да дефинираме и свои видове, но само толкоз).
Не мисля, че ще е нужно да се превръщат старите данни, просто при четене трябва да се правят някакви проверки.
Веднъж като имаме данните например в RDF, по-натам може да се мисли за различни видове запитвания, автоматизирани изводи и т.н.
Между другото, ти какви случаи имаш точно предвид, при които ще се променя схемата? Ако използваме RDF, предполагам няма да е проблем? Формулярите ще са базирани на схемата, а пък е позволено елементите да нямат някои атрибути.
В GAE май може да се ползва само релационна база данни, но ще проуча как стоят нещата точно. И това е вариант, а и поне ще стане доста бързо.
Много се задълбах в техническата част май. С данните какво ще правим? Ще трябват доста човекочасове за да се извадят връзките… какви критерии да ползваме за това дали двама души/фирми реално са свързани, и каква информация за връзките да търсим?
Форматът на данните може да е RDF или каквото и да е, но най-трудната част е генерирането на формуляри от тях направо. Това ме спира. Не би трябвало да е сложно, но си е занимавка. този FOAF май схемата му е фиксирана. То да ти кажа ако направим генерализиран engine може направо с формуляр да дефинираме схема и от нея да се изкарва нов формуляр за въвеждане. Основната схема ще е тая на RDF – сложни елементи, връзки, прости типове данни и прочие.
В крайна сметка обаче техническата част е едно, а друго е модерацията и поддръжката. В крайна сметка всичко може да е най-обикновен формуляр и статична база данни, които да се допълват на ръка през времето. Важното е, че някой ще трябва да си сложи главата на дръвника за тази работа. Най-важния аспект тук май е анонимността. Ясно е, че ще е в облака, но не знам дали това е достатъчно.
формуляр == webform ?
ако да, то самата форма за дефениране на схема трябва да е гъвкава също. май ще има нужда от javascript доста. Мон?
иначе бакенда да е на гоогле-апп-енжин а? може java но тогава по-скоро бих помогнал при вече някъв прототип. може да разпитам един приятел дето го базика вече над година.
Да, точно това е. Днес попаднах на един open data kit на google. По общото описание изглежда, че може лесно да се правят формуляри направо от данните. трябва да го разгледаме по-подробно.
предлагам да направим някъв чат по някоя сигурна система. e.g. gchat
така, първият (груб) прототип е факт:
http://www.picvalley.net/v.php?p=u/1825/4785817464265293601306066048kEPnCkhDOcmTmhDPFYl9.PNG
добавянето още не съм го довършил, но формулярите се генерират директно от типовете данни, и диаграмата също се генерира от данните.
Чудя се между няколко библиотеки за генерирането на диаграмата, ще видя коя ще ни послужи най-добре.
Кода (за GAE) мога да пратя по мейл, засега няма да го пускам в облака, защото искам да прочета още някои неща за енджина.
Какво правим по-натам? Ще можем ли да намерим достатъчно хора за преглеждане на данните и изваждането на връзки?
изглежда добре. Данните ще е добре да се събират от crowd sourcing и затова формулярите трябва да са лесни. Ще го популяризираме в мрежите като стане готово.
формулярите са от лесни по-лесни. Но засега имаме само две полета – име и описание – за човек, и описание за връзката между двама души. Т.е. за хората и връзките имаме само по едно описание, което е в свободен текст.
Би било добре това да се усложни, за да имаме определени парамтери към всяка от тези единици (което и за визуализацията ще е полезно).
Другото, което може да стане готино в графиката, е да се групират (визуално) хората по някакъв принцип.
Как точно смяташ да стане това с crowd sourcing-а? В GAE лесно можем да използваме Гугълски акаунти. Поради анонимността може въобще да не изискваме идентификация, само примерно captcha за да избегнем роботи. Но това пак оставя известна възможност за спам.
Ще трябва да имаме някакъв вид модератори (те вече ще се логват), които да одобряват подаденото съдържание – хем да чистят спам, хем да удостоверяват твърденията на подателите.
Основното е да е анонимно всичко. Може с google акаунти, но да не се показва кой какво е променял. За модерирането – малко е необхватно. Затова ще е интересно и тази част да се направи с crowd sourcing – гласуване за достоверност с линкове и прочие. Като се съберат достатъчно гласове и доказатаелства – ще се маха флага „непроверено“. То всъщност така или иначе повечето неща имат нужда от източник, защото надали нещо ще може да се провери обективно.
[...] момент има около 10 идеи, като на няколко се развиха хубави дискусии. След една от тях тръгна предложение да направя блога [...]
Точно така, по даден начин ще означаваме на диаграмата кои връзки и описания на хора са най-гласувани, и това ще бъде един вид ‘проверката’ на данните. Така става идеално. По-гласуваните са по-забележими на екрана, и това е и един вид естествен филтър за вниманието на читателя.
Могат да се позволяват гугълски акаунти, ако някой иска вместо да въвежда captcha, като опция просто.
Точно. Иначе модерацията ще е ад. Аз затова не съм и пуснал още crime.bg. От lipsva знам, че е непосилно.
Да, предполагам че така стоят нещата с модерацията.. ще трябват доста хора.
За гласуването – да имаме ли гласове ‘против’? Накрая ще имаме разбира се крайния резултат от гласуването, но има ли смисъл да се гласува срещу определена връзка?
Освен гласуването може да имаме маркер ‘доказано от …’ (което ще обезмисли гласуването за съответния обект).
Чудя се в момента за филтри. Ще има нужда – примерно показване на хората свързани с определен човек. Представям си търсене на хора тип фейсбук (с автоматично допълване).
Значи за модерацията определено ще има степени на достоверност. Примерно ще се доказва с линкове, с доклади на полицията, решение на съда и т.н. Най-ниската степен ще е гласуване и преобладаващо положително такова.
За връзките – въпрос на интерфейс. По-горе имаше линк към доста интересен сайт в тази насока. Може да се направи като интерактивна графика, а може и като отделни профили. Когато данните са отворени и добре структурирани, всеки ще може да направи каквато визуализация иска. Само да се събере инфото.
Май не се изразих точно.
Всъщност theyrule аз го постнах, и от началото си представях нещо подобно
Но се чудех дали да имаме една голяма графика, защото могат да се разделят, както е на theyrule.
Иначе, прототипът по-горе вече зарежда данните динамично от базата данни и така чертае графиката, която работи и е интерактивна (е, има още какво да се направи по нея)
а да, верно. Пропуснал съм да скролна. сори.
Няма проблем.
Прототипът се развива. Ако имаш инсталиран AppEngine мога да ти пратя кода. Пиши ми и ще ти го пратя на мейла.