Big Data

15 Oct

Govor s panela “Not only Cambridge Analytica. Manipulations in the Information Space”

Nedavno sam bio pozvan na panel na Ekonomskom forumu u Poljskoj koji se bavio tematikama vezanim uz obranu i sigurnost.  Ime panela je bilo; Not only Cambridge Analytica. Manipulations in the Information Space. U daljnjem tekstu prenosim govor u cijelosti

Povezana slika


Slika 1 – Conceptual map of various BSD/SBD interpretations in the related literature. (ref)

“Besides electrical engineering theory of the transmission of messages, there is a larger field [cybernetics] which includes not only the study of language but the study of messages as a means of controlling machinery and society…” — Norbert Wiener, In Cybernetics (1948)

Thoughts on the topic by Sergej Lugović

First of all I would like to comment on the introduction text to the panel. We have to be clear about what we are talking about. There is a difference between social media and social networks.

Before going to the deeper analysis of the issues we are facing, we have to clarify lenses used to observe phenomena. In the context of social media we can separate it into three different levels, user perception of information, how people communicate and how they cooperate based on social media. For example the questions that arise are; what is the level of trust toward social media information sources, how do people check facts about data that is retrieved and so on. Another set of questions related to the communications that can be asked are; which social media platforms do people use for certain tasks, what the messages sent between agents convey, who is communicating with whom, and what is the capacity of the communication channels and so on. And then we are coming to the cooperation level, where we can ask questions on how people actually act when using these platforms and by doing so change the environment they operate.

In my view problem is that people actually act less, but at the same time spent more time on the social media. I would like to give a recent example. One small farmer in Croatia recently posted on his Facebook wall about his legal case with the government. In the post he criticized the government, but did not mention why he had problems with them. Hundreds of comments were posted, and the post reached 550,000 views, everybody was an “expert” in the law, agriculture and business and was sharing their expertise in the comments – but the question is how many of those “experts” actually bought his products. If only a portion of them bought his product – he will be out of his financial problem in just a day.

Another interesting indicator is related to the dollar value of the time people spent on Facebook. FB has 2,3 billion users, that spend 50 minutes a day on it, multiplied by 365 days and multiplied by global average income of 8,3 PPP[1] dollars per hour.

This comes to 5,6 trillions of PPP dollars. Total EU GDP is around 22 trillion, Poland is about 1,1 trillion and Germany is around 4,5 trillion.

The thoughts above are related to the analysis that place a user in the central point of the observation. It is important that we are aware of another analytical perspective – the information system perspective, in which we look on social media as an information system (consisting of social, technology and information artifacts). In my view this is more appropriate question to ask.

First of all social media as information systems are more open and adaptive then classical information systems that we use in our daily operations. By being as such they are more advanced and powerful, but with power comes responsibility but also attraction to it. This is the reason some governments are trying to control social media platforms (without much of success) or use them in fulfilling their agenda. Usually in a discourse we are finding finger pointing toward developing countries governments, but the case I like to use is of ZunZuneo – a Cuban social network developed by US agencies with an aim to oppose communist system in Cuba.

A recent example that related to the events in Chemnitz where a messenger service owned by Facebook was used to distribute the photo of an arrest warrant. As it consists of information (photo), technology (WhatsApp) and social (people involved) – it is an information system in a true sense.

Here we can ask the question; if this is illegal content then is Facebook responsible for allowing its distribution? Silk Road was also just a platform.

This shift from classical social media (or information systems) toward the messengers and primary non text social media such as Youtube and Instagram calls for new types of social media listening paradigm, that we are calling Social Media Listening 2.0. Under such a paradigm quantitative methods are not enough, as we still do not have access to computing power that could analyze large amounts of multimedia content. Also as messengers are more closed in terms of machine based data collections (such as Twitter or FB API’s) digital anthropology methods should be applied to collect data.

Because of their complexity such information systems are called Ultra Large Systems in which users are not just users but are elements of such a systems and data are collected from the users and the systems interaction features open possibilities to manipulate those interactions. It’s done by implementing mechanisms that enable such a information systems to be adaptive. The problem with this mechanism are the motives and goals behind the operations they perform. An example is the recent US election. Advertisers used the implemented advertising mechanisms in Facebook to manipulate the voters and those mechanisms are fed by data about the users activities on the Facebook. At the other side being able to use the same advertising system is very valuable for a business trying to reach their customers more efficiently then through classical media channels.

So now to come back to the question this panel is considering, I will say that its not about the avoiding the risk of social media in terms of manipulation, but about accepting those risks and using different available methods to manage risks. It’s all about acceptance but not avoidance, because avoidance will mean no actions. Control and communication always go together and manipulation is an essential attribute to it. But understanding and accepting risks is the name of the game and makes the world better place.


Više informacija o forumu možete naći ovdje 


11 Oct

Bilo kuda podatci svuda ali bez procesa nema ništa od truda

Kroz zadnjih nekoliko godina u našem Big Data lab-u se bavimo sa strukturiranjem podataka iz različitih izvora, pronalaženjem funkcija koje možemo primijeniti na te podatke te identifikacijom koristi koje možemo kreirati.

Data Functions Benefits Figure


Slika 1 – Okvir Data – Functions – Benefits (DFB)

Koristeći okvir Data – Functions – Benefits (DFB) s vremenom smo uvidjeli da se isti osim za potrebe dizajna informacijskog sustava isti može i koristiti i za potrebe razvoja poslovnih pothvata temeljenih na novim tehnologijama koji unutar svojih procesa obrađuju podatke kako bi generirale koristi za krajnje korisnike. Pojednostavljeno rečeno, ako kreiramo informacijski sustav on bi morao imati neku svoju svrhu te generirati koristi za krajnjeg korisnika smanjujući neizvjesnost koja se nalazi u socio tehničkim sustavima u kojima krajnji korisnik djeluje.

Tijekom vremena došli smo do sekvence koja se počela ponavljati iz projekta u projekt. Ista se nametnula kao pomoć prilikom izrade informacijskih sustava temeljenih na big data konceptu uključujući dizajn, izradu te kontinuirano unapređenja. Povratna veza od korisnika sustava, koja se temelji na obrascima informacijskog ponašanja korisnika temeljeno na analizi logova, omogućuje dizajniranje adaptivnih funkcionalnosti informacijskog sustava. Primjer iz svakodnevnog života je nova funkcionalnost iOS12 koja omogućuje da korisnik ima uvid u provedeno vrijeme za zaslonom ali i mogućnost podešavanja kontrolera koji će odrediti kako telefon funkcionira.

iPhone X showing Screen Time stats for Jason’s iPad with time spent on Games, Entertainment and Social Networking, plus menu links for Downtime, App Limits, Always Allowed and Content and Privacy Restrictions.

Slika 2 –  View, Model, Control sučelje korištenja mobilnog uređaja (reference, retrieved 11.10.2018)

Sekvenca se sastoji od sljedećih koraka

Definiranje izvora signala – bilo koji podatak će se pojaviti na nekom izvoru signala. Međutim signal je najčešće dinamičan i ima svoje oscilacije. Naprimjer jačina svjetlosti na zemlji se mijenja iz dana u noć, te ima svoju dinamiku unutar dana. Ako radimo sustav koji uključuje ili isključuje rasvjetu nije potrebno pohranjivati sve podatke koje signal generira. Stoga prije nego odredimo koje podatke želimo sakupljati potrebno je definirati sve moguće izvore signala koji mogu generirati podatke za informacijski sustav.

Definicija podataka koji se obrađuju informacijskim sustavom – kada imamo uvid u sve signale koji dolaze iz socio tehničkih sustava (ponašanje ljudi, ponašanje prirode, ponašanje strojeva) potrebno je odrediti koje podatke želimo pohraniti u informacijski sustav za daljnju obradu. Ako analiziramo razinu svjetlosti te temperaturu u nekom prostoru moramo odrediti na koji način iz konstantnog signala pospremamo podatke u informacijski sustav za daljinu obradu. Ovisno o kontekstu, te koristima koje želimo dobiti informacijskim sustavom određujemo spremamo li podatke za svaku minutu ili svaki sat, pospremamo li s jednom ili četiri decimale, te u kojem formatu te u koji tip baze podataka.

Izračunavanje korelacija  – kako bi mogli znati koje su nam variable bitne za daljnju obradu podataka potrebno je u setu podataka pronaći korelacije. Korelacije podataka su nam temelj da odredimo koje su to variable kojima kasnije možemo modelirati i modelirati ponašanje informacijskog sustava. Osnovno svojstvo variable je da ima vrijednost te se ista može mijenjati. Naprimjer svijetlo se može mijenjati zbog kretanja sunca, ali isto tako možemo automatizirati umjetno svjetlo u prostoru sukladno potrebama čovjeka koji se nalazi u tom prostoru (npr čovjek može čitati ili spavati).

Kauzalnost i povratne veze – kada imamo variable, čije se vrijednosti mijenjaju, potrebno je utvrditi međusobnu povezanost tih varijabli, odnosno ustanoviti njihovu kauzalnost te snagu te povezanosti (odnosno statističku vjerojatnost da promjena A rezultira promjenom B). Što je vjerojatnost veća i kauzalnost je veća. Obično se bavimo složenijim sustavima potrebno je i definirati povratne veze informacijskog sustava. Naprimjer ako količina svjetlosti padne, upali umjetnu rasvjetu, kada umjetna rasvjeta podigne temperaturu u prostoru, upali ventilaciju, ako je ventilacija pre jaka upozori čovjeka u prostoru da se može prehladiti.

Modeliranje i razvoj funkcija – kada smo definirali komponente sustava (variable) te njihove povratne veze, potrebno je modelirati sustav koristeći se nekom od postojećih metodologija (npr konceptualizacija, formulacija, testiranje i implementacija, Randers, 1980) te razraditi funkcije koje obrađuju podatke na način kako bi se moglo upravljati informacijskim sustavom (kako kroz simulacije prije stvarne realizacije funkcije, putem automatizirane realizacije funkcije). Isto tako poželjno je implementirati mehanizme koji omogućuju promatranje ponašanja sustava kroz vrijeme te tako sakupljamo podatke za unapređenje modela kroz vrijeme.

Kontroleri – kada imamo model i funkcije onda znamo što kontroliramo te zašto. Implementacijom kontrolera omogućujemo krajnjem korisniku da prilagođava sustav sukladno potrebama te implementaciju (polu)automatiziranog rada sustava. Isto tako različiti kontroleri se mogu dodjeljivati različitim korisnicima sustava sukladno njihovim radnim zadatcima.

Vizualizacija – kao zadnji korak u sekvenci izrade informacijskog sustava potrebno je napraviti vizualizaciju informacija koje sustav generira. Kvalitetna vizualizacija informacija omogućuje lakše i učinkovitije korištenje informacijskog sustava te tako i rezultira većim korištenjem istog.



Randers, J. 1980. “Guidelines for Model Conceptualization” in Elements of the System Dynamics Method. J. Randers, ed. Waltham, MA: Pegasus Communications

26 May

Food data kao poddisciplina Big Data – Od stola do polja u kontekstu OPG-a

Screen Shot 2018-05-26 at 08.30.00

Trenutno se često čuje o procesu koji se bavi plasmanom hrane od polja do stola. Međutim postoji i alternativa tom procesu. A ona je od stola do polja. Koja je razlika između ta dva pogleda na plasman hrane?

Glavna razlika je što se u procesu od polja do stola bavimo fizičkim proizvodima, odnosno samom hranom, dok se u procesu od stola do polja bavimo podatcima koji prikazuju potrebe za hranom. Hrana nastaje na polju, a informacija o tome da je hrana potrebna na stolu, u trenutku kada se pojede obrok. Tijekom godina promatranja nezavisne proizvodnje hrane te traženja odgovora kako informacijski sustavi mogu pomoći hrvatskim OPG-ovima jedan od glavnih izazova manjih i nezavisnih proizvođača hrane je planiranje. Kako procesuirati proizvode s polja, kome ih prodati, gdje se kupac nalazi, koliko je spreman platiti, kolika je potražnja te koja je dinamika potrošnje, koliko uložiti u marketing, koje kanale koristiti te s kim biti partner. Ako krenemo od stola, odnosno sakupljamo podatke te ih procesuiramo kako bi stvorili informaciju znamo odgovore na sva gore navedena pitanja. Ako tome dodamo da krajnji konzument hrane ima interakciju s informacijskim sustavom, stvaramo uvid u njegove potrošačke navike, možemo sakupiti povratnu informaciju kako unaprijediti proizvod te nam on može pomoći u plasmanu naših proizvoda tako da nas promovira prema svojim poznanicima te tako postaje bitan agent u povećanju prodaje.

E sada gdje su izazovi u dizajnu jednog takvog informacijskog sustava, koje podatke obrađujemo? Isto tako kako se takav informacijski sustav uklapa u koncept Big Data.

Big Data po mojoj radnoj definiciju su obrada nestrukturiranih podataka na kojima se može temeljiti neka akcija, koji su procesuirani što bliže realnom vremenu te zadovoljavaju informacijske potrebe osobe u kontekstu.

Koje su to dvije osobe u kontekstu? Proizvođač i konzument. Stoga neka od pitanja bi bila sljedeća

  • Koje podatke skupljamo?
  • Kako ih strukturiramo?
  • Kako je povezan tijek podataka između konzumenta te proizvođača?
  • Koliko treba vremena da se iz tih podataka stvori informacija?
  • Gdje se pohranjuju podatci, te tko im ima pristup?
  • Koje procedure obrada tih podataka koristimo?
  • Kako ih vizualiziramo?
  • Kako provjerimo njihovu izvornost te točnost?
  • Kako usklađujemo rad različitih informacijskih sustava koji te podatke procesuiraju?
  • Kako trošimo uvijek limitirane resurse (kako financijske, tako ljudske i tehnološke)?

Nekidan smo s kolegom sjedili na kavi te razgovarali o ovim izazovima

Misao koje je ostala u zajedničkom mentalnom prostoru je ta da je ustvari strašno to što o osobi s kojom jedemo možemo saznati skoro sve a o hrani koju jedemo skoro ništa.

Tu bih stao, te ostavio čitatelja da razmisli o ovome, te da ako može pridruži nam se u našem mentalnom prostoru