O echipă de cercetători a construit un algoritm pentru extragerea datelor personale din conversațiile anonime într-un experiment care evidențiază importanța protejării vieții private, notează El Pais.

Care este amploarea amprentei noastre digitale? Știm despre urmele pe care le lăsăm pe rețelele de socializare și de la partajarea conținutului pe alte site-uri de pe internet. Dar edităm acest conținut în funcție de cine îl va vedea și de imaginea pe care dorim să o portretizăm. Platformele de mesagerie instantanee, cum ar fi WhatsApp, care este deținut de Facebook, sunt cu totul altă speță.

„Dezvăluiți mai multe despre dvs. în mesaje private, nu numai în conținut, ci și în modul în care utilizați limbajul”, explică Timo Koch, cercetător la Departamentul de Psihologie al Universității din Munchen.

Koch și echipa sa au analizat peste 300.000 de mesaje WhatsApp și au realizat un algoritm pentru a recunoaște vârsta și sexul autorilor lor – un experiment, spune el, care subliniază importanța protejării vieții private în aceste spații.

„Criptarea End-to-end este un prim pas important”, spune Koch. „Dar dincolo de asta, trebuie să fim informați – platformele trebuie să fie transparente și să adauge etichete atunci când informațiile nu sunt criptate.”

Preocupările cercetătorului și ale echipei sale  vin în contextul în care rețelele de socializare favorizează din ce în ce mai mult utilizarea spațiilor private de mesagerie.

„Facebook se concentrează asupra acestor conversații și probabil vor dori să utilizeze datele, așa că trebuie să avem o conversație despre cum să protejăm aceste mesaje și să ne asigurăm că, dacă sunt etichetate drept private, sunt într-adevăr”, spune Koch.

Chiar credeai ca mai exista viata privata pe Internet? De câte mesaje este nevoie pentru a ne identifica? 

Koch și echipa sa și-au bazat algoritmul pe conținutul WhatsApp, Deutschland?, un proiect care a studiat 451,938 conversații WhatsApp între 495 de voluntari germani. După filtrarea cazurilor în care vârsta și sexul nu au fost furnizate, cercetătorii au rămas cu 226 de subiecți, 309.229 de mesaje și 1.949.518 de cuvinte.

Studii similare care utilizează rețelele de socializare ca sursă de conținut și-au bazat analizele pe eșantioane mari de text de zeci de milioane de cuvinte și  zeci de mii de voluntari. Dar, în timp ce volumul de informații din cercetarea WhatsApp este mult mai mic, deficitul său este compensat de natura informațiilor și de modul mai intim în care ne exprimăm în aceste spații private de mesagerie.

„Faptul că avem un set de date atât de mic și predicțiile noastre încă funcționează sugerează cât de multe s-ar putea face în viitor. Rezultatele noastre ar trebui considerate un punct de plecare”, spune echipa de cercetare.

Odată ce algoritmul a fost realizat, un eșantion de aproximativ 1.000 de cuvinte a fost suficient pentru a obține o clasificare rezonabilă a vârstei și sexului. Pentru a evalua această cifră, cercetătorii au numărat numărul de cuvinte într-o conversație moderat activă între două persoane: trei zile de dialog constau, în general, în puțin peste 1.000 de cuvinte. Cu toate acestea, echipa recunoaște că, dacă ar fi avut o bază de date mai bogată, potențialul analizei ar fi fost mult mai mare.

„Dacă ne gândim la analiza personalității sau la alte caracteristici, am avea nevoie de mai multe informații, deoarece există diferențe mai subtile implicate”, spune Koch. „Când aveți un model bun, a face o predicție durează mai puțin de două secunde.”

Chiar credeai ca mesajele tale nu le stie nimeni? Sau spune-mi cine ești și îți voi spune cum folosești WhatsApp

Această identificare este posibilă deoarece modul nostru de a ne exprima pe WhatsApp răspunde tiparelor demografice. În funcție de conținutul What’s up, Deutschland?, utilizatorii mai tineri tind să folosească mai multe emoticoane și să se exprime mai frecvent la persoana l, caracteristică care a fost deja observată în studiul conținutului postat pe alte platforme și care pare să confirme că devenim mai puțin individualiști odată cu vârsta.

În ceea ce privește sexul, Koch și echipa sa au găsit o utilizare mai mare și mai variată a emoticoanelor la femei, care folosesc și mai multe pronume la persona l singular. Bărbații, pe de altă parte, folosesc un limbaj mai colocvial și includ mai multe referințe la consumul de alcool.

Koch nu exclude posibilitatea ca, de-a lungul timpului, să existe mici schimbări în modul în care ne exprimăm pe aceste aplicații, deoarece conținutul setului de date utilizat în studiul său a fost compilat între noiembrie 2014 și ianuarie 2015. Formate precum stickerele, care au fost încorporate în 2018 și accesul direct la GIF-uri ar fi putut introduce anumite variații.

Dar accesarea unui corp mai mare și mai actualizat de mesaje nu este ușor, cel puțin în lumea academică.

„O companie mare de tehnologie are acces la mult mai multe date”, spune Koch. Surse mai bogate și mai recente de informații ar permite, de exemplu, analize mai complexe ale personalităților utilizatorilor și ar permite cercetătorilor să studieze cât de mult suntem mai sinceri în mesajele private decât în ceea ce împărtășim pe rețelele sociale în funcție de diferite culturi și contexte naționale.

O altă limitare a analizei este factorul lingvistic. Dominanța limbii engleze în dezvoltarea sistemelor de procesare a limbajului înseamnă că majoritatea instrumentelor disponibile sunt în această limbă.

„A trebuit să ne antrenăm propriile modele”, spune Koch. „Fiecare limbă este diferită și are propriile semne.”

Acum că știm toate acestea, ar trebui să cenzurăm ceea ce spunem în aplicațiile de mesagerie privată?

Potrivit lui Koch, depinde de cât de multă importanță acordăm vieții private și cât de mult confort ne dorim.

„Există câteva alternative bune, cum ar fi Signal (serviciul de mesagerie instantanee), care este, de asemenea, criptat și nu are o corporație în spatele său cu un interes legitim de a profita de informații”, spune el.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*
*