No caminho da Inteligência Artificial, segue a pergunta: E estes dados? De quem são?

Num artigo, em 2020, aqui mesmo neste espaço de criação em torno dos fatos e fenômenos da Gestão da Informação corporativa, alertava para, diante do amadurecimento da LGPD em nosso país, sobre as questões envolvendo a propriedade, direitos, concessões e consentimentos em torno dos dados pessoais e organizacionais. Infelizmente temos sempre de ter a paciência de aludir à “maturidade”, pois é fato cultural que, no Brasil, as coisas, mesmo no imperativo da Lei, demoram a se assentar.

Na oportunidade, o tema “no palco” era a Ciência de Dados. Ainda não havia surgido o tsunami do ChatGPT, que ocorreria a partir do fim do ano, mansamente nos alcançando via interações pobres e absolutamente incertas em nossos smartphones. Daí para frente, mantendo o foco nas ferramentas, modelos e técnicas de tratamento massivo de dados, nos defrontamos com tudo o que é geralmente chamado de “inteligência artificial”.

Além das já conhecidas LLMs e seus modelos associados, ambientes propostos por empresas extremamente populares como Google, Meta, Microsoft e IBM, apresentaram neste contexto as promissoras a “big techs” OpenAI, Anthropic, X, DeepSeek, entre muitas outras. Além destas, grandes players como Oracle, Salesforce, Databricks e demais, assumiram, com suas ferramentas, modelos, plataformas e modelos, lugares de destaque no mercado e assentos ao nosso lado, nas tarefas do dia-a-dia.

Se o cliente ou usuário desejar saber o resultado do jogo, encomendar uma pizza ou tentar achar um lugar para ir na tarde de sábado, com certeza, independente do meio, do aparelho, do acesso, será atendido por alguma “inteligência artificial”. E, diga-se, qualquer coisa pega a onda da moda: até mesmo as plaquinhas de preço em gôndolas, placares de propagandas (em geral displays muito bonitos), o brinquedo no berço do bebê… tudo “tem IA” atualmente.

Estamos abrindo aqui uma frente de discussão justamente sobre os aspectos éticos da propriedade dos dados e, consequentemente, dos acervos e conteúdos potencialmente desenvolvidos a partir daí: Informação e conhecimento.

Os recursos de inteligência artificial passam, na versão mais tradicional, que pode ser rompida pelas novas pesquisas, mas dominante neste momento, pela estruturação de serviços sobre um “modelo”. Esta figura mítica é um arcabouço de acessos, estruturas de dados, algoritmos de alto desempenho e camadas de acesso e segurança que, ao final, criam esta noção emergente e evolutiva de “inteligência”. Ali, as questões de acesso à próxima palavra, a recuperação imediata de um documento, a análise textual de pixels de vídeos e mais outros milhares de serviços são realmente executados, posteriormente se comunicando às camadas mais orientadas à comunicação com os usuários.

Dizemos que os modelos são “treinados” a partir de dados. Este processo, já costumeiro na vida de profissionais da área e outros que são usuários mais intensivos de tecnologia, prescreve o registro, com base no que já existe, dos relacionamentos entre itens, entre os “tokens”, sua associação dinâmica e flexível, tratada pelos algoritmos, que não provêm as respostas tão revolucionárias, de textos, diálogos audíveis, imagens, vídeos, etc.

Numa primeira abordagem, acessamos o jargão que afirma que “quanto mais dados, melhor”. Talvez já, de imediato, tornar a afirmativa “quanto mais dados válidos, melhor”, já seria uma alternativa correta. Ademais, todo o tratamento prévio dos dados – classificação, priorização, agrupamento (“clustering”), etiquetagem, relacionamento com causas e efeitos, etc. faria tanto melhor à construção, ou, treinamento do modelo. Assim, atualmente, temos mesmo um mercado de modelos onde empresas como a Nvidia assumem papel de destaque.

Mas… e estes dados? Vamos a uma atualização da conversa de 2020, observando principalmente do ponto de vista ético (uma vez que o técnico, implementando a matemática associada, vai de melhor em melhor): e as garantias aos donos, geradores, controladores, sobre a privacidade e segurança dos dados. A anonimização é possível, para a captura de fatos como as jornadas dos usuários, o relacionamento entre CX e UX… mas… é feita de forma confiável?

Apenas para observar algumas das recentes ocorrências sobre causas judiciais de porte, onde controladores e usuários de dados reclamaram sobre uso não autorizado de seus acervos (dados) por parte de empresas do mercado de IA, citamos as questões postas por Reuters, Reddit (sim, o fluxo de dados Reddit!), New York Times and Getty images (apenas alguns) a players do mercado, como Anthropic, Google, OpenAI e Meta, apenas para citar alguns. Há casos de agências processando em nomes de governos inteiros.

Emerge, portanto, a questão eminentemente ética a ser posta aos projetistas das novas aplicações que serão baseadas em IA: respeito à propriedade e acesso aos dados de terceiros. Os “comos” são claros, em implementações técnicas. Códigos legais, como a nossa LGPD, instruem como este acesso deve ser autorizado, consentido pelo operador / dono, incluindo sua liberdade em, ao seu único critério, revogar o consentimento a qualquer hora.

Já tive oportunidade de encontrar empreendedores do setor de “dados” eufóricos com os primeiros resultados de sua formatação de potenciais produtos e serviços que não haviam se dedicado a perceber o que construía o seu modelo: dados de terceiros. E, associados ao acesso a estes, a vaga noção de que “eram de direito público”, “acesso aberto” e afirmações afins. Além de que não eram, tal afirmação não conduz ao uso como praticado, aumentando a incidência de questionamentos de propriedade e segurança.

É trágico ter o nome de uma pessoa, organização ou empresa envolvido numa prática considerada criminosa. E, afinal, se há desobediência à Lei, podemos ter esta percepção junto à sociedade.

Portanto, ao leitor, a recomendação de sempre, mesmo que seis anos tenham se passado: examine com cuidado os acervos disponíveis para fazer “sua IA” evoluir e se tornar um produto ou serviço de alto aceite. Nossa 13709/2018, a LGPD, fornece as recomendações, os controles, parâmetros e diretrizes. Dados precisam ser protegidos e controlados. Se outro não implementou os controles, não se justifica que não sejam praticados. Assim garantimos uma evolução legal e sadia dos novos recursos de inteligência artificial.

George Leal Jamil
Consultor Infoaction

No caminho da Inteligência Artificial, segue a pergunta: E estes dados? De quem são?

Deixe um comentário Cancelar resposta

Links

Academy

Contato

Links

Academy

Contato