Módulo 3.3: Personalização de Agentes e Personas

O que é:

O OasisProfileGenerator é o componente responsável por gerar populações de agentes com diversidade controlada. Ele opera em três fases: (1) Definição de distribuições demográficas via arquivo YAML (ex: 40% jovens, 30% adultos, 30% idosos; distribuição de interesses políticos; distribuição geográfica). (2) Amostragem estocástica de perfis base a partir dessas distribuições. (3) Enriquecimento via LLM que gera biografias, estilos de comunicação e personalidades únicas para cada agente, usando os traços amostrados como seed. O resultado é um arquivo de perfis (CSV ou JSON) pronto para ser carregado na simulação.

Por que aprender:

A qualidade da simulação começa na qualidade das personas. Populações homogêneas produzem resultados triviais. Populações muito diversas sem estrutura produzem ruído. O OasisProfileGenerator permite controlar precisamente a composição da população simulada.

Conceitos-chave:

Distribuições demográficas: configuráveis via YAML com pesos por categoria
Big Five traits: cada perfil recebe scores de openness, conscientiousness, extraversion, agreeableness, neuroticism
LLM enrichment: GPT-4 gera biografias e estilos a partir de traits amostrados
Social graph seeding: conexões iniciais geradas por preferential attachment ou small-world
Reprodutibilidade: random seed fixo para reproduzir exatamente a mesma população

O que é:

Cada agente OASIS é composto por quatro pilares que são injetados no system prompt do LLM: (1) Personalidade - traços Big Five que influenciam estilo de comunicação (alto extraversion = posts mais frequentes e expressivos). (2) Perspectiva - visão de mundo e vieses (conservador/progressista, otimista/pessimista). (3) Posicionamento - opinião numérica sobre tópicos específicos em escala Likert 1-7 (1=totalmente contra, 7=totalmente a favor). (4) Memória - histórico de interações recuperado via busca híbrida. Esses quatro pilares juntos definem "quem" o agente é e como ele responde a estímulos.

Por que aprender:

Entender a estrutura interna permite criar agentes com características precisas para cenários específicos. Quer simular um debate entre libertários e socialistas? Configure posicionamento. Quer agentes introvertidos? Ajuste personalidade. Cada pilar é um dial de controle.

Conceitos-chave:

System prompt template: ~500 tokens com variáveis de persona interpoladas
Likert scale 1-7: posicionamento granular, permite drift de opinião ao longo do tempo
Personality → behavior mapping: traits influenciam probabilidades de ações
Memory injection: top-5 memórias relevantes adicionadas ao user prompt
Pillar independence: cada pilar pode ser modificado sem afetar os outros

O que é:

Cada plataforma simulada espera perfis em formato diferente. O TwitterEnv usa profiles.csv com colunas: agent_id, username, display_name, bio, followers_count, following_count, interests (comma-separated), personality_traits (JSON string), position_scores (JSON string). O RedditEnv usa profiles.json com estrutura aninhada que inclui campos adicionais: subreddits_active (lista), karma_post, karma_comment, account_age_days, e preferred_sorting (hot/new/top). A diferença reflete as mecânicas distintas de cada plataforma.

Por que aprender:

Erros de formato de perfis são a causa #1 de falhas na inicialização de simulações OASIS. Conhecer a estrutura exata de cada formato previne horas de debug e permite gerar perfis programaticamente com scripts customizados.

Conceitos-chave:

profiles.csv: formato flat tabular, ~15 colunas, encoding UTF-8 obrigatório
profiles.json: formato aninhado com arrays e objetos, schema validável
Campos obrigatórios: agent_id, username, personality_traits em ambos
Schema validation: OASIS valida perfis antes de iniciar simulação
Conversion tools: scripts utilitários para converter entre formatos

O que é:

O Environment Configuration Agent (ECA) é um meta-agente que funciona como o "game master" da simulação. Antes da simulação começar, o ECA lê um arquivo de configuração YAML e configura: número total de rounds, ações permitidas por round por agente, tópicos seed (conteúdo inicial que dispara a simulação), eventos programados (injeção de notícias ou eventos em rounds específicos), regras de moderação (filtros de conteúdo, rate limiting de posts), e parâmetros do sistema de recomendação. O ECA pode ser configurado manualmente via YAML ou gerado por LLM a partir de uma descrição em linguagem natural do cenário desejado.

Por que aprender:

O ECA determina completamente o "mundo" da simulação. Sem entendê-lo, você está limitado a cenários pré-definidos. Com domínio do ECA, pode criar qualquer cenário: desde eleições até crises de saúde pública, lançamentos de produtos ou campanhas de desinformação.

Conceitos-chave:

Config YAML: arquivo declarativo com todos os parâmetros do mundo
Seed topics: posts iniciais que disparam a primeira onda de reações
Scheduled events: {round: 25, type: "news", content: "..."} para injeções programadas
Moderation rules: regex patterns, toxicity thresholds, post frequency limits
LLM-generated config: descreva o cenário e o LLM gera o YAML completo

O que é:

Cada chamada LLM para decisão de um agente segue uma estrutura de prompt de 4 camadas: (1) System prompt com persona fixa (~500 tokens): "Você é {name}, {age} anos, {bio}. Seus traços de personalidade: {traits}. Sua posição sobre {topic}: {score}/7." (2) Memory injection (~200 tokens): top-k memórias recuperadas via busca híbrida. (3) Context prompt (~300 tokens): estado atual do feed, posts visíveis, notificações. (4) Action instruction (~100 tokens): lista de ações válidas com formato de resposta esperado. O LLM gera um chain-of-thought interno e retorna a ação escolhida com parâmetros.

Por que aprender:

O prompt é a interface entre a persona abstrata e o comportamento concreto. Prompts mal estruturados fazem agentes ignorarem sua personalidade, agirem de forma inconsistente ou produzirem outputs impossíveis de parsear. Otimizar o prompt é a forma mais direta de melhorar a qualidade da simulação.

Conceitos-chave:

4-layer prompt: system + memories + context + action instruction
Token budget: ~1100 tokens totais por decisão, otimizado para custo
Chain-of-thought: agente explicita raciocínio antes de escolher ação
Structured output: resposta em JSON para parsing determinístico
Prompt versioning: diferentes versões para diferentes modelos LLM

O que é:

O paper arXiv:2411.11581 identificou que agentes LLM exibem "herd behavior" significativamente mais intenso que humanos reais em datasets comparáveis. Em experimentos de polarização, agentes convergiram para a opinião majoritária 2.3x mais rápido que populações humanas em cenários equivalentes. Este viés é atribuído ao treinamento RLHF que otimiza por "respostas socialmente aceitáveis", fazendo LLMs naturalmente gravitarem para posições de consenso. Técnicas de mitigação incluem: aumentar temperature (0.9-1.2), usar diverse sampling (top-p com p=0.95), e adicionar instruções explícitas de "resistência à pressão social" no system prompt.

Por que aprender:

Este é o viés mais perigoso em simulações sociais com LLMs. Se você não sabe que o consenso é artificialmente amplificado, pode interpretar convergência simulada como evidência de que uma opinião é "naturalmente dominante" - uma conclusão potencialmente falsa e perigosa. Conhecer o viés é essencial para interpretação responsável.

Conceitos-chave:

RLHF conformity bias: 2.3x mais conformidade que baseline humano
Mitigation via temperature: T=1.1 reduz conformidade em ~30%
Explicit resistance prompt: "Você é conhecido por manter suas opiniões independentemente da pressão"
Calibração empírica: comparar distribuição de opiniões com datasets reais
Disclosure: relatórios devem sempre mencionar o viés de conformidade como limitação

🎭 Personalização de Agentes e Personas