Comparando IA Por Chatbot

Beth Plaza
21 de jan.
2 min de leitura

Atualizado: 1 de mar.

É o melhor site para acompanhar a evolução das IAs e descobrir qual modelo é realmente o mais eficaz para o tipo de perguntas que costuma fazer.

O site lmarena.ai (anteriormente conhecido como LMSYS Chatbot Arena) é uma plataforma pública e gratuita utilizada para testar, comparar e classificar os melhores modelos de Inteligência Artificial do mundo, como o ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic) e Llama (Meta).

É considerado o "padrão de ouro" da indústria para avaliar a qualidade das IAs porque se baseia no feedback de humanos reais, e não apenas em testes automatizados.

Como funciona?

O site funciona como uma espécie de "ringue digital" ou batalha cega:

Arena (Batalha): Você escreve uma pergunta ou comando (prompt).
Duelo: Dois modelos de IA diferentes respondem lado a lado, mas as suas identidades ficam ocultas (aparecem apenas como "Modelo A" e "Modelo B").
Votação: Você lê as duas respostas e vota na que considerar melhor (ou indica se houve empate).
Revelação: Só após o voto é que o site revela quais eram as IAs (ex: era o GPT-4⁠o contra o Claude 3.5).

Principais Funcionalidades:

Leaderboard (Ranking): O site mantém uma tabela classificatória global baseada no sistema de pontuação Elo (o mesmo usado no xadrez). Isso permite saber qual é, de fato, a IA mais "inteligente" segundo a opinião dos utilizadores.
Acesso Gratuito a Modelos Pagos: Permite testar gratuitamente modelos que normalmente exigiriam uma assinatura paga, desde que seja no formato de batalha ou teste específico.
Categorias: Existem arenas específicas para programação (Coding), tarefas difíceis (Hard Prompts), visão (análise de imagens) e vários idiomas.

Quem criou?

O projeto é mantido pela LMSYS Org (Large Model Systems Organization), uma organização de investigação fundada por estudantes e professores da UC Berkeley, em colaboração com investigadores da UC San Diego e da Carnegie Mellon University.

Atualização: https://arena.ai/

Comparando IA Por Chatbot

Como funciona?

Principais Funcionalidades:

Quem criou?

Posts recentes

Comentários