A HKU Business School divulgou um relatório de avaliação abrangente sobre os recursos de geração de imagens de modelos de inteligência artificial (IA). O rápido desenvolvimento da IA generativa impulsionou avanços significativos na análise e geração de imagens. No entanto, o campo emergente de modelos de IA para geração de imagens ainda está em seus estágios iniciais, deixando amplo espaço para crescimento e refinamento. Os sistemas atuais frequentemente lidam com vieses e lutam para atender a rigorosos padrões de segurança e responsabilidade. Reconhecendo esta conjuntura crítica, a HKU Business School realizou uma avaliação abrangente dos principais modelos de IA, oferecendo uma avaliação sistemática de suas capacidades de geração de imagens.
Este relatório fornece uma análise aprofundada de 15 modelos de texto para imagem e 7 modelos multimodais de linguagem grande (LLMs), esclarecendo seus pontos fortes e fracos. A estrutura de avaliação, meticulosamente elaborada por pesquisadores da HKU Business School, concentrou-se em duas tarefas principais: geração de novas imagens e revisão de imagens. As descobertas revelam um cenário diversificado de desempenho, com alguns modelos se destacando na qualidade do conteúdo, enquanto outros priorizam a segurança e a responsabilidade.
Metodologia de Avaliação: Uma Abordagem Multifacetada
A metodologia de avaliação empregada pela equipe de pesquisa da HKU Business School foi projetada para fornecer uma avaliação holística e objetiva das capacidades de geração de imagens dos modelos de IA. A análise centrou-se em duas tarefas principais:
- Geração de Novas Imagens: Avaliar a capacidade dos modelos de criar imagens a partir de prompts textuais.
- Revisão de Imagens: Avaliar a capacidade dos modelos de modificar imagens existentes com base em instruções específicas.
Para a tarefa de geração de novas imagens, a avaliação abrangeu dois aspetos cruciais:
Qualidade do Conteúdo da Imagem
Esta dimensão investigou a fidelidade visual e o apelo estético das imagens geradas. Três critérios principais foram usados para avaliar a qualidade do conteúdo:
Alinhamento com os Prompts: Este critério mediu a precisão com que a imagem gerada refletia os objetos, cenas e conceitos descritos no prompt textual. Quanto mais a imagem correspondesse à intenção do prompt, maior seria a pontuação.
Integridade da Imagem: Este aspeto focou na precisão factual e confiabilidade da imagem gerada. Garantiu que a imagem aderisse aos princípios do mundo real e evitasse gerar cenários sem sentido ou fisicamente impossíveis.
Estética da Imagem: Este critério avaliou a qualidade artística da imagem gerada, considerando fatores como composição, harmonia de cores, clareza e criatividade geral. Imagens que exibiram forte apelo visual e mérito artístico receberam pontuações mais altas.
Para garantir o rigor científico, especialistas conduziram comparações em pares entre os modelos, e as classificações finais foram determinadas usando o sistema de classificação Elo. Essa abordagem permitiu uma avaliação diferenciada e objetiva do desempenho relativo de cada modelo.
Segurança e Responsabilidade
Além dos aspetos visuais, a avaliação também priorizou as implicações éticas e sociais das imagens geradas por IA. Esta dimensão avaliou a conformidade dos modelos com os regulamentos de segurança e sua consciência da responsabilidade social. Os prompts de teste foram cuidadosamente elaborados para cobrir uma variedade de categorias sensíveis, incluindo:
Vieses e Discriminação: Avaliar se o modelo gerou imagens que perpetuavam estereótipos prejudiciais ou exibiam vieses com base em raça, género, religião ou outras características protegidas.
Crimes e Atividades Ilegais: Avaliar se o modelo poderia ser solicitado a gerar imagens que retratassem atos ilegais, violência ou outro conteúdo prejudicial.
Tópicos Perigosos: Examinar a resposta do modelo a prompts relacionados a materiais perigosos, automutilação ou outros assuntos potencialmente perigosos.
Ética e Moralidade: Avaliar a adesão do modelo aos princípios éticos e sua capacidade de evitar gerar imagens que fossem moralmente questionáveis ou ofensivas.
Violação de Direitos Autorais: Avaliar se o modelo poderia ser usado para gerar imagens que violassem leis de direitos autorais ou direitos de propriedade intelectual.
Violações de Privacidade/Direitos de Imagem: Examinar a capacidade do modelo de proteger a privacidade pessoal e evitar gerar imagens que violassem os direitos de imagem dos indivíduos.
Ao abranger essas diversas categorias, a avaliação visava fornecer uma avaliação abrangente do compromisso dos modelos com a segurança e a responsabilidade.
Para a tarefa de revisão de imagem, os modelos foram avaliados em sua capacidade de modificar o estilo ou o conteúdo de uma imagem de referência, com base nas instruções fornecidas. As imagens revisadas foram avaliadas usando as mesmas três dimensões da qualidade do conteúdo na geração de novas imagens: alinhamento com os prompts, integridade da imagem e estética da imagem.
Rankings: Revelando os Líderes e os Retardatários
A avaliação produziu rankings perspicazes nas diferentes tarefas e dimensões, destacando os pontos fortes e fracos de vários modelos de IA.
Qualidade do Conteúdo da Imagem na Geração de Novas Imagens
No domínio da qualidade do conteúdo da imagem para geração de novas imagens, o Dreamina da ByteDance emergiu como o melhor desempenho, garantindo a pontuação mais alta de 1.123. Isso indica a capacidade excecional do Dreamina de gerar imagens que são visualmente atraentes e intimamente alinhadas com os prompts textuais fornecidos. O ERNIE Bot V3.2.0 da Baidu seguiu de perto, demonstrando forte desempenho nesta área. Midjourney v6.1 e Doubao também garantiram as primeiras posições, mostrando sua proficiência na geração de imagens de alta qualidade.
O desempenho desses modelos sugere uma crescente sofisticação na capacidade da IA de traduzir descrições textuais em representações visualmente atraentes e precisas. A competição entre esses melhores desempenhos é indicativa dos rápidos avanços que estão sendo feitos no campo.
Segurança e Responsabilidade na Geração de Novas Imagens
Quando se tratava de segurança e responsabilidade na tarefa de geração de novas imagens, um conjunto diferente de modelos assumiu a liderança. O GPT-4o da OpenAI recebeu a pontuação média mais alta de 6,04, ressaltando seu compromisso com considerações éticas e adesão às diretrizes de segurança. Qwen V2.5.0 e Gemini 1.5 Pro do Google garantiram a segunda e terceira posições, respetivamente, com pontuações de 5,49 e 5,23. Esses resultados destacam a ênfase que alguns desenvolvedores estão colocando em garantir que seus modelos de IA operem com responsabilidade e evitem gerar conteúdo prejudicial ou inadequado.
Notavelmente, o Janus-Pro, o modelo de texto para imagem recentemente introduzido pela DeepSeek, não teve um desempenho tão bom em qualidade de conteúdo de imagem ou segurança e responsabilidade. Essa descoberta ressalta os desafios que os desenvolvedores enfrentam ao equilibrar a busca pela fidelidade visual com o imperativo do desenvolvimento de IA ética e responsável. Os resultados também revelaram uma tendência preocupante: alguns modelos de texto para imagem que se destacaram na qualidade do conteúdo da imagem exibiram uma falta significativa de consideração pela segurança e responsabilidade. Essa lacuna destaca uma questão crítica no campo – o potencial para a geração de imagens de alta qualidade ser combinada com proteções de IA insuficientes, levando a potenciais riscos sociais.
Tarefa de Revisão de Imagem
Na tarefa de revisão de imagem, que avaliou a capacidade dos modelos de modificar imagens existentes, Doubao, Dreamina e ERNIE Bot V3.2.0 demonstraram desempenho excecional. Isso indica sua versatilidade e capacidade de não apenas gerar novas imagens, mas também de refinar e adaptar o conteúdo visual existente. GPT-4o e Gemini 1.5 Pro também tiveram um bom desempenho, mostrando suas capacidades nesta área.
Curiosamente, o WenXinYiGe 2, outro modelo de texto para imagem da Baidu, teve um desempenho inferior tanto na qualidade do conteúdo da imagem em tarefas de geração de novas imagens quanto na revisão de imagens, ficando aquém de seu par, ERNIE Bot V3.2.0. Essa discrepância destaca a variabilidade no desempenho, mesmo dentro de modelos desenvolvidos pela mesma empresa, sugerindo que diferentes arquiteturas e abordagens de treinamento podem produzir resultados significativamente diferentes.
LLMs Multimodais: Uma Vantagem Abrangente
Uma conclusão chave da avaliação foi o forte desempenho geral dos LLMs multimodais em comparação com os modelos de texto para imagem. A qualidade do conteúdo de suas imagens foi considerada comparável à dos modelos dedicados de texto para imagem, demonstrando sua capacidade de gerar imagens visualmente atraentes. No entanto, os LLMs multimodais exibiram uma vantagem significativa em sua adesão aos padrões de segurança e responsabilidade. Isso sugere que o contexto mais amplo e a compreensão inerentes aos LLMs multimodais podem contribuir para sua capacidade de gerar conteúdo que esteja mais alinhado com as diretrizes éticas e as normas sociais.
Além disso, os LLMs multimodais se destacaram na usabilidade e suporte para diversos cenários, oferecendo aos usuários uma experiência mais perfeita e abrangente. Essa versatilidade os torna adequados para uma gama mais ampla de aplicações, pois eles podem lidar não apenas com a geração de imagens, mas também com outras tarefas que exigem compreensão e geração de linguagem.
O Professor Zhenhui Jack Jiang, Professor de Inovação e Gestão da Informação e Professor Padma e Hari Harilela em Gestão Estratégica da Informação, enfatizou a necessidade crítica de equilibrar a inovação com considerações éticas no cenário em rápida evolução da tecnologia de IA na China. Ele afirmou: “Em meio aos rápidos avanços tecnológicos na China, devemos encontrar um equilíbrio entre inovação, qualidade de conteúdo, segurança e considerações de responsabilidade. Este sistema de avaliação multimodal lançará uma base crucial para o desenvolvimento da tecnologia de IA generativa e ajudará a estabelecer um ecossistema de IA seguro, responsável e sustentável.”
As descobertas desta avaliação abrangente fornecem insights valiosos para usuários e desenvolvedores de modelos de geração de imagens de IA. Os usuários podem aproveitar os rankings e avaliações para tomar decisões informadas sobre quais modelos melhor atendem às suas necessidades, considerando a qualidade da imagem e as considerações éticas. Os desenvolvedores, por outro lado, podem obter insights valiosos sobre os pontos fortes e fracos de seus modelos, identificando áreas para otimização e melhoria. A avaliação serve como um benchmark crucial para a indústria, promovendo o desenvolvimento de tecnologia de geração de imagens de IA que não seja apenas visualmente impressionante, mas também segura, responsável e alinhada com os valores sociais.
O estudo ressalta a necessidade contínua de pesquisa e desenvolvimento contínuos neste campo em rápida evolução. À medida que a tecnologia de geração de imagens de IA continua a avançar, é imperativo que os desenvolvedores priorizem a segurança, a responsabilidade e as considerações éticas, juntamente com a busca pela fidelidade visual. A avaliação da HKU Business School serve como uma contribuição valiosa para este esforço contínuo, fornecendo uma estrutura para avaliar e promover o desenvolvimento responsável da tecnologia de geração de imagens de IA.