A OpenAI lançou a tecnologia de criação de imagens mais avançada até o momento e integrou a função do GPT-4O, um modelo multimodal por padrão. Os novos recursos estão agora disponíveis no ChatGPT Plus, Pro, Team e Usuários gratuitos e o acesso Enterprise e EDU estará disponível em breve. Os desenvolvedores podem acessar a API nas próximas semanas.
O Openai disse: “No Openai, há muito acreditamos que a criação de imagens é a principal função do modelo de idioma. Então, construímos o gerador de imagens mais avançado com o GPT-4O.
Criação multimodal de reconhecimento de contexto
A ferramenta de criação de imagens do GPT-4O foi projetada para produzir fotos e saídas muito detalhadas com uma poderosa conformidade com o prompt do usuário. Um modelo baseado em conjuntos de dados educacionais que contêm imagens e textos pode criar uma saída mais criativa e artística, criando uma visão de transmitir claramente informações como diagrama, infográfico ou pôsteres.
O GPT-4O pode criar imagens complexas de até 10 a 20 objetos separados para vincular com precisão objetos a características e relacionamentos. Ao apoiar o aprendizado de texto no texto, você pode melhorar as imagens em múltiplas rotação na conversa. Por exemplo, os usuários que projetam personagens de videogame podem repetir o design, mantendo a consistência visual ao longo do processo.
Precisão e praticidade da comunicação visual
A criação de imagem GPT-4O é excelente para renderizar texto na imagem, permitindo que os usuários criem saídas visuais que combinam linguagem e design com alta precisão. Segundo o Openai, “da primeira pintura das cavernas ao infográfico moderno, os humanos não usaram imagens visuais para se comunicar, persuadir e análises”.
Além de renderizar os símbolos e dados estruturados, o GPT-4O pode usá-los para inspiração ou conversão visual integrando imagens carregadas no processo de criação. Isso permite que os usuários criem conteúdo existente ou mantenham a consistência do estilo no projeto.
Restrições e protocolos de segurança
O OpenAI admite que não há limite para criar imagens GPT-4O. Às vezes, isso inclui problemas de corte, conteúdo hallic de baixo text -text, desafios com edição precisa e informações densas ou texto multilíngue. A empresa está trabalhando ativamente para melhorar essa área.
A segurança ainda é um foco importante. O OpenAI inclui metadados C2PA em uma imagem criada para a fonte e usa ferramentas internas para verificar a origem do conteúdo. Solicitações que violem políticas de conteúdo relacionadas às pessoas reais, nude ou violência são basicamente bloqueadas. Inferências treinadas para especificações de segurança ajudam a ajustar todas as entradas e saídas para políticas.
A empresa disse: “Como em todos os lançamentos, a segurança nunca acabou e é uma área de investimento contínua.
Acesso ao usuário e integração de desenvolvedores
A criação de imagem do GPT-4O é o padrão do usuário do ChatGPT a partir de hoje para substituir a opção anterior. Para quem prefere Dall e E, você pode acessá -lo através de um GPT dedicado.
O usuário pode usar a linguagem natural para explicar as especificações da imagem usando linguagem natural, incluindo proporção, código de cor de 16 polegadas e transparência em segundo plano. Como o modelo produz mais detalhes, a imagem pode levar até um minuto para renderizar.
Imagem: OpenAI