O novo modelo CriticGPT da OpenAI é treinado para “criticar” os resultados do GPT-4

PorFreshTabMega 28 de junho de 202428 de junho de 2024

A OpenAI introduziu o CriticGPT, um novo modelo de inteligência artificial projetado para identificar erros no código gerado diretamente pelo ChatGPT. CriticGPT será usado como assistente algorítmico para testadores que revisam o código do programa produzido pelo ChatGPT.

Fonte da imagem: Copiloto

De acordo com um novo estudo, “LLM Critics Help Catch LLM Bugs”, publicado pela OpenAI, o novo modelo CriticGPT foi projetado como um assistente de IA para testadores especialistas que verificam o código do programa gerado pelo ChatGPT. O CriticGPT, baseado na família GPT-4 Large Language Model (LLM), analisa o código e sinaliza possíveis erros, tornando mais fácil para os codificadores detectar falhas que, de outra forma, poderiam passar despercebidas devido a erro humano. Os pesquisadores treinaram o CriticGPT em um conjunto de dados de amostras de código contendo erros introduzidos intencionalmente, ensinando-o a reconhecer e sinalizar vários erros.

Os cientistas descobriram que em 63% dos casos envolvendo erros LLM de ocorrência natural, os anotadores preferiram a crítica humana do CriticGPT. Além disso, as equipes que usaram o CriticGPT escreveram análises mais abrangentes do que as pessoas que não usaram o assistente de IA, enquanto a taxa de confabulações (fatos falsos e alucinações) foi reduzida.

O desenvolvimento de uma “crítica” automatizada envolveu o treinamento de um modelo em um grande número de dados de entrada com a introdução de erros intencionais. Os especialistas foram solicitados a modificar o código escrito pelo ChatGPT, introduzindo erros, e então fornecer um resultado com bugs supostamente descobertos. Esse processo permitiu que o modelo aprendesse a identificar e criticar diferentes tipos de erros no código.

Em experimentos, o CriticGPT demonstrou a capacidade de detectar bugs introduzidos e erros que ocorrem naturalmente nos resultados de resposta do ChatGPT. Os pesquisadores também criaram um novo método chamado “Force Sampling Beam Search” (FSBS) que ajuda o CriticGPT a escrever revisões de código mais detalhadas, permitindo-lhes ajustar a profundidade de suas pesquisas de problemas enquanto controlam a taxa de falsos positivos.

Curiosamente, os recursos do CriticGPT vão além da simples revisão de código. Nos experimentos, o modelo foi aplicado a um conjunto de dados de treinamento do ChatGPT que já havia sido classificado como perfeito por humanos. Surpreendentemente, o CriticGPT detectou erros em 24% dos casos, que foram posteriormente confirmados por especialistas. A OpenAI acredita que isso demonstra o potencial do modelo não apenas para trabalhar com problemas técnicos, mas também destaca sua capacidade de detectar erros sutis que podem escapar até mesmo de uma inspeção humana cuidadosa.

Apesar dos resultados promissores, o CriticGPT, como todos os modelos de IA, tem limitações. O modelo foi treinado em respostas ChatGPT relativamente curtas, o que pode não prepará-lo totalmente para avaliar as tarefas mais longas e complexas que os futuros sistemas de IA poderão enfrentar. A equipe de pesquisa reconhece que o modelo é mais eficaz na detecção de bugs que podem ser identificados em uma área específica e gargalo do código. No entanto, os erros do mundo real nos resultados da IA podem muitas vezes estar espalhados por várias partes da resposta, apresentando um desafio para futuras iterações do modelo.

Além disso, embora o CriticGPT reduza a confabulação, não a elimina completamente, e os especialistas humanos ainda podem cometer erros com base nestes dados falsos.

Se você notar um erro, selecione-o com o mouse e pressione CTRL+ENTER.

Sem categoria

As autoridades dos EUA irão considerar propostas para proibir investimentos em sectores específicos da economia chinesa até ao início de Agosto.

PorFreshTabMega 22 de junho de 2024

Publicidade A máquina burocrática americana não tem capacidade para responder rapidamente a absolutamente todos os desafios geopolíticos do nosso tempo e, portanto, o projeto de lei que proíbe investimentos em determinados setores da economia chinesa não adquiriu formulações mais claras desde agosto passado. O Departamento do Tesouro dos EUA propôs a realização de audiências públicas…

Dicas | Notícias | Tecnologia

Foguete da SpaceX com astronautas a bordo foi para a ISS

PorFreshTabMega 22 de maio de 202322 de maio de 2023

Publicidade A missão privada AX-2, organizada pela operadora espacial Axiom Space, com sede no Texas, enviou uma tripulação liderada pela ex-astronauta da NASA Peggy Whitson e incluindo três turistas espaciais para a Estação Espacial Internacional (ISS). A equipe espera ficar na ISS por uma semana. Publicidade Fonte da imagem: Axiom Space Publicidade Esta é a…

Dicas | Notícias | Tecnologia

Os jogadores encontraram o assassino na prequela do detetive Baldur’s Gate 3, mas tudo acabou não sendo tão simples – os resultados de Blood in Baldur’s Gate e um intrigante teaser

PorFreshTabMega 7 de julho de 20237 de julho de 2023

Publicidade Lançado no final de junho, o detetive gratuito baseado em navegador Blood in Baldur’s Gate terminou antes do tempo com um teaser de um novo personagem para o RPG de fantasia Baldur’s Gate 3. spoilers. Publicidade Fonte da imagem: Larian Studios Blood in Baldur’s Gate foi ambientado em Baldur’s Gate 15 anos antes de…

Dicas | Notícias | Tecnologia

AMD lança driver gráfico Adrenalin 22.11.2 com suporte para The Callisto Protocol e Need for Speed Unbound

PorFreshTabMega 3 de dezembro de 20223 de dezembro de 2022

Publicidade A AMD lançou o mais recente pacote de driver gráfico AMD Software: Adrenalin Edition 22.11.2. Ele adiciona suporte para os novos jogos The Callisto Protocol e Need for Speed Unbound, bem como The Witcher 3: Wild Hunt Next-Gen Update. Publicidade Fonte da imagem: Krafton Lista de problemas corrigidos: Tempo limite intermitente do driver ou…

Dicas | Notícias | Tecnologia

Foi elaborado um plano geral para os trabalhos de reparação do projeto termonuclear ITER – é necessário substituir 23 km de tubos de refrigeração e acumular centenas de kg de metal nas costuras

PorFreshTabMega 14 de janeiro de 2023

Publicidade Já se sabe que os defeitos de projeto de componentes individuais revelados durante a montagem do reator de fusão ITER obrigarão o lançamento da primeira reação a ser adiado por meses ou até anos. E embora os detalhes das obras de reparação e respetivas estimativas tenham de ser esclarecidos mais do que uma vez,…

Sem categoria

Solos lançará óculos inteligentes com câmera e funções de IA baseadas em GPT-4o este ano

PorFreshTabMega 30 de junho de 202430 de junho de 2024

Publicidade Atualmente, os óculos inteligentes Ray-Ban Meta✴, equipados com câmera habilitada para IA e funções controladas por voz, praticamente não têm concorrentes no mercado, mas Solos promete consertar isso este ano. Os óculos inteligentes Solos AirGo Vision receberão câmera e suporte de IA baseado na rede neural OpenAI GPT-4o, que permitirá reconhecer objetos e também…

Posts Similares

Deixe um comentário Cancelar resposta