O ChatGPT já conta com uma série de medidas que são ativadas quando detetam numa conversa que os utilizadores tentam autoflagelar-se ou expressam intenções suicidas, oferecendo recursos para procurar ajuda de especialistas, bloqueando conteúdo sensível ou ofensivo, não respondendo aos seus pedidos e tentando dissuadi-los.
Também são ativadas quando os utilizadores partilham a sua intenção de causar danos a outros, o que também pode implicar a desativação da conta e a denúncia às autoridades, caso os revisores humanos considerem que existe um risco.
As medidas são reforçadas no caso de os utilizadores serem menores de idade, avança a OpenAI.
Especificamente, a empresa irá melhorar a deteção em conversas longas, uma vez que, "à medida que a conversa [entre o utilizador e o chatbot] aumenta, parte do treino de segurança do modelo pode deteriorar-se", segundo explica a OpenAI.
As alterações também visam reforçar o bloqueio de conteúdo, como imagens de automutilação.
Além disso, a OpenAI está a explorar maneiras de colocar os utilizadores em contacto com familiares e não apenas com os serviços de emergência.
"Isso pode incluir mensagens com um único clique ou chamadas para contactos de emergência, amigos ou familiares, com sugestões de linguagem para tornar o início da conversa menos intimidante", explica a empresa dona do ChatGPT.
A OpenAI anunciou estes trabalhos na terça-feira, no mesmo dia em que Matt e Maria Raine, pais de Adam Raine, um adolescente de 16 anos que se suicidou em abril, processaram a empresa devido ao papel que o ChatGPT desempenhou, conforme relata o The New York Times.
Os pais acusam o 'chatbot' de priorizar a interação com o modelo em detrimento da segurança do menor.
No início de agosto, um estudo do Centro de Combate ao Ódio Digital citado pela Associated Press (AP), concluiu que o ChatGPT é capaz de fornecer informações e instruções sobre comportamentos prejudiciais para jovens, como o uso de drogas ou distúrbios alimentares.
O estudo analisou mais de três horas de interações entre o 'chatbot' e investigadores que se fizeram passar por adolescentes vulneráveis, sendo que, embora o modelo de IA tenha emitido avisos contra atividades arriscadas, continuava a fornecer planos detalhados sobre comportamentos prejudiciais.
Os investigadores do Centro de Combate ao Ódio Digital (CCDH - Center for Countering Digital Hate, em inglês) repetiram as suas perguntas em grande escala, classificando mais de metade das 1.200 respostas do ChatGPT como perigosas.
Leia Também: Milhares de conversas do ChatGPT ficaram expostas no Google