Geralmente, nunca é uma tarefa fácil se livrar do viés em modelos de IA e, em certas situações, da censura flagrante. No entanto, a DeepSeek da China deixou proprietários de negócios e políticos na ponta do pé devido a um encontro alarmante. Muitos estão levantando sinais de alerta contra os perigos que tais modelos representam para a segurança nacional. Um comitê localizado no Congresso dos EUA compartilhou recentemente um novo relatório denominado ameaça séria da DeepSeek à segurança da América. Isso veio ao lado de recomendações de política sérias. Muitos métodos existem, como ajuste fino dos modelos e uso de RLHF, mas há outro enfoque principal em discussão. Graças à startup CTGT, sabemos de uma nova técnica que elimina o viés e a censura em alguns modelos. Estamos falando de uma possibilidade de remover a censura 100%. O último framework identifica e altera as características internas projetadas para combater a censura. Tal método não é apenas eficiente, mas também permite controle refinado sobre o comportamento dos modelos. Isso significa que respostas não censuradas são produzidas sem afetar o desempenho geral do modelo e qual poderia ser a precisão real. A técnica foi lançada de maneira explícita usando a DeepSeek-R1-Distill-Llama-70B em consideração, mas ela funciona para outros principais modelos de IA. A empresa diz que já testou com gigantes como Llama e mostrou-se tão útil. Ela se aplica a diferentes modelos de aprendizado em geral. Atualmente, eles estão trabalhando com um laboratório de base para garantir que os novos modelos sejam confiáveis ??e seguros desde o início. Os pesquisadores afirmam que a técnica pode destacar características com alta probabilidade de estarem vinculadas a comportamentos indesejados. Quando um LLM está presente, está mais relacionado a coisas como gatilhos de censura ou comportamento tóxico. Uma vez que isso é identificado, é possível manipular a direção. Os três passos básicos incluem identificar as características, isolá-las e caracterizá-las e, em seguida, modificar as características dinâmicas. Se você pode acionar um sentimento tóxico como pedir ajuda para burlar firewalls, pode obter respostas que executam prompts e criam um padrão onde os modelos decidem como censurar os dados. Depois disso, os pesquisadores têm a chance de isolar a característica e destacar qual parte desse comportamento eles gostariam de controlar. Então, eles estão adicionando um mecanismo ao modelo que altera como o comportamento da característica é ativado. Eles também mostraram como o modelo pode ser projetado para gerar melhores respostas a prompts controversos. Outros pesos pesados normalmente lançam apenas 32% das consultas, mas a nova versão pode gerar respostas para 96% delas, excluindo os 4% que tinham a ver com conteúdo explícito. Os especialistas afirmam que isso não compromete a precisão ou as funções do modelo. É bastante diferente do ajuste fino clássico, pois não estamos otimizando os pesos do modelo ou adicionando novas respostas de exemplo. No que diz respeito ao último modelo na DeepSeek, em relação às ameaças à segurança e à segurança do modelo, as recomendações no relatório incluem a América tomar medidas rápidas para expandir os controles. Eles também precisam se sentar e abordar os crescentes riscos neste sentido. Somente então podemos esperar que a segurança e o padrão de tais modelos estejam no topo de seu jogo.