Seria útil o ChatGPT ou softwares similares poderem responder sobre negócios privados dos usuários. Por exemplo, um gestor de uma indústria saber sobre sua produção ou qualidade com algumas perguntas, ou um chatbot no Whatsapp que atenda os clientes automaticamente com informações relevantes sobre seus produtos, seus pedidos, suas reclamações, etc. Isso já é possível? Esse artigo traz uma análise sobre essa questão.
A OpenAI, empresa desenvolvedora do ChatGPT, oferece uma forma de se usar a plataforma com conteúdos incluídos pelo usuário. Trata-se do OpenAI Playground, que usa a API do ChatGPT para responder perguntas, mas pode receber textos colocados pelo usuário. A outra forma existente, usando essa mesma arquitetura, é a programação do treinamento deste conteúdo através de uma série de passos, e que incluem a codificação de programas. O OpenAI Playground possui uma grande janela de entrada de textos, onde você pode colocar o seu conteúdo lá, e a seguir fazer perguntas sobre ele.
Ao mesmo tempo, estão surgindo alguns softwares no mercado que possuem essa função de anexação de conteúdo privado e treinamento do chat. A maioria deles se propõe a gerar vários benefícios, como por exemplo a construção de chatbots automáticos e eficientes respondendo com dados sob a tutela do usuário. Por exemplo, um chatbot que entre no site de produtos de uma loja e possa responder perguntas sobre os mesmos. Algumas opiniões arriscam até mesmo uma substituição ou diminuição de um SAC com softwares deste tipo. O Chatbase, o ChatIQ.ai e o Docalysis, são softwares que permitem fazer quaisquer perguntas sobre dados do usuário, e respondem no estilo do ChatGPT. O Chatbase e ChatIQ.ai informam que treinam o ChatGPT com os seus dados. Permitem a anexação de fontes de documentos, que podem ser arquivos texto, arquivos pdf, textos informados diretamente ou links de sites que serão acessados para obtenção de informações. O Docalysis é também uma plataforma que responde questões sobre documentos anexados, aceitando os formatos texto, pdf e csv.
Todos os produtos relacionados, incluindo o OpenAi Playground, possuem planos de utilização gratuita, naturalmente com limitações. O Chatbase por exemplo deixa você fazer um máximo de 30 perguntas por mês. Todos possuem planos pagos, que variam de acordo com uma opção de contratação. O Open AI Playground possui um pagamento para cada modelo de linguagem utilizado. A cobrança é feita por demanda de acordo com a utilização. Os outros produtos possuem três planos pagos. O primeiro plano custa USD 20,00/mês para o Chatbase, USD 19,00/mês para o ChatIQ.ai e USD 14,00/mês para o Docalysis. As limitações são respectivamente de 2.000 mensagens ou perguntas por mês, 3.000 mensagens/mês e 20MB de tamanho de arquivo. Uma das maiores preocupações em relação a estes softwares é a questão da segurança da informação. Todos informam que os dados são mantidos de forma segura em nuvens confiáveis, como a AWS.
Uma análise superficial dos produtos
Analisei os quatro produtos de forma superficial, fornecendo dados simulados de ordens de produção de uma cervejaria. Os textos incluíam dados sobre quantidades produzidas, fábricas de origem, linhas de produção produtoras, produtos e marcas produzidas, etc. Para o Open AI Playground, coloquei o texto no quadro de diálogo. Para os demais anexei arquivos e acionei o botão para treinamento do chat. Apliquei uma série de perguntas que iam aumentando o grau de complexidade. O diálogo com os softwares é realmente cativante, no mesmo estilo do ChatGPT. Concentrei os testes mais no Chatbase, usando o plano Hobby que me permitia 2.000 mensagens por mês. Anexei como fontes, arquivos com conteúdos variados e em diversos formatos e tipos de arquivos. Conteúdos narrativos, conteúdos colunados e conteúdos com informações desnormalizadas, ou seja, onde há repetições de informações de mesma natureza nas linhas. Usei arquivos texto, textos informados diretamente e arquivos pdf.
Todas as respostas trouxeram informações coerentes e explicadas em textos diversos, como já é conhecido na capacidade generativa destes sistemas. Mas algumas vezes o conteúdo das respostas era incompleto. E notei que a medida que eu aumentava a quantidade de informações enviadas, e consequentemente da resposta a ser dada, essas imprecisões também aumentavam. Mas isso já é conhecido em relação a característica probabilística destes sistemas, em função da maior probabilidade da próxima palavra a ser gerada. Apesar de ser muito falada a questão das 'alucinações' de respostas dadas por estes sistemas, não cheguei a ver isto nestes testes. As respostas foram coerentes, mas em muitos casos, parcialmente corretas.
Outras soluções com linguagem natural
Na busca por soluções que pudessem responder sobre dados de negócios privados em linguagem natural, deparei-me com o recurso P e R (Perguntas e Respostas) ou Q e A em inglês, do popular software de business intelligence da Microsoft, o Power BI. Instalei o Power Bi Desktop em meu notebook, que é gratuito e possui esse recurso. Em seguida, criei uma fonte de dados tipo 'bix' a partir de uma planilha Excel com 200 linhas e 38 colunas. Também continha dados de produção simulados de uma cervejaria, mas com muito mais informações que os testes dos softwares tipo ChatGPT. Os dados das colunas apareciam de forma desnormalizada nas linhas. Por exemplo, em todos os dados da ordem de produção 1000, a coluna de ordem continha o número 1000. O interessante desse recurso é que as respostas não são em forma textual, mas em tabelas e gráficos, o que é mais atrativo do que textos complexos.
Logo ao começar a digitar as perguntas, percebi uma mudança de estilo em relação aos softwares tipo ChatGPT. Ele descarta textos longos e personalizados e requer perguntas precisas. Por exemplo, comecei perguntando 'Pode me apresentar um gráfico de pizza com o volume de apronte de fervura agrupado por marca de produto?' Com exceção de 'me' e 'marca', todas as outras palavras foram sublinhadas com uma barra vermelha. E ele listou corretamente as marcas que eu tinha na tabela. Só com isso já comecei intuitivamente a dar informações mais precisas. Fui rapidamente mudando as palavras e terminei com a pergunta 'Total parametro Volume Apronte de Fervura marca piechart' e ele me apresentou o gráfico com precisão, e todas as palavras sublinhadas em azul. Fiz muitos outros testes e as respostas foram precisas e esclarecedoras por serem através de gráficos. O P e R do Power BI requer que o usuário tenha informações sobre o que precisa perguntar. Neste exemplo, eu precisava saber os nomes exatos das colunas para fazer a pergunta correta.
Conclusões
O uso de linguagem natural para a obtenção de informações vem evoluindo com o surgimento das linguagens generativas, e é uma ferramenta poderosa pela sua proximidade com perguntas e respostas humanas. Mas com a análise que fiz, minha conclusão limitada é claro a esses testes, é de que o uso dos softwares tipo ChatGPT para responder negócios privados irá depender do tipo de negócio ou do tipo de informação que se deseja consultar. Acredito que para negócios ligados a processos, contratos e normas onde haja textos interpretativos, o resultado pode ser bem positivo. Mas tenho dúvidas onde os resultados exigem uma boa precisão, como totais de produção e indicadores de qualidade e eficiência que são requeridos em uma indústria. Neste caso, a exclusão de apenas uma ou duas linhas de informações pode resultar em respostas bem imprecisas, e fazer os usuários começarem a duvidar da sua confiabilidade. Para a área industrial, achei a solução P e R do Power BI mais adequada, com a saída em gráficos sendo mais visível para este tipo de informação. Por outro lado, é necessário um conhecimento do usuário sobre os dados que serão pesquisados, e a forma mais adequada de se perguntar. De qualquer forma, todas as ferramentas analisadas são de grande valia dependendo do contexto de utilização.
Comments