Profile picture of el hombre pulpo

el hombre pulpo

@coproduto

Published: January 27, 2025
7
17
128

O assunto de hoje, como todo mundo já notou, é o DeepSeek-R1 e o estrago que o lançamento dele fez no mercado. Como todo assunto técnico, tem MUITA desinformação rolando pra população em geral. Meu objetivo aqui é desmentir um pouco isso. Fio porque vai ter vários links. 🧵

Image in tweet by el hombre pulpo

O objetivo deste fio não é ser técnico. Eu quero só explicar algumas coisas, sobre o que o modelo é ou não é. Vi bastante gente falando sobre, e bastante gente falando coisas erradas. Então vamos começar pelo importante: O que é o DeepSeek-R1?

O DeepSeek-R1 é um modelo generativo de linguagem grande (LLM) criado pelo laboratório chinês DeepSeek. Ele é especificamente um modelo com capacidade de "raciocínio", comparável ao OpenAI o1. Abaixo vocês podem ver que a pontuação dos modelos é semelhante em vários benchmarks.

Image in tweet by el hombre pulpo

Já explico o que eu quero dizer com capacidade de "raciocínio". Mas o importante de notar na imagem acima é, primeiramente, o modelo tem capacidade comparável ao OpenAI o1, atualmente o *segundo modelo mais poderoso da OpenAI*.

Atualmente o modelo mais poderoso da OpenAI é o OpenAI o3 - que ganha de longe do DeepSeek na maioria dos benchmarks. A DeepSeek não incluiu o o3 na comparação porque, obviamente, ninguém vai fazer nada que prejudique sua imagem.

Mas isso por si só já desbanca uma narrativa que está sendo muito falada hoje, que é que "A China superou os EUA em IA!" Não, não superou. A China conseguiu reproduzir a segunda melhor IA dos EUA. Isso é impressionante, não quero diminuir esse feito.

Inclusive, deixando claro aqui: O trabalho da DeepSeek no R1 foi MUITO FODA tá? Nada do que eu falo aqui é pra diminuir eles. Eu só realmente acho que as pessoas tão empolgando demais e não pensando no que tão dizendo.

O R1 é um modelo open source e open weights. Ou seja, tanto o código do modelo quanto os pesos estão disponíveis pra todo mundo. Pra não entrar muito em termos técnicos, isso significa que você, desde que tenha hardware suficiente, pode rodar *uma versão* do R1 em casa.

Agora, por que eu digo uma versão? Eu vi muita gente mais uma vez empolgando e pensando "nossa vou poder rodar um modelo igual os mais fodões da OpenAI na minha casa". Não, você não vai poder. Porque o R1 precisa de 671 GB de memória de placa de vídeo SÓ PRA CARREGAR ELE.

Image in tweet by el hombre pulpo

Eu não tenho 671 GB de memória de vídeo. Você também não tem. Então não, não vamos conseguir rodar o R1. Ainda podemos acessar o R1 pela API, todavia: https://chat.deepseek.com/

"Ah mas eu vi o @oraulsena rodando o R1 na máquina dele". O que o Raul rodou foi uma *destilação*. Junto com o R1, o DeepSeek soltou várias destilações. Note o nome DISTILL em cada um dos modelos.

Image in tweet by el hombre pulpo

@oraulsena O que é uma destilação de uma IA? Resumidamente, uma destilação é uma forma de tornar uma IA mais fraca "mais inteligente", ensinando ela a imitar uma IA mais forte. Note que todas as destilações do R1 tem o nome de outra IA, como Qwen ou Llama.

@oraulsena A ideia de destilar uma IA é que vc pega uma IA "pequena" e vc coloca uma IA "grande" pra ser o "professor" dela. Assim, a IA pequena é otimizada. Todavia, ela nunca vai ser tão boa quanto a IA que ensinou ela.

@oraulsena Não me entendam mal: Destilações ainda podem ser muito úteis! Vale muito a pena tentar rodar as destilações do R1 localmente se a sua máquina aguentar.

@oraulsena Mas eu vi gente falando "Nossa a OpenAI tá fudida, rodaram um modelo igual os fodões deles num raspberry pi" Não, jovens. Rodaram um modelo BEM MAIS LIMITADO que "aprendeu" com o modelo fodão num Raspberry Pi.

@oraulsena "Ah polvo, mas então se a China não abriu um modelo igual os da OpenAI pra todo mundo por que o mercado tá caindo?" Por um motivo bem diferente desse. O motivo disso ter ocorrido é que o treinamento do R1 é bem mais barato que o de modelos comparáveis.

@oraulsena Treinar IAs é a parte mais cara e pesada de um modelo. No geral, a gente acredita que pra fazer IAs cada vez maiores vamos precisar de cada vez mais chips. E é isso que impulsionou o preço da Nvidia a subir nos últimos anos.

Image in tweet by el hombre pulpo

@oraulsena O preço da Nvidia - e de outras fabricantes de chips - caiu o tanto que caiu porque o método da DeepSeek significa que pode ser que não seja necessário usar tantos chips pra treinar modelos poderosos quanto foi esperado. Nesse caso, a projeção de vendas futuras da Nvidia cai.

@oraulsena (Pessoalmente eu acho que tem um pouco de reação excessiva do mercado e pânico envolvidos, mas enfim) Então, vamos lá, pra resumir tudo:

@oraulsena Não, a DeepSeek não criou "um modelo de IA melhor que todos os modelos dos EUA". Não, a DeepSeek não criou "um modelo de IA tão bom quanto os da OpenAI que roda até num celular"

@oraulsena Não, a DeepSeek não "desbancou a Nvidia e acabou com a hegemonia das GPUs estadunidenses" - inclusive o R1 foi treinado em GPUs da Nvidia e provavelmente todos os modelos ainda vão ser por um bom tempo

@oraulsena O que a DeepSeek fez de importante? A DeepSeek introduziu várias técnicas novas pra otimizar treinamentos de IA que devem levar a IAs ainda mais poderosas no futuro - de TODOS OS LABORATÓRIOS

@oraulsena A DeepSeek criou um modelo poderoso que, por ser aberto, empresas com GRANDE QUANTIDADE DE GPUs poderão rodar e usar pra fazer seus produtos.

@oraulsena E a DeepSeek introduziu várias destilações de alta qualidade que, essas sim, nós meros mortais poderemos rodar do conforto das nossas casinhas desde que tenhamos um computador com GPU poderosa e que NÃO SÃO IAs de ponta como as acessíveis por APIs.

@oraulsena Por isso, eu admiro pra caralho o trabalho que a DeepSeek fez e o comprometimento dela em abrir esse trabalho. Acho que dos laboratórios atuais eles são um dos mais foda.

@oraulsena Amanhã cedo eu devo fazer um fio mais técnico falando sobre as inovações do DeepSeek-R1 de um ponto mais do interesse de devs. Mas por hoje é isso. Peço que compartilhem meu fio se virem alguém falando besteira sobre o R1 pra ajudar as pessoas a entenderem. [FIM]

Ah! Eu acabei de notar que eu prometi que ia explicar o que queria dizer com "raciocínio" mas acabei esquecendo. Raciocínio, no contexto de LLMs, é simplesmente que ao invés do modelo gerar uma resposta pra você imediatamente, ele gera um pouco de texto pra *ele mesmo* "pensando" sobre a questão. Isso por si só melhora a qualidade da resposta em relação a só deixar ele responder diretamente.

@oraulsena Eu tentei ser tão didático quanto possível aqui, mas se tiverem qualquer dúvida fiquem à vontade pra me perguntar, responderei o melhor que eu puder :)

Share this thread

Read on Twitter

View original thread

Navigate thread

1/28