Obrigado por suas instruções. Tem me ajuda e muito! Permita-me: O vetor Harry (1024) realiza o produto escalar com cada um dos demais vetores (tokens). Poderia me explicar melhor este produto escalar? Compreendo a geração de um vetor entre a primeira linha de Harry com, digamos, todas as linhas do vetor Brasil, gerando a primeira linha de um novo vetor. Vamos para a segunda linha de Harry que percorrerá todas as linhas do vetor Brasil, gerando a 2a linha deste novo vetor, e assim por diante. Sendo isto, o que se seguirá ? Dúvidas, dúvidas, ...🤔
@HemersonPistori
4 ай бұрын
Eu devo preparar um outro vídeo explicando melhor o mecanismo de atenção. Talvez com exemplos numéricos para mostrar algumas contas. Faz tempo que fiz este vídeo e revendo agora acho que dá para ser mais claro. Vou aproveitar e falar de multihead attention que é o que de fato é usado e funciona. Sem multihead fica tudo muito limitado.
@luizhenriquedarochaazevedo7786
4 ай бұрын
@@HemersonPistori obrigado por sua atenção. Vamos aguardar, então, por novidades neste segmento.
@HemersonPistori
4 ай бұрын
acabei de publicar o novo vídeo ... me dá um feedback depois se puder. Investi um bom tempo preparando e inclui um código em python.
@luizhenriquedarochaazevedo7786
4 ай бұрын
@@HemersonPistori muito obrigado! Será um prazer assistir e lhe dar uma posição a este respeito.
@l.1204
3 жыл бұрын
Opa Hemerson... Beleza? Cara achei bastante confusa a explicação da parte final... Consegui entender algumas coisas porém, achei que houveram algumas coisas que não estão claras; No fim o K, V e Q tem os memos valores, nao da pra ver nada sendo multiplicado por nada, então no fim, acabei não conseguindo entender sobre como de fato se dá o mecanismo e a criação dos novos vetores; Poderia explicarecer?
@HemersonPistori
3 жыл бұрын
Obrigado pelo feedback, vou ver se consigo encontrar uma forma de melhorar a explicação. Realmente K, V e Q se referem neste caso aos mesmos conjuntos de vetores, que são multiplicados entre si.
@pythonscienceanddatascienc4351
Жыл бұрын
Boa noite Hemerson, Em 0:30 você explica que os embeddings têm tamanho 256. Em 5:29, que a matriz de peso é de 1024 x 1024. Em 7:46 , deve-se pegar cada embedding de (1,256) e multiplicar pela matriz (1024,1024). Porém, essa multiplicação de um vetor (1,256) por uma matriz (1024,1024) não é matematicamente permitido. Por favor, poderia me explicar esse cálculo? Agradeço-lhe antecipadamente. Luciana
@HemersonPistori
Жыл бұрын
Os embeddings de cada palavra serão multiplicados apenas entre sí. Não haverá uma multiplicação do vetor de embedding com a matriz de (1024,1024). O resultado é que será uma matriz de (1024,1024) pois temos 1024 embeddings no total, neste exemplo. Ou seja, serão realizadas 1048576 multiplicações. Como isso é feito em uma GPU, em paralelo, acaba não ficando tão lento, pois as multiplicações são feitas todas ao mesmo tempo. Melhorou assim ?
@pythonscienceanddatascienc4351
Жыл бұрын
@@HemersonPistori boa noite Hemerson, muito obrigada pela sua resposta. Agora pude compreender perfeitamente a informação que você transmitiu no vídeo. Mas, ainda tenho mais umas dúvidas: - em (9:48) a matriz que você citou que seria de (1024, 258) então, seria essa (1024,1024) conforme você me explicou, certo? - em (9:57) você disse que pode fazer três cópias de cada vetor (entendi que seria cada linha dessa matriz (1024,1024) para fazer o processamento. - o valor do tag é um vetor de zeros? O que seriam essas três cópias? Seria para multiplicar cada vetor com aquelas três matrizes W (Wq, Wk e Wv)? Obrigada mais uma vez pela atenção!
@HemersonPistori
Жыл бұрын
Eu errei o número na fala, é 256 e não 258 😔. Está matriz é formada pelos 1024 embeddings , cada um com 256 (não 258) posições.
@HemersonPistori
Жыл бұрын
Seriam, na verdade, 3 cópias de todas os 1024 embeddings, cada com 256 posições. Ou seja, uma matriz de (1024, 256)
@HemersonPistori
Жыл бұрын
O vetor de TAG não precisa ser de zeros, pode ser qualquer vetor diferente daqueles usados para representar as palavras do dicionário. Funcionaria como uma palavra especial.
Пікірлер: 22