Na Figura 1 você vê o diagrama em blocos da arquitetura HDMI. Uma fonte (“source”) é qualquer dispositivo com uma saída HDMI, enquanto que um dreno (“sink”) é qualquer dispositivo com uma entrada HDMI.  clique para ampliar Figura 1: Arquitetura HDMI.
A transmissão de dados usa o protocolo TMDS (Sinalização Diferencial Minimizada pela Transição, Transition Minimized Differential Signaling), criado pela empresa Silicon Image (que, por sua vez, adota o nome comercial PanelLink para este protocolo), que é o mesmo padrão usado pela conexão DVI. Este padrão codifica um dado de oito bits em um sinal de 10 bits, e os transmite usando transmissão diferencial. Leia nosso tutorial Como o Gigabit Ethernet Funciona para aprender o que é transmissão diferencial, técnica que também é conhecida como cancelamento. Os dados de áudio e vídeo são transmitidos usando os três canais TMDS de dados existentes. As informações de vídeo são transmitidas como uma série de pixels de 24 bits e são transmitidos 10 bits por período do clock de pixel (o período do clock de pixel, Tpixel, é definido como o tempo necessário para se transmitir um pixel; equivale a 10 vezes o período de transmissão de um bit, Tbit). O clock de pixel pode variar de 25 MHz a 165 MHz. Formatos que usem taxas de transmissão abaixo de 25 MHz (por exemplo, o padrão NTSC 480i [480 linhas, varredura não-entrelaçada], usa um clock de pixel de 13,5 MHz) podem usar um esquema de repetição de pixels para conseguirem ser transmitidos. Isso significa que com o HDMI é possível transmitir até 165 milhões de pixels por segundo (usando a configuração dual-link, na qual falaremos na próxima página, é possível atingir o dobro desta taxa). Esta taxa informa a resolução máxima que pode ser transmitida. Para que você entenda melhor o que é o clock de pixel e qual é a sua importância, considere a resolução 720p, que é amplamente utilizada por aparelhos HDTV. Esta resolução é na realidade de 1280x720. Multiplicando-se 1280x720 temos o número de pixels da tela. O número encontrado deve ser multiplicado pela quantidade de quadros por segundo (freqüência vertical ou taxa de atualização) para sabermos a quantidade de pixels por segundo (ou seja, a taxa de transmissão) da resolução. Supondo uma taxa de atualização de 60 Hz (720p@60Hz), temos que precisamos de um link capaz de transmitir 55.296.000 pixels por segundo ou 55,3 MHz. Como o padrão HDMI pode transferir até 165 milhões de pixels por segundo, esta conexão dá e sobra para esta resolução. Se formos calcular para a resolução mais alta disponível hoje, 1080p (1920x1080) a 60 MHz, veremos que esta precisa de uma taxa de 124,4 MHz, ou seja, o HDMI dá e sobra. Desta forma, o HDMI suporta as resoluções mais altas disponíveis hoje para aparelhos eletrônicos de consumo, além de permitir o modo dual-link, onde sua taxa dobra para 330 MHz, suportando altas resoluções ainda não usadas comercialmente. Os pixels de vídeo podem ser codificados nos formatos RGB, YCbCr 4:4:4 ou YCbCr 4:2:2 a 24 bits por pixel. YCbCr é a versão digital do vídeo componente (a versão analógica do vídeo componente, que é a mais usada, é chamada YPbPr). Estes dois padrões são também conhecidos como YUV. “Y” é a informação de luminância (a imagem em preto-e-branco), Cb é a diferença entre o azul e a luminância (B-Y) e o Cr é a diferença entre o vermelho e a luminância (R-Y). Os três números representam as taxas de amostragem usadas para codificar os sinais Y, Cb e Cr, respectivamente. O valor “4” indica a taxa de 13,5 MHz, que é a taxa de amostragem usada pelos padrões NTSC, PAL e Secam. O padrão 4:4:4 indica, portanto, que os sinais estão sendo todos transmitidos na mesma taxa. Já o padrão 4:2:2 indica que o sinal Y está sendo transmitido a 13,5 MHz, mas os sinais Cb e Cr estão sendo transmitidos a 6,75 MHz. Obviamente neste modo a qualidade de imagem é inferior, embora seja bastante usado. O áudio pode ser de dois a oito canais, usando taxas de amostragem até 192 KHz. O canal DDC (Canal de Informações sobre o Vídeo, Display Data Channel) é usado para que o dispositivo de transmissão saiba qual é a configuração e/ou capacidades do dispositivo receptor. Isto é feito lendo-se o dado E-EDID (Dados Avançados Estendidos de Identificação do Vídeo, Enhanced Extended Display Identification Data) do dispositivo receptor. O canal CEC (Consumer Electronics Control) é opcional e permite o controle dos vários aparelhos audiovisuais que o usuário possua. |