8.2 Projeção perspectiva

Na projeção perspectiva, quanto mais distantes os objetos estiverem do centro de projeção, menor ficarão quando projetados. Isso produz o efeito de diminuição de tamanho de objetos distantes, que é o que percebemos no mundo real. A figura 8.8 mostra esse efeito em uma fotografia. Note como os elementos da cena parecem convergir em um ponto distante. Esse ponto de convergência é chamado de ponto de fuga.

Diminuição de tamanho na projeção perspectiva ([fonte](https://commons.wikimedia.org/wiki/File:One_point_perspective.jpg)).

Figura 8.8: Diminuição de tamanho na projeção perspectiva (fonte).

O número de pontos de fuga é determinado pela orientação da câmera em relação a um objeto cuboide referencial no espaço do mundo (figura 8.9).

Figura 8.9: Pontos de fuga na projeção perspectiva.

Se o cubo tiver arestas paralelas aos eixos $x$ e $y$ da câmera, a projeção terá 1 ponto de fuga. Se o cubo tiver arestas paralelas apenas em relação a um dos eixos ( $x$ ou $y$ ), a projeção terá 2 pontos de fuga. Se o cubo não tiver arestas paralelas aos eixos $x$ e $y$ , a projeção terá 3 pontos de fuga.

Para produzir uma matriz de projeção perspectiva, adotaremos a mesma estratégia de normalizar o volume de visão, isto é, criaremos uma transformação que converte um volume de visão no espaço da câmera para o volume de visão de tamanho $2 \times 2 \times 2$ no espaço NDC. Entretanto, dessa vez o volume de visão terá o formato de uma pirâmide truncada (chamada de view frustum), como mostra a figura 8.10.

Figura 8.10: Volume de visão genérico para projeção perspectiva.

O volume de visão possui um formato piramidal pois todos os pontos do volume estão sobre projetores que convergem em direção à origem do espaço da câmera, que é o centro de projeção. O formato da pirâmide é definido unicamente pelos parâmetros $l$ (left), $r$ (right), $b$ (bottom), $t$ (top), $n$ (near) e $f$ (far).

Suponha a cena de um arranjo de 8 cubos conforme mostra a figura 8.11.

Figura 8.11: Cena dentro do volume de visão de projeção perspectiva.

Após a normalização do volume de visão, todo o seu conteúdo é distorcido proporcionalmente como mostra a figura 8.12. Observe como os objetos mais distantes ficam menores em relação aos objetos mais próximos, e como as arestas laterais dos cubos não são mais paralelas como na cena original. De fato, elas agora convergem para um ponto de fuga.

Figura 8.12: Distorção da cena após a normalização do volume de visão.

Agora que a geometria da cena está distorcida, podemos seguir com o processamento do pipeline de gráfico. Após a rasterização e o mapeamento ortogonal para o espaço da janela, o resultado será uma imagem que tem a aparência de uma projeção perspectiva (figura 8.13).

Figura 8.13: Objetos em NDC e conteúdo correspondente no espaço da janela.

Matriz de projeção

Para construir a matriz a projeção perspectiva, vamos observar primeiro como um ponto $(x_{e}, y_{e}, z_{e})$ no espaço da câmera (o $e$ subscrito vem de eye space) é projetado para um ponto $(x_{p}, y_{p}, z_{p})$ no plano de recorte próximo (isto é, o plano com $z_{e} = - n$ ).

A figura 8.14 mostra a relação entre esses pontos em uma visão de cima do volume de visão.

Figura 8.14: Volume de visão visto de cima.

Através da razão entre triângulos semelhantes, temos

$\frac{x_{p}}{- n} = \frac{x_{e}}{z_{e}} .$ Logo,

$x_{p} = \frac{- n x_{e}}{z_{e}} = \frac{n x_{e}}{- z_{e}} .$

O mesmo raciocínio pode ser aplicado para determinar $y_{p}$ . A figura 8.15 mostra uma visão lateral do volume de visão.

Figura 8.15: Volume de visão visto de lado.

Através da razão entre triângulos semelhantes,

$\frac{y_{p}}{- n} = \frac{y_{e}}{z_{e}} .$ Logo,

$y_{p} = \frac{- n y_{e}}{z_{e}} = \frac{n y_{e}}{- z_{e}} .$

O importante a ser notado aqui é que tanto $x_{p}$ quanto $y_{p}$ são divididos por $- z_{e}$ . Então, todo ponto no espaço da câmera deverá ser dividido pela sua coordenada $z$ negativa.

Podemos incorporar a divisão por $- z_{e}$ na matriz de projeção. Lembre-se que, no vertex shader, representamos pontos e vetores em coordenadas homogêneas. A matriz de projeção converte coordenadas homogêneas do espaço da câmera ( $x_{e}$ , $y_{e}$ , $z_{e}$ , $w_{e}$ ) em coordenadas homogêneas do espaço de recorte ( $x_{c}$ , $y_{c}$ , $z_{c}$ , $w_{c}$ ), que são as coordenadas de gl_Position:

$\begin{aligned} [\begin{matrix} x_{c} \\ y_{c} \\ z_{c} \\ w_{c} \end{matrix}] = M_{proj} [\begin{matrix} x_{e} \\ y_{e} \\ z_{e} \\ w_{e} \end{matrix}] . \end{aligned}$

Após o recorte, as coordenadas do espaço de recorte são divididas por $w_{c}$ para produzir coordenadas ( $x_{n}$ , $y_{n}$ , $z_{n}$ ) no espaço NDC:

$\begin{aligned} [\begin{matrix} x_{n} \\ y_{n} \\ z_{n} \end{matrix}] = [\begin{matrix} x_{c} / w_{c} \\ y_{c} / w_{c} \\ z_{c} / w_{c} \end{matrix}] . \end{aligned}$

Aproveitando essa divisão por $w$ , podemos obter a divisão por $- z_{e}$ através da mudança da última linha da matriz de projeção, como a seguir:

$\begin{aligned} [\begin{matrix} x_{c} \\ y_{c} \\ z_{c} \\ w_{c} \end{matrix}] = [\begin{matrix} \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot \\ 0 & 0 & - 1 & 0 \end{matrix}] [\begin{matrix} x_{e} \\ y_{e} \\ z_{e} \\ w_{e} \end{matrix}] . \end{aligned}$

Observe que $w_{c} = - z_{e}$ . Portanto, as coordenadas serão divididas por $- z_{e}$ como desejamos.

Da mesma forma como fizemos para normalizar o volume de visão da projeção ortográfica, sabemos que precisamos mapear os intervalos:

Em $x$ : $[l, r]$ , no espaço da câmera, para $[- 1, 1]$ em NDC;
Em $y$ : $[b, t]$ , no espaço da câmera, para $[- 1, 1]$ em NDC;
Em $z$ : $[- n, - f]$ , no espaço da câmera, para $[- 1, 1]$ em NDC.

Os fatores de translação e escala em $x$ e em $y$ são os mesmos da projeção ortográfica. Assim, temos a seguinte relação entre coordenadas em NDC $(x_{ndc}, y_{ndc})$ e coordenadas projetadas $(x_{p}, y_{p})$ :

$x_{ndc} = a_{x} x_{p} + b_{x}, y_{ndc} = a_{y} y_{p} + b_{y},$

onde $a$ e $b$ são, respectivamente, os fatores de escala e translação:

$a_{x} = \frac{2}{r - l}, b_{x} = - \frac{r + l}{r - l}, a_{y} = \frac{2}{t - b}, b_{y} = - \frac{t + b}{t - b} .$

Se substituirmos

$x_{p} = \frac{n \cdot x_{e}}{- z_{e}}$

na expressão

$x_{ndc} = a_{x} x_{p} + b_{x},$

obtemos a relação final entre a coordenada $x_{e}$ do espaço da câmera e a coordenada $x_{ndc}$ no espaço NDC (o mesmo raciocínio pode ser aplicado para a transformação de $y_{e}$ em $y_{ndc}$ ):

$\begin{aligned} x_{ndc} & = a_{x} x_{p} + b_{x} \\ = \frac{2 x_{p}}{r - l} - \frac{r + l}{r - l} \\ = \frac{2 \cdot \frac{n \cdot x_{e}}{- z_{e}}}{r - l} - \frac{r + l}{r - l} \\ = \frac{2 n \cdot x_{e}}{- z_{e} (r - l)} - \frac{r + l}{r - l} \\ = \frac{\frac{2 n}{r - l} \cdot x_{e}}{- z_{e}} - \frac{r + l}{r - l} \\ = \frac{\frac{2 n}{r - l} \cdot x_{e}}{- z_{e}} + \frac{\frac{r + l}{r - l} \cdot z_{e}}{- z_{e}} \\ = \frac{x_{c}}{- z_{e}}, \end{aligned}$

onde

$\begin{aligned} x_{c} & = n \cdot a_{x} \cdot x_{e} - b_{x} \cdot z_{e} \\ = \frac{2 n}{r - l} \cdot x_{e} + \frac{r + l}{r - l} \cdot z_{e} . \end{aligned}$ De forma semelhante,

$y_{ndc} = \frac{y_{c}}{- z_{e}},$

onde

$\begin{aligned} y_{c} & = n \cdot a_{y} \cdot y_{e} - b_{y} \cdot z_{e} \\ = \frac{2 n}{t - b} \cdot y_{e} + \frac{t + b}{t - b} \cdot z_{e} . \end{aligned}$ Atualizando os elementos da matriz de projeção,

$\begin{aligned} [\begin{matrix} x_{c} \\ y_{c} \\ z_{c} \\ w_{c} \end{matrix}] = [\begin{matrix} \frac{2 n}{r - l} & 0 & \frac{r + l}{r - l} & 0 \\ 0 & \frac{2 n}{t - b} & \frac{t + b}{t - b} & 0 \\ \cdot & \cdot & \cdot & \cdot \\ 0 & 0 & - 1 & 0 \end{matrix}] [\begin{matrix} x_{e} \\ y_{e} \\ z_{e} \\ w_{e} \end{matrix}] . \end{aligned}$

Ainda precisamos determinar os elementos da terceira linha da matriz. Esses elementos correspondem à transformação de $z_{e}$ em $z_{c}$ .

O valor de $z_{c}$ não depende de $x_{e}$ e $y_{e}$ . Assim, os valores nas duas primeiras colunas da terceira linha devem ser zero. Só precisamos determinar os elementos da terceira e quarta colunas, que chamaremos de $α$ e $β$ :

$\begin{aligned} [\begin{matrix} x_{c} \\ y_{c} \\ z_{c} \\ w_{c} \end{matrix}] = [\begin{matrix} \frac{2 n}{r - l} & 0 & \frac{r + l}{r - l} & 0 \\ 0 & \frac{2 n}{t - b} & \frac{t + b}{t - b} & 0 \\ 0 & 0 & α & β \\ 0 & 0 & - 1 & 0 \end{matrix}] [\begin{matrix} x_{e} \\ y_{e} \\ z_{e} \\ w_{e} \end{matrix}] . \end{aligned}$ Logo,

$z_{c} = α z_{e} + β w_{e} .$ Após a divisão pelo $w$ ,

$z_{n} = \frac{α z_{e} + β w_{e}}{- z_{e}} .$

Sabendo que o intervalo $[- n, - f]$ deve ser mapeado para o intervalo $[- 1, 1]$ , podemos formar um sistema de equações lineares:

$\begin{array}{l} \frac{- α n + β}{n} = - 1 \\ \frac{- α f + β}{f} = 1 \end{array} \to \begin{array}{l} - α n + β = - n \\ - α f + β = f \end{array}$

Logo,

$\begin{aligned} α = - \frac{f + n}{f - n}, \\ β = - \frac{2 f n}{f - n} . \end{aligned}$

Com isso obtemos todos os elementos da matriz de projeção perspectiva:

$\begin{aligned} M_{persp} = [\begin{matrix} \frac{2 n}{r - l} & 0 & \frac{r + l}{r - l} & 0 \\ 0 & \frac{2 n}{t - b} & \frac{t + b}{t - b} & 0 \\ 0 & 0 & - \frac{f + n}{f - n} & - \frac{2 f n}{f - n} \\ 0 & 0 & - 1 & 0 \end{matrix}] . \end{aligned}$

Na biblioteca GLM, tal matriz pode ser criada com a função glm::frustum definida em glm/gtc/matrix_transform.hpp:

glm::mat4 glm::frustum(float left, float right, float bottom, float top, float zNear, float zFar);
glm::dmat4 glm::frustum(double left, double right, double bottom, double top, double zNear, double zFar);

onde left, right, bottom, top, zNear e zFar correspondem respectivamente aos valores $l$ , $r$ , $b$ , $t$ , $n$ e $f$ .

Se o volume de visão for simétrico, então

$r = - l, t = - b .$

Assim como na projeção ortográfica com volume de visão simétrico, os termos da matriz podem ser simplificados como segue:

$\begin{aligned} r + l & = 0, \\ r - l & = 2 r, \\ t + b & = 0, \\ t - b & = 2 t, \end{aligned}$

e a matriz é simplificada para

$\begin{aligned} M_{persp} = [\begin{matrix} \frac{n}{r} & 0 & 0 & 0 \\ 0 & \frac{n}{t} & 0 & 0 \\ 0 & 0 & - \frac{f + n}{f - n} & \frac{- 2 f n}{f - n} \\ 0 & 0 & - 1 & 0 \end{matrix}] . \end{aligned}$ Uma forma mais intuitiva de criar um volume de visão simétrico para a projeção perspectiva é através dos seguintes parâmetros:

Ângulo $θ$ de abertura vertical do campo de visão (field of view ou FOV).
Razão de aspecto $w / h$ (largura pela altura) do plano de imagem.
Distâncias $n$ e $f$ dos planos de recorte próximo (near) e distante (far).

Usando relações trigonométricas, podemos determinar o valor de $t$ (top em glm::frustum) (figura 8.16):

$\begin{aligned} \frac{t}{n} = \tan (\frac{θ}{2}), \\ t = n \tan (\frac{θ}{2}) . \end{aligned}$

Por simetria,

$\begin{aligned} b & = - t . \end{aligned}$

Figura 8.16: Ângulo de abertura do campo de visão vertical.

Para calcular $r$ (right em glm::frustum), multiplicamos $t$ pela razão de aspecto.

$r = t \frac{w}{h} .$

Assim, em um viewport de tamanho $1920 \times 1080$ , a razão de aspecto será $16 : 9$ (widescreen). Se $t = 1080 / 2 = 540$ , então $r = 540 \times \frac{16}{9} = 1920 / 2 = 960$ .

Por simetria,

$\begin{aligned} l & = - r . \end{aligned}$

Na biblioteca GLM, tal matriz pode ser criada com a função glm::perspective, definida em glm/gtc/matrix_transform.hpp:

glm::mat4 perspective(float fovy, float aspect, float zNear, float zFar);
glm::dmat4 perspective(double fovy, double aspect, double zNear, double zFar);

onde fovy, aspect, zNear e zFar correspondem respectivamente aos valores $θ$ (em radianos), $w / h$ , $n$ e $f$ .