HTTP 완벽 가이드 - HTTP 개관

이 글은 HTTP 완벽 가이드의 책 내용을 정리한 글입니다.

1.1 HTTP : 인터넷의 멀티미디어 배달부

  • HTTP는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에, 데이터 전송 중 손상되거나 꼬이지 않음을 보장한다.

1.2 웹 클라이언트와 서버

  • 웹 서버
    • 웹 컨텐츠가 존재한다.
    • HTTP 프로토콜로 의사송항 하기 때문에 보통 HTTP 서버라고 불린다.
    • HTTP 클라이언트가 요청한 데이터를 HTTP 응답으로 제공한다.
  • 웹 클라이언트
    • HTTP 요청을 보낸다.

웹 클라리언트와 웹 서버는 월드 와이드 웹의 기본 요소다.

1.3 리소스

  • 웹 리소스 : 웹 콘텐츠의 원천
    • 정적 파일
  • 동적 콘텐츠 리소스 : 사용자가 누구인지, 어떤 정보를 요청했는지, 몇 시인지에 따라 다른 콘텐츠를 생성

1.3.1 미디어 타입

  • HTTP는 웹에서 전송되는 객체 각각에 신중하게 MIME 타입이라는 데이터 포맷 라벨을 붙인다.
  • 웹 브라우저는 서버로부터 객체를 돌려받을 떄, 다룰 수 있는 객체인지 MIME 타입을 통해 확인한다.
  • MIME 타입을 /으로 구분된 주 타입과 부 타입으로 이루어진 문자열 라벨이다.
    • text/html : HTML로 작성된 텍스트 파일
    • text/plain : plain ASCII 텍스트 문서
    • image/jpeg : JPEG 이미지
    • image/gif : GIF 이미지

1.3.1 URI

  • 웹 서버 리소스는 각자 이름을 갖고 있기 때문에, 클라이언트는 관심 있는 리소스를 지목할 수 있다. 서버 리소스 이름은 URI로 불린다.
  • HTTP는 주어진 URI로 객체를 찾아온다.
  • URI에는 두가지가 있는데, URL과 URN이 있다.
  • URL(Uniform Resource Location) : 리소스 식별자의 가장 흔한 형태다. URL은 특정 서버의 한 리소스에 대한 구체적인 위치를 서술한다. URL은 리로스가 정확히 어디에 있고 어떻게 접근할 수 있는지 분명히 알려준다. URL은 세 부분으로 이루어진 표준 포맷을 따른다.
    • scheme : 리소스에 접근하는데 사용되는 프로토콜을 서술한다. (http, ftp 등)
    • 두번째 부분 : 서버의 인터넷 주소를 제공한다. (www.google.com)
    • 마지막 : 웹 서버의 리소스를 가리킨다. (/specials/saw-blade.gif)
  • URN(Uniform Resource Name) : URN은 콘텐츠를 이루는 한 리소스에 대해, 그 리소스의 위치에 영향을 받지 않는 유일무이한 이름 역할을 한다. 이 위치 독립적인 URN은 리소스를 여기저기로 옮기더라도 문제없이 동작한다.

오늘날 대부분의 URI는 URL이다. 특별한 언급이 없으면 통상적인 관례로 URI와 URL을 같은 의미로 사용한다.

1.4 트랜잭션

  • HTTP 트랜잭션은 요청 명령과 응답 결과로 구성되어 있다. 이 상호작용은 HTTP 메시지라고 불리는 정형화된 데이터 덩어리를 이용해 이루어진다.
    • 요청 명령 : 명령과 URI를 포함한다.
    • 응답 결과 : 트랜잭션의 결과를 포함한다.

1.4.1 메서드

  • HTTP 메서드는 여러 가지 종류의 요청 명령을 지원한다. 메서드는 서버에게 어떤 동작을 취해져야 하는지 말해준다.
    • GET : 서버에서 클라이언트로 지정한 리소스를 보내라.
    • PUT : 클라이언트에서 서버로 보낸 데이터를 지정한 이름의 리소스로 저장하라.
    • DELETE : 지정한 리소스를 서버에서 삭제하라.
    • POST : 클라이언트 데이터를 서버 게이트웨이 애플리케이션으로 보내라.
    • HEAD : 지정한 리소스에 대한 응답에서, HTTP 헤더 부분만 보내라.

1.4.2 상태 코드

  • 상태코드는 클라이언트에게 요청이 성공했는지 아니면 추가 조치가 필요한지 알려주는 세자리 숫자다.
    • 200 : 리소스가 바르게 반환되었다.
    • 302 : 다시 보내라. 다른 곳에 가서 리소스를 가져가라
    • 404 : 리소스를 찾을 수 없음
  • HTTP는 각 숫자 상태 코드에 텍스트로 된 사유 구절도 함께 보낸다 (200 OK 등)
    • 이 구문은 단지 설명만을 위해서 포함된 것일뿐 실제 응답 처리에는 숫자로 된 코드가 사용된다.

1.4.3 웹페이지는 여러 객체로 이루어질 수 있다

  • 애플리케이션은 보통 하나의 작업을 수행하기 위해 여러 HTTP 트랜잭션을 수행한다. 웹페이지는 보통 하나의 리소스가 아닌 리소스의 모음이다. 예를 들어 페이지 레이아웃을 서술하는 HTML을 한번에 트랜잭션으로 가져온 뒤, 첨부된 이미지, 그래픽 조각 등을 가져오기 위해 추가로 HTTP 트랜잭션을 수행한다.

1.5 메시지

  • HTTP 메시지는 단순한 줄 단위 문자열이다. 일반 텍스트이기 때문에 사람이 읽고 쓰기 쉽다.
  • 요청 메시지 : 클라이언트에서 서버로 보낸 HTTP 메시지
  • 응답 메시지 : 서버에서 클라이언트로 가는 메시지
  • HTTP 메시지는 세 부분으로 이루어진다.
    • 시작줄
      • 요청 메시지 : 메서드, 리소스 위치, 프로토콜 버전이 있다. (GET /text/hello.txt HTTP/1.0)
      • 응답 메시지 : 프로토콜 버전, 상태 코드 + 사유 구절 (HTTP/1.0 200 OK)
    • 헤더 : 헤더 필드는 쉬운 구문 분석을 위해 쌍점으로 구분되어 있는 하나의 이름과 하나의 값으로 구성된다. 헤더는 빈줄로 끝난다.
    • 본문 : 어떤 종류의 데이터든 들어갈 수 있다. 요청의 본문은 웹 서버로 데이터를 실어 보내며, 응답의 본문은 클라이언트로 데이터를 반환한다. 본문은 문자열이 아닌 이진 데이터를 포함할 수도 있다. 물론 텍스트도 포함할 수 있다.

1.6 TCP 커넥션

1.6.1 TCP/IP

  • HTTP는 애플리케이션 계층 프로토콜이다. HTTP는 네트워크 통신의 핵심적인 세부사항에 대해선 신경 쓰지 않는다. 대신 대중적이고 신뢰성 있는 인터넷 전송 프로토콜인 TCP/IP에게 맡긴다.
  • TCP는 다음을 제공한다.
    • 오류 없는 데이터 전송
    • 순서에 맞는 전달
    • 조각나지 않는 데이터 스트림 (언제든 어떤 크기로든 보낼 수 있다)
  • TCP/IP는 TCP와 IP가 층을 이루는, 패킷 교환 네트워크 프로토콜의 집합이다. TCP/IP는 각 네트워크와 하드웨어의 특성을 숨기고, 어떤 종류의 컴퓨터나 네트워크든 서로 신뢰성 있는 의사소통을 하게 해준다.
  • TCP 커넥션이 맺어지면 클라이언트와 서버 컴퓨터간에 교환되는 메시지가 없어지거나, 손상되거나, 순서가 뒤바뀌는 일은 결코 없다.

1.6.2 접속, IP 주소 그리고 포트번호

  • HTTP 클라이언트가 메시지를 전송하기 전에 IP주소와 포트번호를 사용해 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야한다. TCP에서는 컴퓨터에 대한 IP 주소와 그 서버에서 실행중인 프로그램이 사용중인 포트번호가 필요하다.
  • URL은 리소스를 가지고 있는 장비에 대한 IP 주소와 포트번호를 알려준다.
  • HTTP URL에서 포트번호가 생략된 경우 80이라고 가정하면 된다.

1.8 웹의 구성요소

프락시

  • 클라이언트와 서버 사이에 위치한 HTTP 중개자
    • 클라이언트의 모든 HTTP 요청을 받아 서버에 전달한다.
    • 프락시는 사용자 대신해서 서버에 접근한다.
  • 주로 보안을 위해 사용된다. 즉 모든 웹 트래픽 흐름 속에서 신뢰할 만한 중개자 역할을 한다.
  • 프락시는 요청과 응답을 필터링한다.

Reverse Proxy

  • 웹 브라우저는 Reverse Proxy 서버를 실제 웹 서버로 생각하고 Reverse Proxy 서버에게 직접 요청을 보낸다.
  • Reverse Proxy 서버는 URL에 따라 실제 웹 서버에게 요청을 하고 응답을 웹 브라우저에게 전달한다.
  • Reverse Proxy는 캐싱 뿐만 아니라 로드 밸런싱도 수행 가능하다.
  • Reverse Proxy는 서버 역할을 수행하기 때문에 서버 사이드 프락시 기법이라고 할 수 있다.

출처 : https://sarc.io/index.php/miscellaneous/1122-forward-proxy-reverse-proxy

캐시

  • 웹캐시와 캐시 프락시는 자신을 거쳐 가는 문서들 중 자주 찾는 것의 사본을 저장해 두는, 특별한 종류의 HTTP 프락시 서버다.
  • HTTP는 캐시를 효율적으로 동작하게 하고 캐시된 콘텐츠를 최신 버전으로 유지하면서 동시에 프라이버시도 보호하기 위한 많은 기능을 정의한다.

게이트웨이

  • 다른 애플리케이션과 연결된 특별한 웹 서버
  • 게이트웨이는 언제나 스스로가 리소스를 갖고 있는 진짜 서버인 것처럼 요청을 다룬다.
  • 주로 HTTP 트래픽을 다른 프로토콜로 변환하기 위해 사용된다.

터널

  • 단순히 HTTP 통신을 전달하기만 하는 특별한 프락시
  • 두 커넥션 사이에서 raw 데이터를 열어보지 않고 그대로 전달해주는 HTTP 애플리케이션이다.

에이전트

  • 자동화된 HTTP 요청을 만드는 준지능적 웹 클라이언트
    • 대표적으로 웹 브라우저, 스파이더가 있다.