loading

[전략_노트]/[전략노트_지식]

[인터넷] 구글검색 알고리즘, 어떤 원리인가요?

S부장 in US 2023. 9. 12. 10:15

[인터넷] 구글검색 알고리즘, 어떤 원리인가요?

 

[인터넷] 구글검색 알고리즘, 어떤 원리인가요? 에 대해 리뷰하려고 합니다.

 

구글, 현재 글로벌 인터넷을 지배하는 최강 기업입니다.

 

구글은 스탠퍼드 대학의 박사과정이던 래리 페이지 Larry Page와 세르게이 브린 Sergey Brin 이 주도한 PageRank 프로젝트에서 시작되었지요.

 

구글검색, 스탠퍼드 박사과정 2명의 논문 PageRank가 기본 특허

PageRank는 Google 검색에서 검색 엔진 결과에서 웹 페이지 순위를 매기는 데 사용하는 알고리즘입니다.

즉, PageRank는 웹 사이트 페이지의 중요성을 측정하는 방법입니다. 

 

Google에 따르면 :

 

PageRank는 페이지 링크의 수와 품질을 계산하여 웹 사이트가 얼마나 중요한지 대략적인 추정치를 결정합니다. 기본 가정은 더 중요한 웹 사이트가 다른 웹 사이트에서 더 많은 링크를 수신할 가능성이 있다는 것입니다. 

 

현재 PageRank는 Google에서 검색 결과를 주문하는 데 사용하는 유일한 알고리즘은 아니고, 구글검색에 최초의 검색 알고리즘으로 알려져 있습니다. 2019년 9월 24일자로 PageRank 및 모든 관련 특허가 만료되었지요.

 

 

구글 검색
구글 검색

 

 

PageRank 로직은 어떻게 구성했을까?

단순 네트워크의 수학적 PageRank는 백분율로 표시됩니다. (Google은 로그척도를 사용합니다.)

 

C에 대한 링크가 적더라도 페이지 C는 페이지 E보다 PageRank가 더 높습니다. C에 대한 하나의 링크는 중요한 페이지에서 제공되므로 가치가 높습니다. 

 

임의의 페이지에서 시작하는 웹 서퍼가 현재 방문 중인 페이지에서 임의의 링크를 선택할 가능성이 85 % 이고, 전체 웹에서 임의로 선택된 페이지로 이동할 가능성이 15 % 인 경우 8.1% 시간에 페이지 E에 도달합니다. (임의의 페이지로 이동할 가능성 15 %는 감쇄 계수에 해당합니다.)

 

댐핑이 없으면 모든 웹 서퍼는 결국 페이지 A, B 또는 C에 도달하고 다른 모든 페이지는 PageRank 0을 갖게 됩니다. 댐핑이 있는 경우 페이지 A는 자체적으로 나가는 링크가 없더라도 웹의 모든 페이지에 효과적으로 링크합니다.

 

페이지랭크 알고리즘
페이지랭크 알고리즘

 

 

PageRank 알고리즘 은 링크를 무작위로 클릭하는 사람이 특정 페이지에 도착할 가능성을 나타내는 데 사용되는 확률 분포를 출력합니다. PageRank는 모든 크기의 문서 모음에 대해 계산할 수 있습니다. 여러 연구 논문에서 계산 프로세스가 시작될 때 컬렉션의 모든 문서에 분포가 균등하게 나뉘어 있다고 가정합니다. 

 

PageRank 계산에는 이론적 실제 값을 더 가깝게 반영하기 위해 대략적인 PageRank 값을 조정하기 위해 컬렉션을 통해 "반복"이라고 하는 여러 번의 패스가 필요합니다.

 

PageRank 알로리즘 기본은 3단계 계산으로 수행되는 것으로 설명되는데요.

 

1단계) 기본 알고리즘 계산, 2단계) Damping factor 계산, 3단계) PageRank 수치 계산 

(* 개념적 설명을 위해, 집합개념 계산식 제외하고 시간대 계산은 생략함.)

 

1단계) 기본 알고리즘 계산식

PageRank는 모든 페이지에 대해 동일한 값으로 초기화됩니다. PageRank의 원래 형식에서 모든 페이지에 대한 PageRank의 합계는 당시 웹에 있는 총 페이지 수였으므로이 예제의 각 페이지는 초기 값 1을 갖습니다.

 

그러나 이후 버전의 PageRank 및 이 섹션의 나머지 부분에서는 0과 1 사이의 확률 분포를 가정합니다

 

기본 알고리즘 계산식은, 일반적인 경우 모든 페이지 u의 PageRank 값은 다음으로 표현됩니다. 

 

즉, 페이지 랭크 값 u는 각 페이지에 대한 랭크 값에 의존 V 세트에 포함된 B U (페이지에 링크된 모든 페이지를 포함하는 집합 U를 숫자로 나눈 값), L ( V 페이지로부터 링크) (V)

 

 

구글 검색 파이프라인
구글 검색 파이프라인

 

2단계) Damping factor 계산

PageRank 이론은 링크를 무작위로 클릭하는 가상의 서퍼가 결국 클릭을 멈출 것이라고 주장합니다. 어떤 단계에서든 사람이 계속할 확률은 감쇠 계수 d입니다. 다양한 연구에서 다양한 감쇠 계수를 테스트했지만 일반적으로 감쇠 계수는 약 0.85로 설정될 것으로 가정합니다.

 

PageRank를 계산할 때 아웃 바운드 링크가 없는 페이지는 컬렉션의 다른 모든 페이지로 링크되는 것으로 간주됩니다. 따라서 그들의 PageRank 점수는 다른 모든 페이지에서 균등하게 나뉩니다. 

 

즉, 싱크가 아닌 페이지와 공평하게 하기 위해 이러한 임의 전환이 웹의 모든 노드에 추가됩니다. 이 잔여 확률 d는 일반적으로 평균적인 서퍼가 브라우저의 북마크 기능을 사용하는 빈도에서 추정되는 0.85로 설정됩니다. 

 

3단계) PageRank 수치 계산

PageRank는 반복적으로 또는 대수적으로 계산할 수 있습니다. 반복 방법은 거듭제곱 방법 또는 거듭 제곱 방법으로 볼 수 있습니다. 수행되는 기본 수학 연산은 동일합니다.

 

여기서 N은 총 페이지 수이고, d는 감쇠 계수입니다. 시간 0의 페이지 i입니다. 각 시간 단계별로 반복해서 계산합니다.

 

 

구글검색 알로리즘 기본특허, Larry Page US Patent 6,285,999

그럼, 구글 창업자 Larry Page가 발명한 알고리즘의 특허는 어떻게 되었을까요?

 

"PageRank"라는 이름은 개발자 Larry Page의 이름과 웹 페이지의 개념에서 사용됩니다.  구글의 상표이면서, 랭크 프로세스로 출원된 특허 (US Patent 6,285,999)는 Google이 아닌 Standford University로 최초 할당되었지요.

 

 

래리페이지 미국특허 US Patent 6,285,999
래리페이지 미국특허 US Patent 6,285,999

 

 

이후, 최종은 Google 이 Stanford University의 특허에 대한 독점 라이선스를 보유하게 되는데, 스탠퍼드 대학은 특허를 사용하는 대가로 Google 주식 180 만주를 받아서, 2005년 주식을 3억 3천6백만 달러에 매각했네요.

 

 

구글검색 최적화 SEO: 다양한 스킬 및 툴 보다, 양질의 콘텐츠가 핵심

구글 검색의 원리를 이해하면, 검색순위를 높이는 작업이 가능해지겠지요.

이에 따른 검색 최적화가 SEO (Search Engine Optimatization)으로 알려져 있지요.

 

그럼, 검색 최적화는 어떻게 가능할까요?

우선 구글 검색 원리는 웹사이트를 크롤링하고, 콘텐츠를 파싱 해서, 인덱스를 저장하는 방식으로 이루어집니다.

 

 

구글 검색엔진 원리
구글 검색엔진 원리 (source: www.wavemakers.co)

 

 

다시, 구글 검색엔진을 좀 더 정교한 검색결과 도출을 위해 지속적인 업데이트가 이루어집니다.

구글이 설명 기준으로 Quantity 보다 Quality 비중을 높이고, 검색과 정합성을 높이는 알고리즘이 지속 개선된 듯합니다. 

 

구글 SEO 전문업체의 내용도 일반적인 웹콘텐츠 최적화 이외에 다른 방법이 있는 것으로 설명을 되지 않는데, 실제로 과제경험과 구글검색 결과에 대한 다양한 테스트로 레벨업이 가능할 듯합니다.

 

 

구글검색 역사
구글검색 역사

 

 

 

 

 

[전략] 구글, 사업모델: 검색 기반 광고

[전략] 구글, 사업모델: 검색 기반 광고 구글 서비스는 기본적으로 무료로 제공되지요. 제일 기본이 되는 검색, 유튜브, 구글 툴은 무료가 기본인데, 어떻게 돈을 벌까요? 구글은 최고의 검색 알

stephan-review.tistory.com

 

[블로그] 티스토리 블로그, 구글검색 SEO 최적화 Top5

[블로그] 티스토리 블로그, 구글검색 SEO 최적화 Top5 [블로그] 티스토리 블로그, 구글검색 SEO 최적화 Top5, 에 대해 정리하려고 합니다. 티스토리 블로그 활성화, 2개 요소 필요 티스토리 블로그를

stephan-review.tistory.com

 

 

300x250