ABOUT ME

-

Today
-
Yesterday
-
Total
-

총 방문자 : , 금일 방문자 :
dawnmart@naver.com
  • 구글 검색에 대한 이야기 - 구글 검색의 원리
    함일사-함께 일하는 사람들/함일사_폐기물 2014. 9. 12. 09:44

    구글 검색에 대하여 한번 알려 드리겠습니다. 개인적으로 고객이 의뢰를 한 브랜드 블로그에 글을 쓰면 구글에서는 거의 최상단에 글이 노출이 되는 경우가 많이 있습니다. 이유는 구글에서 공식적으로 제시하는 방법에 따라서 글을 쓰고 가급적이면 사업적인 글이라고 하여도 그 글을 읽는 사람들이 하여금 정보를 우선으로 얻어 갈 수 있도록 하고 있습니다.

       

    구글 검색의 원리를 설명한 페이지 입니다.

    http://www.google.co.kr/intl/ko/insidesearch/howsearchworks/crawling-indexing.html

       


       

       

    물론 일부 고객 분들은 실질적으로 상업적인 내용의 정보를 얻기 위해서 브랜드 블로그에 들어 오는 것이기 때문입니다.

       

    오늘은 구글의 검색 로직에 대하여 알려 드리겠습니다. 국내에서 70% 이상의 검색을 차지하고 있는 네이버는 현재 공식적인 검색 로직에 대한 정보를 주지 않고 있습니다.

      

    제 블로그의 네이버 유입율은 네이버가 85% 정도입니다. 애플에서 아이폰 6를 발표한 9월 10일 같은 날은 하나의 키워드가 엄청나게 검색이 될 때는 95% 이상이 네이버에서 유입이 있었습니다. 그래도 결국 제 블로그의 글쓰는 방식은 구글 검색 기준에 맞추어 쓰려고 노력하고 있습니다. 오늘의 본문의 내용은 네이버에서 90% 정도의 방문자가 있지만 구글검색 로직에 맞추어 글을 쓰는 지에 대한 이유입니다.  



    구글 검색의 결과는 웹 검색이 아니고 구글 색인 페이지의 검색이다!

       

    우리가 구글에서 "키워드"를 검색하면 검색 결과 페이지가 나옵니다. 이 구글 검색 결과 페이지는 구글에서 제공하는 색인 페이지인 것입니다.

       

    구글이 프로그램이 링크를 타고 다니면서 다양한 페이지들에 색인에 넣어 두는 것입니다. 구글은 엄청난 양의 색인을 모아서 검색결과로 보여줍니다.



    구글 검색에 대한 이야기 - 구글 검색의 보이는 페이지 이미지화


       

    크롤링과 색인 생성을 바탕으로 Google은 웹에서 정보를 수집하고 조직하여 가장 유용한 결과를 사용자에게 표시합니다. Google의 색인 규모는 100,000,000 기가바이트를 넘는다고 합니다.

       

    수십억 페이지의 웹에 색인을 생성하는데, 이를 찾는 것이 구글의 검색 소프트웨어입니다. 페이지의 동의어가 있는 지, 제목이 있는 지 양질의 웹사이트인 지 등을 확인 하여 검색 결과를 보여주는 것입니다.

       

    즉 좋은 문서인지와 좋은 글인지를 검색하는 것입니다

       

       

    구글의 웹사이트 검색 정책


    정보 액세스가 최우선

    Google은 표현의 자유와 정보의 자유로운 흐름을 중요하게 생각합니다. 스팸, 악성코드, 법적 요구사항 및 신원 도용 방지와 같은 제한된 경우를 제외하고는 모든 정보를 사용할 수 있도록 하기 위해 노력하고 있습니다.

       

    직접 조치보다 알고리즘 이용

    Google이 사용자가 검색하는 것을 찾도록 돕는 것의 핵심은 검색결과의 관련성 및 포괄성입니다. Google은 직접 조직한 정보보다 기계 솔루션을 선호합니다. 알고리즘은 확장이 가능하기 때문에 Google이 기능을 개선하는 경우 한 개가 아닌 수많은 검색결과 페이지가 개선됩니다. 하지만 기계 솔루션으로 부족하면 직접 조정하는 경우도 있습니다. 알고리즘에 대해 자세히 알아보세요.

       

    예외 목록

    대부분의 검색엔진과 마찬가지로, 간혹 Google의 알고리즘이 사이트를 잘못 식별하기도 하기 때문에 Google은 검색 품질 개선을 위해 제한된 예외를 설정합니다. 예를 들어 Google 세이프서치 알고리즘은 온라인의 성인 콘텐츠로부터 미성년자를 보호하기 위해 만들어졌습니다. 이러한 알고리즘이 웹사이트(예: essex.edu)를 잘못 식별하는 경우 사이트가 포르노로 분류되는 것을 방지하기 위해 직접 예외 조치를 취합니다.

       

    스팸 및 악성코드 차단

    사용자와 마찬가지로 Google도 스팸이 사라지길 바랍니다. 스팸은 관련없는 링크로 검색결과를 어지럽혀 사용자에게 피해를 줍니다. Google은 스팸 웹사이트를 감지하고 검색결과에서 삭제하는 팀을 운영하고 있습니다. 피싱 웹사이트나 악성코드에도 같은 방법으로 대응하고 있습니다. 스팸 차단에 대해 자세히 알아보세요.

       

    웹마스터를 위한 투명성

    Google은 우수사례 및 스팸성 행동에 대한 명확한 웹마스터 가이드라인을 갖고 있습니다. 스팸팀이 사이트에 수동 조치를 취하면 해당 사이트의 순위에 직접 영향을 미칠 수 있습니다. Google은 이러한 작업을 투명하게 관리하며 웹마스터에게 알리기 위해 최선을 다합니다. Google에서 직접 조치한 경우 웹마스터는 문제를 해결한 다음 재검토 요청을 제출할 수 있습니다.

       

       

    신원 도용 방지

    Google은 사용자의 요청 시 신원 도용이나 금융 사기와 같은 위험에 노출될 수 있다고 생각되는 경우 개인정보를 검색결과에서 삭제합니다. 여기에는 미국 사회보장번호와 같은 민감한 정부 발급 신분증 번호, 은행 계좌번호, 신용카드 번호 및 서명 이미지가 포함됩니다. 일반적으로 공식 정부 웹사이트에 있는 신분증 번호는 공개된 정보라고 여겨 삭제하지 않습니다. 사용자가 이러한 정책을 남용하여 검색결과에서 다른 정보를 삭제하려고 시도하는 경우 요청을 거절하기도 합니다.

       

       

    법적 삭제

    법적인 이유로 검색결과에서 콘텐츠나 기능을 삭제하는 경우가 있습니다. 예를 들어 미국 Digital Millennium Copyright Act(디지털 밀레니엄 저작권법)로부터 유효한 알림을 받는 경우 콘텐츠를 삭제합니다. 또한 Google은 현지 법에 따라 해당 콘텐츠에 문제가 있는 경우 로컬 버전의 콘텐츠를 삭제합니다. 예를 들어 google.de에서 나치당을 불법적으로 미화하거나 google.co.in에서 불법적으로 종교를 모욕하는 경우 해당 콘텐츠를 삭제합니다. 


    법적인 이유로 검색결과에서 콘텐츠를 삭제하는 경우 해당 결과가 삭제되었다는 알림을 표시하며 온라인에서의 언론의 자유 침해에 대한 현황을 추적하는 버크만 인터넷 사회 센터에서 운영하는 프로젝트인 chillingeffects.org에 삭제된 내용을 보고합니다. 또한 Google 투명성 보고서에서 법적인 이유로 삭제된 항목의 세부내용을 공개합니다.

       

    아동학대 콘텐츠

    아동 포르노로 연결되는 검색결과는 차단합니다. 이는 법적 요구사항이며 마땅히 해야 할 일입니다.

       

    불쾌한 콘텐츠

    Google은 사용자가 찾는 정보를 제공하기 위해 노력하는 동시에, 사용자가 찾지도 않았는데 불쾌한 콘텐츠가 표시되지 않도록 주의를 기울이고 있습니다. 따라서, 몇 가지 지정 카테고리에서 검색결과가 불쾌할 가능성이 있는 검색어에 대해서는 특정 검색 기능이 작동하지 않을 수 있습니다.

       

    세이프서치

    Google은 사용자가 웹의 정보 중 검색할 만한 콘텐츠가 무엇인지 결정하게 합니다. 세이프서치 필터를 사용하면 원하지 않는 경우 성인 콘텐츠가 표시되지 않도록 검색 환경을 조정할 수 있습니다.


    자료출처 :  google

       

      

    오늘의 내용의 70% 정도는 구글의 페이지에서 카피를 해온 내용입니다. 그래서 이미지 등을 별도로 사용하지 않았습니다. 현재 개인 프로젝트인 "네이버 블로그 정착"에도 구글 최적화로 네이버 블로그 운영을 하는 것을 목표로 하고 있습니다. 


       

       


    댓글

Designed by Tistory.