소셜로그인 중단 안내

계정으로 로그인 기능이 2023년 11월 16일 중단되었습니다.

아이보스 계정이 사라지는 것은 절대 아니며, 계정의 이메일 주소를 이용해 로그인 하실 수 있습니다.

▶️ 자세한 공지사항 확인

블로그지수와 어뷰징

2015.06.09 12:05

큰곰

조회수 4,646

댓글 6

1. 너님은 마이너스지수를 네이버가 때리는 징벌이라 했다. 징벌설계의 큰 틀은 무엇인가?
앞서 말했듯 정상적인 상황이라면 네이버가 컨텐츠 공급자인 블로거에게 마이너스를 때릴 일은 없다. 그런데 실제로 많은 블로그들이 오늘도 죽어가고 있다.
그 이유는

 

 

  1. 네이버에 직접적인 손해를 주는가?
    ① 시스템 부하 ▶ 서버 증설하는 비용
    ② 넷트웍 부하 ▶ 인터넷 회선 증설하는 비용
    ③ 저장공간 낭비 ▶ 스토리지 추가비용
    ④ 이 모든 것은 또한 전기세와 인력, 공간,,,에 따른 비용을 유발함.

  2. 검색결과를 변조하려는 시도인가?
    ① 자기 컨텐츠의 노출순위를 올리기 위한 목적 ▶ 어뷰징
    ② 타인 컨텐츠의 노출순위를 내리기 위하거나 그냥 심심해서 ▶ 공격


라는 2가지 검열장치에 실제로 문제를 저질러서 걸리는 경우와 아무 이상행동을 하지 않았지만 프로그램으로 자동처리하는 과정에서 어쩔 수 없이 엮여 들어간 경우가 있겠다.

 

2. 시스템부하에는 어떤 것이 있나?
당신의 PC와 똑같다.
CTRL+ALT+DEL 을 누르면 만날 수 있는 '작업관리자' 란 프로그램창을 한 번 쯤 보았을 것이다.
네이버 웹서버에는 이런 정보로 볼 수 있는 프로세서 항목이 수천개가 떠 있으며 99%는 hhtpd 이다. 뭐 가볍게 말하자면 IE를 실행시킨 후 탭을 수천개 연 것과 비슷한 상황이 되는 셈.
이런 httpd 프로세서는 당신이 네이버로 뭔가를 요청할 때마다 그 중 하나를 차지한다. 물론 오토로 3~4 개의 탭에서 매우 빠르게 클릭을 하면 하나만 차지하는 게 아니라 불연속적이지만 3~4개를 당신 혼자서 차지하게 된다.
서버가 현재 1000 개의 httpd 가 떠 있는데 모두 인터넷 접속을 받고 있다면 당신의 요청은 서버에 1001번째 새로운 httpd 자 프로세서를 생기게 만든다.
DB 의 경우도 웹서버와 비슷한 현상이 생긴다.
많은 경우 메모리값과 임시서버값으로 처리를 하지만 신규 컨텐츠를 올릴 때, 올린 컨텐츠를 수정할 때 이 DB 에는 웹서버보다 몇 배로 많은 부하가 걸린다. 간단히 말해 100개의 단어로 구성된 텍스트 게시물이라 해도

 

  • 100개의 단어를 낱낱이 키워드로 취급해 키워드DB에 추가하는 작업

  • 수~수십개의 문장단위로 고유값을 만들고 이를 기존의 값과 비교해 유사문서와 기타 판정을 해야 하는 작업

  • 20%의 컨텐츠 점수를 부여하는 작업

  • 블로그지수와 연산해서 해당 게시물의 최초 검색지수를 산출하는 작업

  • ...........

이래도
게시물 수정/삭제/재등록 처리들이 블로그지수에 아무 영향을 주지 않게 설계한다면 네이버는 진짜 관대한 양반들인 게다.

 

3. 넷트웍부하가 업체측에서 그렇게 심각하게 생각하는 내용인가?
집에서 1~3만원/월 비용으로 인터넷을 이용하는 일반인들이 상상하는 이상이다.
우리나라에 ISP가 100개 좀 넘는데 당신들은 대개 KT,SK,LG 정도만 들어봤을 것이다. 2000년초 많은 ISP들이 설립되고 IDC까지 운영했었는데 뭐 꼭 그런 건 아니지만 그들 대부분이 이제 IDC 를 포기하고 통신3사 셋방살이로 들어간 나머지 100여개 가까운 ISP가 이제는 뭔 사업을 하는지 아예 광고조차 않는 현실이 되어버린 가장 큰 이유도 바로 독자 서비스로는 회선비용 + 전기세조차 감당하지 못 하기 때문.
나는 앞선 글에서 멀티미디어에 대해 경고했었다.
더구나 텍스트보다 더 그 품질을 유저반응통계에 의지해서 평가할 수 밖에 없는 네이버가 일정 용량을 초과하거나 일정 수준에 미달하는 멀티미디어에 대해 그냥 구경만 할까?
100MB 짜리 동영상을 올려 놓으면 10번의 클릭만 끝까지 완주해도 1GB 트래픽이 생긴다.
반면 100KB 텍스트라면 10번의 클릭이 생기든 말든 네이버가 신경을 쓰지 않아도 된다. 텍스트가 DB 에 저장된 후에 네이버가 가장 중점을 두는 부분은 그 텍스트의 검색순위이지 용량이나 트래픽이 아니다. 궁극적으로 텍스트에 발생한 10번의 클릭이 유효한가 아닌가 판단하는 작업조차 검색지수를 산출하기 위한 과정의 일부일 뿐이니까.
그런데 100MB의 동영상이라면 얘기가 달라진다. 10개의 클릭 모두가 유효하다 해도 네이버는 반기지 않는다. 아니, 내심 이렇게 생각할지도 모른다.


"동영상 같은 건 유투브에 올리고 링크시키지 왜 여기서 지롤이야!" 

 

그런데 유효하지 않은 클릭이 감지된다? 그냥 넘어갈 리가 있겠나....
네이버는 동영상도 마음껏 누려라고 얘기하고, 유저도 그래도 되는 줄 안다. 그러나 내가 책임자라면 텍스트보다 멀티미디어에 대해서는 엄격한 트래픽과 용량통제를 할 것이다. 드러나게는 통제하지 못 하니까 지수 마이너스로 응답.
다음이라는 2위 기업이 클라우드 서비스를 종료하게 만들 만큼 실제 이건 대단히 심각한 문제이다.

 

4. 저장공간이나 전기세 같은 거야 알만한 얘기고 어뷰징에 대해 말해달라.
네이버는 컨텐츠의 품질을 평가하기 위해 유저반응통계를 수집하는 여러 장치들을 두고 있는데 이 통계에 최대값 이상이 들어올 경우 유저가 통계에 개입한 것으로 판단한다. 어뷰징은 이를 지칭하는 용어인데 어뷰징을 판단하기 위해 설계된 로직에 걸리면 징벌적 마이너스를 맞는다.
기본적으로 유저반응통계를 수집하기 위해 설계된 모든 항목은 개별 컨텐츠지수의 80%를 산정하여 검색지수에 ± 연산하기 위한 장치이지 저질 컨텐츠라 하더라도 20%의 검증로직을 통과한 이상 그걸로 블로그지수를 마이너스 때리지는 않는다.
해당 컨텐츠만 검색에서 뒤로 밀면 그게 저질이든 말든 문제될 게 없고 또
'oo 검색결과가 10000개 있습니다' 보다는 '10001 개'가 되는 게 모양새도 좋으니까 마이너스 때리거나 블럭먹일 로직은 20%에서 충분하다는 얘기.
참고로 현재까지 내가 고려한 범위에서만 말하자면 블로그지수는 양의 방향으로 느리게 성장해야 정상이며 마이너스를 맞는 비정상적인 상황은 세가지 경우에 한정적으로 발생한다.

 

  1. 등록/수정시 20%의 검증로직에 걸렸을 때

  2. 위 1 - 1

  3. 어뷰징로직에 걸렸을 때(에이씨~X도 유저반응통계 중 하나)

 

근본적으로 프로그램이 자동으로 컨텐츠 품질을 측정할 수 있다면 이런 요소들이 발생하지 않는다. 예를 들어 이 글을 네이버에 딱 올리는 순간 컨텐츠지수 == 50 이라고 결정한 후 그걸 반영해 검색지수를 산출하고도 장기적으로 네이버가 안 망할 방법이 있다면 어뷰징이란 것도 아예 성립하지 않는다는 말.

 

5. 어뷰징으로 판달될 수 있는 요소들은 어떤 게 있나?
각 통계의 맥스값은 누누히 말하지만 단순한 상수가 아니다.
예를 들어 블로그의 조건이 다 다르고 지수가 다 다르기 때문에 A 블로그에서는 스크랩 50개가 정상적인 유저반응통계로 집계되어 컨텐츠에 + 요소가 되지만 B 블로그에서는 똑 같은 50 스크랩이 로직상 맥스값을 초과한 것으로 판단되어 오히려 지수 마이너스를 맞을 수 있는 것처럼 실험으로 때려맞출 수 있는 정적 값이 적용되지 않는다

 

  1. 보이는 통계
    네이버 블로그에 기본적으로 있는 기능이며 스크랩,댓글,공감,클릭 등.
    단순하게 생각하면 많을수록 좋아보이고 순수한 의미에서 그래야 한다.

  2. 보이지 않는 통계
    사용자 메뉴상 없지만 웹서버/웹브라우저 설계에 의해 수집가능한 쿠키, TCP/IP 설계에 의해 수집가능한 IP.
    쿠키는 네이버에서 심는 것이기 때문에 외계어는 우리가 알 수 없지만 타임스탬프를 통해 체류시간 정도는 분석하겠구나 하는 추측이 가능하다.

 

6. 보이는 통계는 이미 충분히 우려먹었다. 그런데도 아직 통하는 이유는 무엇인가?
도둑을 예방하는 게 어렵지 도둑에게 털린 후 그걸 인지하거나 털린 경로를 파악하는 건 거의 100% 가능하듯이 새로운 방식의 어뷰징을 탐지하는 게 어렵지 알려진 방식을 반복적으로 사용하는 건 100% 감지된다. 더구나 보이는 통계는 네이버에서 버젓이 메뉴를 제공하고 있는 것이기 때문에 어뷰징 개념을 모르는 초딩이라도 반 친구들에게 카톡으로 자신 블로그의 주소를 돌려 클릭과 댓글을 유도할 수 있다. 네이버도 이를 안다.
다만 로직이란 어떤 조건에 따라 선택적인 모듈이나 루틴, 함수호출이 일어나는 플밍으로 구현이 되는데 바로 이 호출에 적용될 통계와 그에 소모될 시스템부하가 문제.
통계란 검색노출 때도 말했지만 일정 수준의 데이타가 있어야 유의하다. 당신이 저품걸려 투데이 50인 블로그에 대고 50개의 클릭을 의도적으로 넣었다 할 때 그게 같은 IP건 VPN이건 설령 스댓공이건 네이버는 이를 무시한다는 얘기다(여기서 수치는 임의로 말한 것이며 테스트하진 말기 바란다)
시스템부하도 그 연장선에서 생각해볼 수 있다.
즉 접근IP,스댓공 등 모든 것이 데이타로 저장되는 것은 똑 같지만 투데이 100밖에 안 될 때는 그것을 분석하는 함수호출은 일어나지 않도록 하는 게 개념있는 설계라 할 수 있다. 스댓공클 하나하나가 발생할 때마다 그걸 분석하는 방식은 시스템부하를 유발하므로 소형 사이트에나 적합하다는 말.
물론 검색노출에서의 유저반응통계와 마찬가지로 매 스댓공마다 로직이 호출되지는 않지만 그렇다 하더라도 매 스댓공마다 가능한 모든 데이타는 저장되므로 그 저장 리스트가 통계에 유효한 수준에 올라오면 갑자기 어뷰징 검열로직이 발동되어 한 번에 마이너스를 뚜드려 맞는데 이는 어뷰저가 예측하기 쉽지 않다.

 

7. 아! 그러니까 네이버가 몰라서 못 잡는 것도 아니고, 알고도 눈감는 것도 아니고, 통계와 시스템부하로 타협점을 본 수준까지는 방치하는구먼?
그렇다. 방치가 맞다.
해당 요청이 기계이냐 사람이냐를 판단하는 과정에서 기계는 정형화할 수 있고 네이버도 시중의 오토 프로그램을 구입하여 분석하고 있다고 볼 때 모든 것은 준비되어 있다.
문제는 기계적인 접근을 무조건 금지하느냐...라는 부분인데...
약간 엉뚱한 얘기로 들릴지 몰라도 온라인게임에서 중국 작업장을 아는가? 그들이 오토라 하여 영자들이 무존건 블럭을 먹인다면 잠깐은 좋아 보일지 몰라도 몹만 어슬렁거리는 황량한 사냥터에다 아이템 공급이 원활히 되지 않으며, 즐길만큼 즐기다 접을 때는 처분을 해야 하는 한국 유저들도 처분이 되지 않는 문제가 곧 대두된다... 아무리 잘 만든 게임이라도 그런 데서 무한리젠되는 컴퓨터랑 맞짱뜨는 것으로 만족할 사람은 거의 없다.
즉 게임이라는 대전제를 잊어먹고 원칙을 강조하는 일반유저들의 철없는 주장은 해당기업에도, 게이머 자신에게도 사실 해법이 아닌 것이다.
자...그런데 더구나 네이버는
각종 통계에 오토가 개입할 때 관련 사실은 해당 오토 사용자와 네이버 밖에 모른다.
이들을 닥치고 블럭처리하지 않는 네이버를 비난할 수 있겠는가?
나는 좀 더 솔직히, 어뷰징마이너스라도 때려주는 네이버 같은 기업을 그렇게 아무 생각없이 어느기업에게서나 기대할 수 있을 만치 이 사회가 정의롭다고는 생각하지 않는다. 구글이나 다음이 국내 70%를 장악하면 지금보다 더 공정한 환경이 되었으리라 상상하는 근거는 무엇인가?
블로거를 내쫓는 게 목적이 아닌 네이버가 검색서비스나 시스템 자체에 영향을 줄 수 없는 수준의 접근까지 일일이 검증할 필요는 없다.
다만 어뷰징 데이타도 축적되면 언젠가는 로직을 발동시키기 때문에 중간에 희석시키지 않으면 타임스탬프가 무효해지기 전에 걸려 마이너스를 맞을 수가 있다.

 

8. 희석이라니?
그걸 이해하기 위해서는 통계데이타에 대해 좀 더 고민해야 한다.
예를 들어 당신이 VPN 10개로 매일 같은 블로그를 10번씩 돈다고 치자(이 역시 임의의 수치)
하루나 한달, 그러니까 인간 기준으로 보면 그 블로그에 +100 이 찍히는 것 정도는 다른 인터넷에서의 랜덤 접근도 있기 때문에 별 문제가 없다고 생각하겠지만 컴퓨터는 그렇지 않다.

타임스템프가 있으므로 극단적인 예이지만 1년 쯤 지나면 당신 블로그의 클라이언트 IP 통계는 이 10개의 비중이 너무 높다. 그것도 비슷한 클릭수로...이는 간단한 플밍 한 줄로 어뷰징 로직을 호출할 수 있는 조건에 해당한다.
이 VPN 의 예만 하더라도 통계데이타에 따라 여러가지의 다양한 로직적용이 가능하다.
다른 예를 들어보면
위 VPN 은 정기적으로 블로그를 순회한 뒤 끊을 것이기 때문에 해당 IP 가 네이버의 다른 서비스를 클릭한 통계가 없다. 메일도 안 보고 뉴스클릭도 안 하며 그 중요한 광고클릭도 안 한다.
좀 더 나아가면
만약 네이버가 각 ID 별 네이버 전체 활동지수 같은 걸 측정하며 이를 지역별/성별/연령별/계절별...로 통계화하고 있다면 어떨까? 빅데이타 빅데이타 하는 시대에 SNS 까지 통계화하는 상황에서 이는 충분히 가능한 시나리오며 예전에는 지역별 분류가 고객이 제출한 주소를 기반으로 했지만 요즘은 네이버 정도의 포탈에서는 IP 가 위치정보화되어 있으므로 결국
VPN 들은 블로그/지식인 빼고는 0점이다.
희석은 이 0 점 부분을 끌어올리는 것을 얘기한다. 그게 ID든 IP든 어뷰저 스스로 0점짜리가 뭘까 생각해 보면 몇 항목은 뽑을 수 있을 것이다...방법까지 구체적으로 제시하게 되면 문제가 커지니까.

 

9. 또 VPN 에 대해 경고하는가?
지겹지만 들어라
VPN 에서 블로그를 키우든 공장으로 찍어내든 네이버가 문제삼지는 않을 것이다. 다만 어뷰징 및 서비스방해로 걸렸을 때는 언제든 고양이 앞에 쥐 신세.
여기분들 중 일부는 오랫동안 VPN 으로 업체를 운영한 경험이 있다. 그러나 시스템에 대한 종합적인 판단력 없이 네이버를 만만히 보고 자신의 경험을 과대평가해서는 안 된다.
딱 깨놓고 말하면 네이버 활동지수가 평균보다 극히 낮은 ID 는 이미 DB에서 언제든지 추출할 수 있으며, 이들이 집중된 IP 또한 그러한 상태다. 그게 IDC 내부의 VPN 서버라는 것도 다 정리되어 있다. 일시에 수만개의 ID 에 몽땅 -1000 점 때리는 게 언제든 가능하다는 말이다. 지금은 서비스방해나 어뷰징으로 걸렸을 때 그 조치 단계가 한 단계 낮을 뿐인 것을, 자신이 네이버의 로직을 잘 피해다닌다고 착각하고 때론 강의까지 하는 현실을 경고하는 것이다.
나는 불과 4개월 전까지만 해도 블로그초딩이었다.
뭐 컴퓨터는 누구에게 안 밀리지만... 그렇다 하더라도 블로그 저품을 계기로 4개월 만에 나 한사람이 생각해낼 수 있는 항목보다는 몇 배 정교하고 다양한 설계로 네이버의 로직은 준비되어 있다고 보는 게 공평한 시각이다.
이 말이 틀리고 인터넷의 흔한 불평처럼 네이버가 온갖 삽질과 버그로 연명해온 기업이 맞다면 네이버 이용자나 혹은 네이버의 개발진, 둘 중 하나는 평균 아이큐가 80 이어야 가능한 게 아니겠는가? 내가 특별한 천재는 아니니까.

 

10. 그러니까 로직에 대해서는 날뛰지 마라?
까놓고 말해 그렇다.
심지어 어떤 블로그 동영상 강의에서는 아무렇지도 않은 듯 자신은 컴맹에 가깝다고 말하는 것을 본 적이 있다.
뭐 그럴 수 있다.
그러나 그걸로 컴맹인 사람에게 수십만원 수백만원씩 받아서 잘 먹고 잘 산다면 내가 못 살아서 생기는 시기심일지라도  누군가는 분노해야 되는 일이 아닌가?
네이버 로직은 네이버 내부 개발자라도 일정 수준의 컴퓨터 실력이상, 그리고 팀장급 이상이 아니면 정확히 모른다. 대형 프로그램과 시스템은 전부 모듈식으로 개발되기 때문.
내가 여기서 이야기하는 모든 것조차 만약 내가 책임자라면 이정도 수준, 이런 방향으로 설계했을 것이므로 15년된 기업 네이버라면 최소 내가 제시하는 수준 이상은 무조건 확보되어 있을 것이라 얘기하는 것이지 네이버를 자기 발아래 둔 듯한 태도로 말하는 그들과는 본질적으로 다른 것이다.

 

11. 너님은 네이버빠가 맞다.

 

 

 

블로그마케팅
목록글쓰기
댓글 6
댓글 새로고침
로그인 후 더욱 많은 기능을 이용하세요!아이보스 로그인