소셜로그인 중단 안내

계정으로 로그인 기능이 2023년 11월 16일 중단되었습니다.

아이보스 계정이 사라지는 것은 절대 아니며, 계정의 이메일 주소를 이용해 로그인 하실 수 있습니다.

▶️ 자세한 공지사항 확인

블로그에서 공격과 유사문서 문제

2015.06.09 18:43

큰곰

조회수 2,024

댓글 5

1. 이제 공격에 대해 알려달라. 남의 블로그를 공격하는 게 되나?
간단하다.
내 블로그에 임의로 유저반응통계를 집어넣을 수 있다고 했고 그게 네이버 로직을 건드리면 어뷰징이라 했다.
그럼 남의 블로그에 유저반응통계를 맥스값 이상으로 집어넣어 그 블로그가 네이버로부터 어뷰징 판정을 받도록 만들면 그게 공격이다. 해당 블로그는 마이너스를 뚜드려 맞기 때문에 블로그지수가 낮아지고, 블로그지수는 모든 게시물의 검색지수에 영향을 미치니까 심하면 저품질.

드물지만 오판 + 기력탕진으로 으로 맥스값 이상을 집어넣지 못하면 1등 먹은 내 컨텐츠에 플러스를 주는 코메디공격도 있다.

공격의 목적은 대개

① 공격자는 1등 먹기로 약속하고 받은 광고가 있다. 제목에 특정 키워드 포함 조건도 물론 있다.

② 자기가 갖고 있는 블로그에 광고를 올려 확인해 보니 1등을 못 먹었다.

③ 1등 먹기 위해 자기 게시물에 어뷰징을 준다.

④ 그래도 1등을 못 먹었다...계속 어뷰징을 넣을 경우 자기 블로그지수가 까이기 때문에

⑤ 1등 먹고 있는 게시물에 맥스값 이상의 유저통계를 준다.

⑥ 1등 블로그는 어뷰징 판정으로 게시물이 밀리고 블로그지수에서 마이너스를 맞는다.

이걸 실시간으로  추적하고 있었다면 최근 1등 먹고 있던 내 게시물들의 제목에서 중요 키워드를 추출한 후 이 검색에서 새로 1등을 먹고 있는 놈을 보면 거의 확실하지만 메모리값,임시서버값,DB값의 차이로 반응도 즉각적이지 않을 뿐만 아니라 공격 순간에 딱 맞춰 내가 인지하기도 힘들며, 인지한 후에도 이것 저것 삽질을 한 후 찾아낼 때 쯤 되면 공격자는 광고주에게 1등 노출을 확인시켜준 후 게시물을 다시 올리거나 다른 블로그에 올려 1등을 피해버린다. 3등이나 5등 쯤 먹고 있다 해도...경쟁이 워낙 심한 키워드라 밀려서 그렇다...라고 광고주에게 둘러대고.

그렇게 된 후 내가 찾은 1등은 무주공산을 차지한 1등이지 실제 공격자가 아니다....

 

2. 그럼 네이버는 어뷰징과 공격을 분간할 수 없나?
통계를 활용하면 일부 추정할 수는 있겠지만 어뷰징이든 공격이든 거의 VPN 에서 오토로 일어나며, 해당 ID도 목적 블로그와 최대한 무관하게 보이는 것들이기에 사실상 자동으로 파악하는 것은 어렵다.
또한 조심스럽게 말하면 큰 틀에서 어뷰징에 대한 징벌이나 공격에 대한 징벌이나 어차피 같은 원리일 것이므로  현재 수준의 징벌, 앞서 말했지만 네이버의 주 징벌은 블로그지수에 마이너스를 때려 검색 후위로 돌리기라 했는데 상위노출이 목표가 아닌 블로그에겐 이게 징벌이 될 수 없다.

 

3. 그럼 두 경우 모두 블럭을 먹이면 될 것 아닌가? ID든 IP든.
내 글을 제대로 안 읽었구만
물론 네이버도 대량으로 매매된 ID 및 VPN 에 대해 다양한 고민을 하고 있을 것이다.
그러나 맘에 안 드는 블로거의  강퇴를 자동화하는 것은 장사하는 입장에선 최후의 수단.
아마도 블로그초딩들은 동의하지 않겠지만 상업용 블로그들을 무시할 수 없고, 또 컨텐츠 측면으로만 보더라도 광고가 비록 별로 가치있는 컨텐츠라고는 말 못하지만 그렇다고 해서 광고 컨텐츠가 일반 블로그초딩들의 컨텐츠보다 저질이거나 쓸모없다고는 할 수 없다.
오히려 많은 블로그초딩들의 컨텐츠가 어디서 복사하여 적당히 편집하거나 저작권개념도 없이 마구 퍼온 것이거나 김밥집에서 수다떨며 되는대로 찍은 사진 + ㅋㅋㅋ 수준의 컨텐츠인 반면 광고는 최소한 욕은 없고 어느 정도 개념은 있으며, 잘 못 클릭한 사람을 짜증나게는 할지라도 혐오감을 느기게끔 만들지는 않으니까.
차라리 광고가 낫지 '김밥 + ㅋㅋㅋ'/'ㅅㅂㄹ ㅁ' 같은 컨텐츠가 상위노출되면 안 된다는 걸 네이버도 통계를 보면 안단 말씀.
이전에 말했다.
검색이 많은 키워드에는 당연히 검색결과도 많아야만 해당 키워드가 지속적으로 살 수 있고 네이버는 계속 광고를 유치할 수 있다고. 솔직히 말해보자. 대부분의 경우 이런 키워드에 고정적으로 컨텐츠를 공급해 주는 사람들은 상업용블로거들이지 블로그초딩들이 아니다.

 

4. 그럼 네이버가 이 부분을 다른 방식으로 해결할 수는 없나?
해결할 필요성이 떨어진다고 본다.
그게 뭔 개소리냐고 할 수 있겠지만 어차피 네이버도 공격을 하는 블로그든 공격을 받는 블로그든 대개가 상업적 목적의 블로그이며 때에 따라 그 처지가 뒤바뀌고 있다는 것을 안다.
당신이 그냥 일반 블로거인데 어느 순간 공격을 받았다면 그것은 당신이 별 의도없이 제목 붙이고 써서 1등 먹고 있는 글이 뜻밖에도 광고용 키워드와 겹쳤기 때문이지 심심해서 공격하는 경우는 거의 없다. VPN 도 돈이고 하다못해 전기세도 돈인데...
그리고 그런 경우 해당 게시물이 1등에서 밀리면 공격도 멈추기 때문에 정말로 단발성인 것이고.
즉 사실상 99% 가 광고 때문에 이런 분쟁이 발생한다는 걸 이미 파악한 네이버가 속으로 뭐라 하겠나... 

 

"어차피 그놈이 그놈인데 우리에겐 컨텐츠를 꾸준히 올려 주는 넘이 중요하지...싸움구경 잘 할께요~ 그 싸움 후기도 블로그에 올리세요~ 그것도 컨텐츠니까."

 

5. 헐! 그럼 유사문서 원본반영에 성공하면 그나마 다행인건가?
접수받은 리자언니가 그날 기분이 좋다는 걸 짐작할 수 있다.
많은 경우 씹는데 
① 프로그램 로직의 중요부분이라 관리자화면에 그 기능이 없어서 리자언니가 바꿀 권한이 없는 요구를 하기 때문
② 확인/증명 을 리자언니에게 해 달라는 요구, 즉 본인인증이든 피해사실이든 본인이 하거나 영장을 받아 사법기관이 해야 하는 것이지 리자언니가 할 수 있는 게 아니다.
예를 들어 본인인증을 받지 않은 ID 가 털릴 경우 네이버는 이에 관여하지 않는다. 어느 놈이 진짜인지 추적해 보면 거의 알 수는 있겠지만 거의 아는 것과 법적으로 주인을 결정해 주는 행위를 하는 것은 다르다. 그 결정은 사법기관이 하는 것이지 많은 소형 사이트처럼 관리자가 시스템로그를 추적해 멋대로 처리하는 건 잘못이란 말.

 

6. 유사문서에 대해 말해달라.
최초 게시날짜를 기준으로 문서의 원본을 판단한다는 함정 때문에 오래운영하다 버린 블로그들이 이 공격용으로 쓰인다. 유사문서 판정의 원리가 도대체 뭘까? 이게 쉬운 게 아니다.
A 라는 게시물이 네이버 블로그에 올라왔을 때 이것이 기존에 네이버에 있는 어떤 문서와 유사한가를 판별하기 위해선 우선 문장을 인식하는 기술이 있어야 하지만 그 기술이 100% 확보되었다 하더라도....
자... A 라는 게시물이 유사문서인지 확인하기 위한 궁극적인 방법으로는 A의 문자열을 네이버에 이미 있는 수억의 문서와 일일이 비교해야 한다는 결론에 도달한다.
당연히 이렇게 설계하면 네이버 문 닫아야 한다.
그래서 내 멋대로 생각해 보면
① 이미 있는 문서들 중 수준이 좀 검증된 문서와 뉴스를 중심으로 분석해 웹통계보다 확실히 빈도가 낮은 단어로 연결된 부분을 몇 개씩 떼어내서 이를 고유코드로 DB화 한다. 어려운 말 같지만 한 페이지의 텍스트 중 좀 특이한 부분을 문장 하나로 추출해 저장한다는 말이다.
② 이런 코드를 100만개쯤 만든다.
③ 이제 어떤 게시물이 업로드될 때 임시서버에 이를 저장하고 로직을 돌리는데
④ 100만개의 리스트 중 1개가 일치할 때마다 유사도 10% 를 부과해 최초 컨텐츠지수에서 -1점을 때린다.
⑤ 50% 가 부과되면 리스트대조를 멈추고 '유사문서' 플래그를 설정한 후 블로그지수에서 -10점을 때린다.

이 예의 경우지만 리스트 100만개만 뽑으면 실제 많은 평범한 문서 및 짧은 문서들은 리스트 추출대상에서 제외된다. 그 경우 추출대상에서 제외된 A 문서는 이와 유사한 문서를 무한 생성해 내어도 유사로 분류되지 않는다.

문서끼리 직접 비교하는 게 아니라 100만개의 추출코드와만 비교하니까.

인터넷에 꼭 버그처럼 보이는 이런 장면도 더러 있다.

 

7. 위 원리와 공격은 상관이 없는 것 같은데?
즉흥적으로 예를 들었을 뿐이다. 이러다 내가 새로운 로직을 창조해 내겠네...
유사문서 공격은 이런식으로 다 만들어진 DB 를 오래 운영한 블로그가 예전 날짜 게시물로 수정,바꿔치기 하면서 성립된다고 했다. 그럼 당장 이런 문제가 생긴다.
A라는 새 문서를 '이미 있는' B 문서와 비교할 때는 모든 게 OK 이지만 DB화가 마무리된 후라면 이 경우는 둘 다 '이미 있는' 문서이다.
수정로그고 뭐고 그런 시스템적 장치를 동원해도 사실
① A문서는 등록날짜가 뒤지지만 등록된 후 수정된 적이 없고,
② B문서는 A가 올린 후 수정되었다.
를 확인할 수 있을 뿐이지 근본적으로 원본이 A 라는 증거는 되지 못 한다.
예를 들어 A와 B의 공동 작업일 경우 A가 먼저 등록할 수도 있고 B는 기존 글을 수정할 수도 있는 상태가 만의 하나라도 존재한다면 문서의 주인이 A라는 판단은 네이버가 내려주는 게 아니라 사법기관이 내리는 것이다.
이는 자칫 평범한 저작권이 아닌 산업기술아이디어일 경우 큰 소송에 휘말릴 수 있는 문제.
뭐 이런 고민을 해야 할 경우는 0.1%도 되지 않겠지만 네이버가 이런 판단을 함부로 해서 좋을 일은 없기도 하거니와 우선 귀찮은 문제니까 많은 경우 생을 깐다.
그리고 사실 위 4번과 같이 이런 문제 역시 상업적 블로그 사이에 발생한다는 걸 알기 때문에 강건너 불구경(이걸 필터링 단어로 하다니) 마인드는 그대로인 것.

 

8. 그럼 모든 공격에 대책이 없다는 소린가?
작정하고 상대 블로그를 죽이기로 마음먹고 공격하면 그렇다.

 

9. 그럼 대형블로그들은 경쟁자가 많은 만큼 공격시도도 많을텐데 어떻게 버티나?
난 발바리여서 불독의 기법을 모르겠다.
대형 블로그 아니라 블로그 할배라도 작정하고 공격하면 죽는다.
그러나 공격에는 비용이 들며, 사건이 커지면 일단 민사소송이 엄청 쎄게 들어오기 때문에 그거 공격하다가 내가 망한다. 안 잡히면 될 것 같지만 전문적인 해커가 해도 언젠가는 대부분 잡히는데 일반인은 바로 잡힌다.

 

10. 네이버에 신고하는 게 좋은가? 관계기관에 신고하는 게 좋은가?
둘 다 좋지 않다.
네이버에 신고하면 안 그래도 시큰둥한데 내 블로그를 수동으로 검열해 달라는 소리와 비슷하기 때문.
사이버수사대의 경우 성의를 보이기에는 사건이 너무 작다. 사건성립 자체를 시키지 않으려고 오히려 신고자에게 까다로운 증명을 요구하기도 한다.
상대에게 정중히 부탁하거나 아니면 그냥 피하거나 아니면 상대의 메인 블로그를 찾아 보복하는 것이 현장에서 이뤄지는 주 해결책.
근본적으로 공격에는 돈이 들어간다는 걸 착안해 상대가 내 게시물을 밀어내고 1등 먹으려고 받은 광고비보다 공격비용이 더 들게 만들면 된다.
내 블로그 지수 높이기 + 개별 컨텐츠지수 높이기.
말이 쉽지 그걸 지금 해결책이라고 지껄이는 내가 우습군.

 

 

  

목록글쓰기
댓글 5
댓글 새로고침

조이브랜

06-121,3432

길쿵이

06-121,1070

순진한남

06-121,6150

백만송이

06-122,0616

기다림

06-111,2721

유창근

06-111,2350

유럽여행

06-111,1000

by.세화나비

06-111,8370

엠엔케이

06-119830

으아악멘붕

06-111,1190

chae1912

06-111,2810

늙은토끼

06-111,1410

마싯

06-111,1640

농구공

06-101,1080

새록새록

06-101,0250

dandi

06-109810

큰곰

06-104,37417

스마엘이

06-101,0230

큰곰

06-092,0259

카바니

06-098420

큰곰

06-092,88710

ap

06-081,0900

yellow

06-081,5612

손쿠

06-081,4131

테리테리

06-081,5970

꼬북

06-089060

묘지기

06-081,5514

큰곰

06-071,6046

햄토리

06-071,4600

이기중

06-066430
목록 글쓰기
로그인 후 더욱 많은 기능을 이용하세요!아이보스 로그인