소셜로그인 중단 안내

계정으로 로그인 기능이 2023년 11월 16일 중단되었습니다.

아이보스 계정이 사라지는 것은 절대 아니며, 계정의 이메일 주소를 이용해 로그인 하실 수 있습니다.

▶️ 자세한 공지사항 확인

블로그지수와 멀티미디어의 사용

2015.06.06 16:12

큰곰

조회수 3,273

댓글 3

1. '블로그지수' 라는 게 진짜 존재하나?
네이버 내부에서 어떤식으로 구현되었는지는 나도 모른다. 그러나 내가 여러 글에서 언급한 '블로그지수' 형태의 평가방법은 네이버 설계에서 반드시 존재한다.
이 게시판 및 대부분의 게시판은 최신순으로 정렬한다. 게시물 자체가 최신이거나 아니면 댓글이 최신이거나 수정날짜가 최신이거나...
정확도나 문서의 품질 이란 개념이 존재하지 않는다.(일단 정확도 얘긴 빼자)
당신은 아무 생각없이 지나쳤을지라도 사실 대형 포탈 이외에는 대부분 그렇다. 최신순, 댓글 많은순, 추천 많은순, 회원레벨 높은순,,,
이건 어떤 플머라도 DB에 값이 있으면 순서대로 나열할 수 있다.
그런데 네이버는 문서의 품질 이란 개념을 도입했다. 보통사람은 그냥 머리를 끄덕일지 몰라도 프로그래머나 시스템 관리자라면, 이거 입이 떡 벌어지는 개념이다.

2. 왜 그런가?
위 최신순은 날짜가 DB에 있고, 댓글이나 추천,회원레벨도 DB에 있으니 DB 에서 순서대로 정렬해 출력하면 끝이다. 그런데 문서의 품질? 이 항목이 일단 DB에 있어야 정렬하여 출력할 게 아닌가?
자...우선 문서의 품질을 측정하여 DB에 저장하자...근데 암담하다. 문서를 봐야 품질을 측정하지.
차선책으로 플밍으로 텍스트를 분석한다. 이거 어느정도는 가능하다.
ㅅㄲ/ㅋㅋ/ㅗㅗ... 같은 통신체 ▶ 검색될 때마다 지수 -1점
속어,informal ▶ -5점
심한 욕 ▶ -10점
아주 심한 욕 ▶ -100점
이런 건 플밍으로 해도 별 문제가 없다. 점잖은 글 수준있는 컨텐츠에는 통신체가 잘 안 쓰이니까.
그러면 다음과 같은 외계어는 어떻게 할 것인가.
гөлгөр унтдаг байл>. Тэднᵜᵜڲږ ᴓ й ахуйтайᵜᵜ ڲږ ᴓ хᵜᵜ
이런 것도 어느정도는 가능하다. 이게 뭔지는 모르지만 네이버는 웹문서 수십억의 통계를 갖고 있다.
그 말은
'나는 가방을 열고 사전을 꺼냈다'
'열고 사전을 나는 꺼냈다 가방을'
를 분간할 순 없지만
'나는' 다음에 '가방을' 이라는 문자열이 나오는 웹문서는 수천개 정도 발견할 수 있다 ▶ 음 정상적인 문장이군
'열고' 다음에 '사전을' 라는 문자열이 나오는 웹문서는 수십개 정도 발견할 수 있다. ▶ 평균이하 문장연결인데?
'사전을' 다음에 '나는' 도 같은식으로 통계와비교 ▶ 역시 평균이하 연결
이런식으로 텍스트 전체를 비교하면 오토로 단어 짜집기한 텍스트는 웹문서 통계에 비해 문장연결이 평균미달이라는 걸 확인할 수 있다. ▶ -100점
사실 이런 것은 즉흥적으로 내가 만들어 낸 것이고 네이버 정도 되면 한글문서에 대해서는 국내최강이라고 봐야 한다.
그런데도 불구하고 이런 것들은 문서의 품질을 20% 정도 밖에 측정하지 못 한다.
참고로 이 20% 안에는 요즘 '메르스' 처럼 정부협조사항 이라든가 '빨갱이' 라든가 '박근혜' 라는 것들도 포함되고 '누드' 나 '도박' 같은 것도 포함된다.
물론 xx 라는 단어가 쓰였다 하더라도 아주 품질 좋은 문서일 수도 있다. 그러나 네이버는 이를 자동처리하는데 어떤 생각을 갖고 하느냐...
마이너스 몇 점 정도로는 유저반응통계 80% 가 좋다면 쉽게 극복이 되는 점수이므로 일단 xx 를 5번 사용했으니 -5점 맞고 시작해라...진짜로 저속하지 않은 컨텐츠라면 유저반응통계가 그 점수를 회복해 줄 것이다

3. 그럼 너님이 경험했다는 cbatch01.udb.nhnsystem.com:20080/lemontree/blogGPCheckList.nhn 도 여기에 해당하나?
나는 그렇게 본다.
특히, 위 글처럼 문장을 자동으로 처리하려다가 xx 가 많이 검색되어서 마이너스를 대량으로 때리기 전 관리자화면을 호출한 것으로 일단 생각하고 있다. 이 참조가 통계에 뜬 후 최신글 안드로메다부터 시작해 저품현상이 왔다.
하지만 blogGPCheckList 라는 게 뭔지는 네이버만 알기 때문에 100% 나의 추정일 뿐이며, 관리자화면이 호출되었을 때 리자언니가 블로그를 직접 확인하지 않고 그냥 디폴트로 엔터를 때린 것이라 생각하고 있다.

"어제 하루 동안 yy 블로그가 xx 라는 단어를 반복 사용한 것으로 봐서 음란물인 것 같다. 플밍적으로 -1000점을 때릴 예정인데 동의하느냐?"
라는 관리자 호출화면을 띄우면 리자언니가 확인없이 엔터.
(설마 내가 xx 라는 단어를 사용했다고 해서 진짜 음란게시물이었다 생각하진 않겠지? OpenAPI 를 설명하는 과정에서 사용한 것일 뿐 음란물과 전혀 상관없는 게시물이었다. 그러거나 말거나...네이버는....)
사실 이건 내가 플머라도 어쩔 수 없는 것이다. 수백만이 올리는 문서를 어떻게 일일이 확인한단 말인가.

4. 그런데 '블로그지수' 와 이 개별 컨텐츠지수는 무관한 것 같은데?
앞서 얘기했다.
노골적으로 예를 들어보면
xx 라는 단어를 사용해 OpenAPI 를 설명한 똑같은 문서를 내가 아니고 함영민블로그에 올렸다고 생각해보자.
플밍이란 건, 고급플밍일수록 인간심리의 연장선이다.
난 함영민 블로그를 블로그지수가 높다고 생각하지 않지만 여기서는 9만점이라 치자.
그럼 플밍자동처리에서도 이런 로직이 된다.
xx 라는 단어를 많이 사용한 문서라 일단 브레이크가 걸리는 건 똑같다. 그러나 블로그지수 9만점짜리가 느닷없이 음란게시물을 올려 자폭할 리는 없잖은가? 그럴 확률은 아주 낮다. 따라서 플밍로직에서도 블로그지수 9만점을 보고 음란물 필터링 로직을 아무 일없이 통과하는 반면 내 블로그는 리자언니 화면을 호출하게 되는 것.

5. 블로그지수에 따라 어떤 건 로직에 걸리고 어떤 건 통과될 수도 있다는 말이네?
그렇다.
다시 돌아가 보면 20%의 로직을 통과한 신규 게시물들은 어떤 순서로 검색엔진에서 노출시킬 것인가?
어떤 놈은 1등 먹고 어떤 놈은 100페이지에 가고, 이걸 어떻게 정렬한단 말인가? 20%는 다 통과했는데?
이 시점에서 블로그지수를 반영할 수 밖에 다른 방법이 있나?
어제까지 전교 500등 하던 놈의 성적을 플밍으로 자동 예측하면 450~550 등 정도가 아니겠는가?
심지어 부모님도 잘해야 400등이지 않겠는가?
혹시라도 1등을 해버리면 따로 호출되어 주관식 검정이라도 해야 할 판.

6. 블로그지수는 어떻게 + 되나?
내가 답하는 부분은 아주 소극적인 것이다.
그러나 블로그지수 본연의 역할은
'어떤 짓을 할지 알 수 없는 인간이란 존재에 대해 그의 과거 행동을 보고 미래를 예측한다' 는 플밍구현이고 보면
오래 운영된 블로그가 중요하다.
게시물이 많은 블로그가 중요하다.
마이너스를 맞은 기록이 적은 블로그가 중요하다.
텍스트가 많은 블로그가 중요하다.
...

스/댓/공 같은 경우 개별 컨텐츠지수에 직접적으로 영향을 끼친다. 또한 이 개별 컨텐츠지수도 다음 DB 업데이트 때 어떤 함수에 의해 블로그지수를 ± 하는 것 같다. 그러나 블로그지수라는 게 원래 신뢰도가 목적인 만큼 개별 게시물에 따라 받는 영향은 그리 크지 않다.

다른 말로 하면 개별 게시물이 어떤 로직을 건드릴 때 직접적으로 블로그지수에 마이너스를 때리도록 구현되어 있으므로 자연스러운 상태에서 블로그지수는 아주 느리게 양의 방향으로 성장한다.

따라서 운영기간, 게시물 수 등이 중요하다. 

 

7. 텍스트가 많은 블로그가 중요하다?
이미지나 동영상은 헤더(포맷에 따라 헤더정보가 있다)라는 아주 조그마한 것을 분석할 수 있을 뿐 비트열을 비교하거나 하는 분석이 의미가 없다. 즉 헤더정보분석에서 걸리지만 않으면 나머지 99%는 유저반응통계로만 품질을 측정할 수 있을 뿐이다.
반면 텍스트는 20% 정도의 측정기술을 이미 확보하고 있다.
따라서 텍스트가 많으면서도 지수가 높고 마이너스를 덜 맞은 블로그라면 네이버가 보너스 루틴을 돌리는 게 이상하지 않다.

8. 너님은 이미지와 동영상에 대한 경고를 했다. 그 이유는?
어디서부터 시작되었는지 모르지만 수퍼블로그를 보고 추측해 보면 약 5년 쯤 전부터 현재의 사진/글 몇 줄/사진/글 몇줄...
형태의 블로깅이 거의 정형화되었고 심지어 일부에서는 최적화요령 및 검색노출 요령이라면서 사진을 x 장 이상 넣어야 한다는 주장을 하기도 한다.
일견 그렇듯해 보인다.
상당히 많은 키워드에서 1페이지를 점령하고 있는 글 앞 부분엔 이미지 썸네일이 있으니까...아...이미지를 올려야 검색노출 되는구나...그 얘기가 맞구나...
약간 빗나간 듯한 얘기지만 다음클라우드가 7/31 일 모든 서비스를 종료한다.
다음은 무료 50GB 이고 네이버는 무료 30GB 이다. 나같은 경우도 네이버 블로그를 쓰지만 웹저장은 다음클라우드를 하고 있었다.
그런데 다음이 먼저 망해 먹는다?
이미지와 동영상은 멀티미디어 시대에 상당히 중요하다. 그러나 넷트웍트래픽과 서버 저장공간은 모두 돈이다.
서비스를 안 할 순 없지만 플머/시스템관리자/경영진 누구도 이 멀티미디어를 반기지 않는다.
참고로 2.5Gbps 광라인이 5만~10만 정도의 도시를 커버하는 라인인데 이게 KT 전화국 바로 옆에 있는 기준으로 1800만원/월 정도이다.
네이버는 10Gbps 라인 13개다(현재 인터넷진흥원 정보 기준)
당신들은 이미지가 좋다...동영상이 좋다...막 올리지만 네이버로서는 그게 다 서버 저장공간이고 회선비용을 까먹는다는 말이다.
반응이 좋지 않을 때, 네이버는 당신에게
"서버 저장공간과 넷트웍 트래픽을 고려해 무분별한 멀티미디어 사용을 자제해 주시기 바랍니다."
라고 읍소하는 대신 지수 마이너스를 때린다.
지수 마이너스를 때리면 검색 안드로메다로 가고 그러면 이웃과 자기자신 이외는 클릭자체가 일어나지 않는다. ▶ 트래픽감소

9. 정말인가?
뭐 99% 쯤
당장 이 아이보스 게시판에도 이미지나 동영상으로 도배를 해 보라.(내가 그랬다는 말 말고)
유저는 아무 생각없이 사용하지만 업체로서는 다 돈과 직결되는 문제이다.
반응이 좋지 않은 멀티미디어는 필히 마이너스를 때린다. 그러면 자기가 알아서 블로그를 그만두거나 초기화한다.
다음 클라우드가 50GB 를 제공했지만 왜 문 닫겠는가?
클라우드로 고객유혹을 했지만 정작 데이타 저장공간은 차지하고, 트래픽은 먹으면서 서비스나 광고클릭은 여전히 네이버에서 하는 사람이 많기 때문이란 소리다.
이는 네이버에도 내부적으로 적용된다. 아니, 어떤 기업에도 내부적으로 적용된다. 공간과 트래픽을 차지하면서 돈 안 되는 유저 퇴출하기...

10. 충격적이다. 그런데 어떤 동영상만으로 무적블로그를 만든 케이스에 대해서도 말하지 않았나?
유저반응통계가 좋았기 때문이다.
즉 유저반응통계가 좋지 않은 텍스트에 대해 -1점/1클릭 이라면 유저반응통계가 좋지 않은 일정용량 초과 멀티미디어포함 게시물에 대해서는 -2점/1클릭 정도의 로직이 존재한다.
여기에 숨은 트릭이 존재하는데
멀티미디어는 블로거 입장에서는 매력적인 것이다.
고양이 분홍젤리.gif
따위의 움직이는 gif 를 올린, 그것도 아주 귀여운 고양이 발이라면, 보통은 그저 한 동안 멍청히 그 그림을 쳐다보게 된다.
프로는 이런식으로 체류시간을 확보하는 것 같던데...나야 블로깅 초보로 더 이상 말하지는 않겠다.

블로그마케팅

스크랩

공유하기

신고

하트 아이콘럭키꿀벌님 외 5명이 좋아합니다.

목록글쓰기
댓글 3
댓글 새로고침
로그인 후 더욱 많은 기능을 이용하세요!아이보스 로그인