소셜로그인 중단 안내

계정으로 로그인 기능이 2023년 11월 16일 중단되었습니다.

아이보스 계정이 사라지는 것은 절대 아니며, 계정의 이메일 주소를 이용해 로그인 하실 수 있습니다.

▶️ 자세한 공지사항 확인

유사문서 = 중복게시물

2017.04.18 07:29

정확하면말하세요

조회수 4,426

댓글 32

 

 

유사문서 = 중복게시글

 

 

안녕하세요 ~~

오늘은 사람들이 이야기하는 "유사문서"에 관해서 몇자 적어 보도록 하겠습니다.

 

 

먼저. 유사문서중 "복사+붙여넣기"에 관해서 알아 보도록 하겠습니다.
 
 " 복사+붙여넣기 "를 하면 게시글이 품질이 하락되고 향후 블로그 전체에 악 역양이 생긴다"라고 말 합니다.
,"컨트롤"과 알파벳 "C"를 함부로 눌렀다가 저품질에 걸린다.."라는 이야기도 들은적이 있습니다....

 

 

풀어 보도록 하겠습니다.

 

노트북을 들고 여기저기 다니다가 ...

정말 소장하고 싶은 상황을 사진을 찍어 "이미지"로기록 하듯이


그때 당시 현장감을 느낄 수 있는 상세 기록을 "글"로도 적고 싶은 상황도 생깁니다.


이렇게 기록한 글이 블로그에 다시한번 옮겨 적기에 그 분량이 아주많은  상황이라고 가정 해 봅시다....


그렇다면 이러한 상황에도 ...복사+붙여넣기를...하면 않될까요?? 

 

상관 없습니다...~~!!
편하게 생각하시면 됩니다.
N사 블로그는 사용자의 편리함과 표현의 자유를 막으려 하지는 않습니다.
복사+ 붙여넣기 사용하셔도 됩니다!

 

유사문서를 검출 하는데 있어서.. 총 10가지  시스템이 작동하는데.... 

 

일반적인 시스템으로...

 


문서1과 문서2의 본문에 메인 키워드 개수를 판독하는 시스템.

 


문서1과 문서2의 문장 앞에 서브키워드와 문장끝에 서브키워드가 매칭되는 판독하는 시스템.

 


시간 순으로 먼저 생성된 원본문서 로부터 중복문서 를 생성할 경우 원본 문서와 차이를 갖는 중복문서의 부분의 범위가 문서 전체인지,

아니면 문서 앞쪽 또는 뒤쪽에 한정되어 있는지에 따라 서로 다른 중복문서 판정하는 시스템.


키워드와 문장이 써내려가는 일정한 패턴을 읽는 시스템등등.,,


이렇게 여러가지 시스템들이 작동을 하게 됩니다.


이와 같은 여러가지 시스템으로 판독이 되며 문서1과 문서2의 중복비율과 중복률을 퍼센테이지로 산출하게 됩니다.


이때, 일정한 퍼센테이지 이상이되면 중복 게시글로 분류가 되는 겁니다.

간혹 판독 미스상황과, 임시 보류되는 상황도 생깁니다..(문서 1/문서2 모두 노출이 안됨.)
누락 요소가 없는 게시글일 경우 판독 미스나 임시보류 분류가 되었을 경우를 다시 한번 판독하는 시스템도 있습니다.

 

※ 이번에 씨랭크 알고리즘이 적용 된 직후...
" 게시글을 올렸는데...반영 시간이 굉장이 늦춰 지던데...... 저품질에 걸린게 아닌가? ...하는 이야기 들도 있었고,
"게시글 양/질에 따른 반영시간이 다르게 바뀐거 같다 "라고하는.....이야기 들이 많이 나오기도  했습니다.
제일 큰 이유중에 판독미스와,, 바뀐 알고리즘에 따른 랭킹 판단하는데 기준이 되는 데이터 베이스가 완젼하게 갖추어 지지 않아서 생겨난 현상이라고 생각하시면 되겠습니다.

 

 

음... 유사문서 판독 시스템 때문에 게시글 반영시간이 늦춰지는 상황은. 본문에 길이라고 생각하실 수 있는데 ,,
정확하게 말하자면 ,,, 온라인 웹페이지에 많이 올라가있는 내용 이나 키워드들을 본인이 올린 게시글에 많이 포함시킨 상황이라면 
더많은 유사문서 판독하는 시스템을 일일이 거쳐야 하는 상황이 생기고  ,,,이 때문에  반영 시간이 늦어 졌다고 생각 하시면 됩니다..
아무래도....본문 내용이 길면.,,  키워드를   많이 사용하게 될테고,,,
 하나의 시스템이 아니고 여러가지 유사문서 판독 시스템을 거쳐야 되는 확률이 높아지기도 하겠지요,,,


 반영 시간이 늦춰지는 상황을 본인 게시글 본문 내용이 부실해서 생기는 현상이 아님을 아시고 계셔야 하겠습니다. 여러가지 이유가 있습니다.

 

 

얼마전에 어느 대행업체 대표가 입사한지 얼마되지 않은 팀장(지인)에게 블로그 게시글 올리는 노하우를 알려 줬다고 합니다..,,,

 

 

"게시글을 작성하고,,,30분후에 조금 수정을 하면 반영도

바로 되고,,, 순위도 상승한다,,,"... 라고...

 

결론 부터 말하자면 ,,,이건 ,,,,틀린 이야기 입니다...

그렇다면 오랜 경험과 노하우가 쌓인 대행사 대표가 거짓말을 했을까요?.

 

물론, 이런 말을 하게된 정확한 이유는 모르겠습니다만,,,

단순하게 생각해 보면...게시글을 올릴때 비슷한 상황을 여러번 겪었기 때문에 이러한 말을 했을 겁니다..

 

 

대행사마다 어느정도 차이는 있겠지만 ...
위 대행사 특성상 한 가지 또는 몇 안되는 키워드를 지속해서 사용하고 있었습니다....
이러한 경우  지속적으로 공통된 키워드를 사용하고 문서 작성시 비슷한 흐름으로 적어내려 간다면.
게시글이  어느정도 일정한 시간범위 안에서 반영되는 상황이 생깁니다..
위에도 풀어 놨듯이 본문 길이가 아닌 키워드 중복률과... 문서의 흐름이 비슷하게 되면  거쳐가야 하는 문서판독 시스템이 어느정도 일정하기 때문입니다.
정확하게 확인 해 보진 않았지만 ..,,이러한 이유 때문에 오해가 생긴듯 합니다.

 

 
다시 돌아가서.
유사문서 판독시 제일 빠르게 필터링 대상이 되는 상황은
"원본 문서와 정확하게 일치하는 문서"일 경우 입니다.

 

타인이 쓴 게시글이나 본인 블로그에  존재하고있는 문서를 똑같이
"복사+붙여넣기"를 하면 중복문서로 분류되며..게시글이 누락이 되는 상황이 생기는 겁니다.

 

온라인 웹페이지에 존재하는 게시글을 "복사+붙여넣기"를 하면 중복 게시글로 인식이 되며.
기존에 있는 게시글과 똑같이 작성을 해도 중복 게시글로 인식이 됩니다.

 

하지만 웹페이지상에 존재하지 않는 글을 어떠한 상황에서든  "복사 + 붙여넣기" 하더라도 유사문서로  간주 하지는 않습니다.

 

 

 

N사는 유사문서를  판독하기 위한 시스템을 계속해서 개발하고 있으며,

유사문서 판독 알고리즘이 바뀌는건 없으며 계속해서 추가하고 있다라고 생각 하시면 됩니다. 유사문서 판독 시스템이 늘어나면 그만큼 게시글 반영속도가 늦춰지는 것이 아니냐는 의문이 생길 수 있겠으나. 

유사문서를 판독하는 시스템이 새롭게 도입이 되면

그 이전 작동하던 시스템 중 더이상  작동하지 않아도 되는 시스템이 생기기 때문에

반영 시간은 크게 변하지 않는다고 생각 하시면 됩니다.

 

다만, 언제나 그랬듯이 .. 알고리즘이 바뀌게 되면 "빅데이터베이스"가 쌓일때 까지는

반영이 느려질 수 밖에 없다고 생각 하시면 되겠습니다.

 

※ 자칫 어뷰징 관련 글이 될까 두려워...   확인하고  또 확인 하게 되네요...

 

블로그마케팅
목록글쓰기
댓글 32
댓글 새로고침
로그인 후 더욱 많은 기능을 이용하세요!아이보스 로그인