https://blog.naver.com/ralphcho/222180727765
아무것도없이 추측하여 작업하다 찾은것이아닌 어뷰징자체에 관심을 가지고 다른문건을 찾다
확인했던문서 그리고 변경후 자연스레 찾은방법
그리고 또 그것에대한 근거 가될수있는자료.
100%누락관련 문서는 아닙니다. 단 네이버가 어떻게 하고있느냐 추측이가능한
부분일뿐이겠죠.
저히가 하고자하는것에대한 정답에 대한 문서는 절대찾을수없습니다.
비슷한 혹은 네이버가 진행하고자 하는 알고리즘에 대해
추측하고 테스트하면서 느낄수밖에 없는것이겠죠.
[TF 기반 검색 방법은]
쿼리 텀(query term)이 문서에 많이 등장할수록 랭킹이 높아진다. 예를 들어,
쿼리 텀에 해당되는 'campaign', 'about', 'vegetarian' 단어가 문서에 많이 등장할수록 해당 문서의 랭킹이 높아진다.
]IDF 기반 검색 방법은]
쿼리 텀을 포함하는 문서의 수가 작을수록(쿼리 텀이 유니크할수록) 랭킹이 높아진다.
예를 들어, 'vegetarian'이 등장하는 문서수가 'about'이 등장하는 문서수보다 작은 경우 'vegetarian'을 포함 한 문서가 'about'을 포함한 문서보다 랭킹이 높아진다.
DL 기반 검색 방법은 문서의 길이가 짧을수록 문서의 랭킹이 높아진다. 문서의 길이가 길어지면 자연스럽게 TF 가 높아질 수 있기 때문에 패널티(penalty)를 적용하는 방식이다.
새댓글
전체보기