본문 바로가기
개발 관련 공부/빅데이터응용

Information Retrieval (끝)

by 슴새 2022. 9. 12.
반응형
이 포스트는 2021.12~2022.09 기간동안 벨로그에 작성한 글을 티스토리에 옮겨 적은 것입니다.

Information Retrieval Systems

Information retrieval (IR) systems은 데이터베이스 시스템보다 더 simpler data model을 사용한다.
✔ information은 문서들의 collection으로 구성됨.
✔ 문서들은 unstructured이고 schema 없음
Information retrieval 사용자 입력 키워드를 이용해 관련 문서를 찾는다.
IR시스템의 가장 대표적인 예: Web search engines

Differences from database systems

IR시스템은 transactional update을 처리하지 않는다.( concurrency control, recovery 이런거 신경 쓸 필요가 없다.)
데이터베이스 시스템은 structured data를 다루고, schema를 가짐.
IR시스템은 데이터베이스 시스템이 다루지 않는 querying issues를 다룸.
✔ 키워드별 근사 검색
✔ 관련 정도를 기준으로 검색된 답변의 ranking

full text 검색에서는, 모든 단어가 키워드로 고려됨. 문서의 단어들을 ‘term’ 이라고 한다.
IR 시스템은 키워드와 논리 연산자 and, or, not을 사용한 쿼리식을 허용한다.

Relevance ranking은 다음과 같은 요소들을 기반으로 한다.

  • Term frequency: 문서에서 쿼리 키워드가 나온 빈도
  • Inverse document frequency: 쿼리 키워드가 있는 문서가 얼마나 많은지. 적으면 중요 키워드!
  • Hyperlinks to documents: 문서로 향하는 하이퍼링크가 많으면 그 문서는 중요 문서

Similarity Based Retrieval

Similarity based retrieval: 주어진 문서와 유사한 문서를 검색. 유사성은 common word(공통어)를 기초로 정의될 수 있다.(ex- 문서 A에서 TF (d, t ) / n (t )을 사용해 term k개를 찾고 이를 다른 문서의 관련성을 찾는데 사용)
Relevance feedback: Similarity는 answer set을 keyword query로 refine하는 데 쓰일 수 있다.
Vector space model: define an n-dimensional space, where n is the number of words in the document set. 어떤 문서에 대한 벡터는 0에서 TF(d,t )/n(t)로 이동. 두 문서의 벡터 사이의 코사인 값으로 문서의 유사도를 체크 가능하다.

용어 빈도만 고려할 경우 쿼리와 관련된 문서 수가 엄청날 수 있다. 그리고 Term frequency는 spamming을 쉽게 만든다.(스팸메일처럼… 여행사가 일부러 travel 키워드 엄청 포함해서 자기네 페이지 랭킹 높게 만들기)

사람들의 방문 수 등을 이용해서 검색 결과에 랭킹 매기면? actual popularity of site를 알 수 없음..
👉number of hyperlinks를 척도로 삼기 시작!

특정 페이지로 연결되는 하이퍼링크 수를 센다. 한 사이트당 한 개씩만 카운트!(spamming 막기 위해..)

Popularity는 individual page가 아니라 사이트를 측정하는 것임.. 근데 대부분의 링크가 사이트의 root를 향하고, 어떤 링크는 many unrelated pages of varying popularity를 포함한다.

그러므로 개선사항: 링크를 기반으로 prestige를 계산할 때, higher prestige를 가진 링크에는 가중치를 더 준다. (구글의 PageRank도 이런 방식으로 동작한다.)

Hub and authority based ranking

Hub: 각종 페이지로 연결되는 링크를 가진 페이지
Authority: 토픽에 대한 실제 정보를 가진 페이지
각 페이지는 허브의 prestige에 의해 authority prestige를 얻고, authority의 prestige에 의해 hub prestige를 얻는다.

Synonyms and Homonyms (동의어 및 동음의의어)

Synonyms: 시스템은 자전거 수리와 자전거 유지보수를 동의어로 인식해야 함-> 쿼리를 짤 때 motorcycle and (repair or maintenance) 로 확장
Homonyms: context(문맥) 보고 판단

수업 후기

수업 자료가 Database System Concepts 7th Edition기반이었는데 너무 알아듣기 힘들었던 자료였다. 아는 개념조차도 헷갈리게 만드는 서술... 그래도 교수님 설명이랑 같이 들으니까 어느정도 이해는 됐다. 중간 기말 다보고 웹페이지 만드는 프로젝트도 있어서 힘들었지만 그래도 좋았던 수업이었다.

반응형

'개발 관련 공부 > 빅데이터응용' 카테고리의 다른 글

Data Analytics  (0) 2022.09.12
Advanced SQL  (0) 2022.09.12
DatabaseEssentials  (0) 2022.09.12

댓글