텍스트에서 키워드를 뽑는 프로그램을 짜려 합니다.
좀더 자세히 말씀드리자면
게시판에 글이 수천가지가 있는데,
특정 유저가 선호하는 키워드와
관심이 없는 키워드를 찾는 프로그램을 짜려고 합니다.
게시판 텍스트의 언어는 대부분 한국어이고 약간의 영어가 섞여 있습니다.
일단 유저마다 읽은 글을 기록한 후,
그 읽은 글에서 반복적으로 들어가는 키워드를 찾으면 되지 않을까 하고 있습니다.
요즘 빅데이터 관련해서 이런 기술들이 많이 연구가 되어져 있을듯한데...
(딱히 빅데이터라고 부를만큼 많은 게시글이 쌓여있는건 아니지만..)
관련 알고리즘이나 논문, 또는 오픈소스를 찾아보려 하는데
구글에 어떤 키워드로 검색해야 할지 잘 모르겠어요...
그리고 이글을 읽으시는 개발자 선배님들 중에서
제가 하려고 하는 프로그램에서 쓰일수 있는 알고리즘이나 오픈 소스 있으면
추천좀 부탁드릴게요