Archiwa tagu: TF-IDF

Z epopei do punktu – wektoryzacja dokumentów

W poprzednim wpisie stwierdziłem, że klasteryzacja jest przeprowadzana na punktach, skądś jednak te punkty muszą się wziąć, tutaj wkracza proces wektoryzacji.

Jedną z popularniejszych technik wektoryzacji tekstu jest algorytm TF-IDF (Term Frequency – Inverted Document Frequency).

Jaka jest zasada jego działania?

Celem działania algorytmu jest przedstawienie dokumentu w formie liczbowej, wektora wag przedstawiającego wpływ konkretnych słów zawartych w dokumencie na jego znaczenie merytoryczne, semantyczne. Algorytm wyznacza wektor opisujący dokument na podstawie tekstu przy czym każde słowo w tekście ma swoją wagę, zależną od częstotliwości występowania słowa w dokumencie oraz liczbie dokumentów w zbiorze w jakiej znajduje się słowo. Sam algorytm to tak naprawdę połączenie dwóch metod.

Czytaj dalej Z epopei do punktu – wektoryzacja dokumentów