Dr. Volkan Tunalı'nın Kişisel Blogu

Bilgisayar, Teknoloji, Bilim, Sanat

Metin Madenciliği (Text Mining) Nedir?

3 comments

Veri madenciliği üzerine yapılan çalışmalar çoğunlukla ilişkisel veritabanı ve veri ambarlarındaki veriler gibi yapısal veriler üzerine odaklanmış durumdadır. Ancak gerçekte erişilebilir ve kullanılabilir durumdaki verinin önemli bir bölümü metin veritabanlarında veya diğer ifadesiyle doküman veritabanlarında bulunmaktadır. Bu veritabanları genellikle haberler, makaleler, araştırma bildirileri, kitaplar, sayısal kütüphaneler, e-posta iletileri ve Web sayfaları gibi çeşitli kaynaklardan oluşan geniş doküman koleksiyonlarından oluşmaktadır. Elektronik ortamdaki bilgi miktarındaki artış nedeniyle metin veritabanlarının boyutları da hızla artmaktadır. Tahminlere göre iş dünyasına ilişkin bilginin %85′i metin formunda saklanmaktadır.

Metin Madenciliği (Text Mining), yararlı, ilginç ve daha önce bilinmeyen bilginin, bilgi işlem metodları ve teknikleri ile metin halindeki veriden elde edilmesi olarak tanımlanabilir. Metin Madenciliği, veri madenciliği, yapay zeka, doğal dil işleme (NLP Natural Language Processing), istatistik, bilgi erişim (IR Information Retrieval) ve bilgi yönetimi (Knowledge Management) tekniklerini kullanarak “bilgi patlaması” (information explosion / information overload) sorununa çözüm bulmayı amaçlayan bir araştırma alanıdır. Metin Madenciliği, doküman koleksiyonlarının önişlemeden geçirilmesi, ara sonuçların saklanması, ara sonuçların analiz edilmesi için çeşitli tekniklerin kullanılması ve nihai sonuçların görselleştirilmesi gibi aşamalardan oluşmaktadır.

Metin Madenciliği teknikleri dört temel kategoriye ayrılır: sınıflandırma (classification), birliktelik analizi (association analysis), bilgi çıkarım (information extraction) ve kümeleme (clustering). Sınıflandırma işlemi nesnelerin daha önceden bilinen sınıflara ya da kategorilere dahil edilmesidir. Birliktelik analizi ise sıklıkla birlikte yer alan ya da gelişen sözcük ya da kavramların belirlenmesi ve böylece doküman içeriğinin ya da doküman kümelerinin anlaşılmasını amaçlamaktadır. Bilgi çıkarım teknikleri ile dokümanların içerisindeki yararlı veri ya da ifadeler bulunmaya çalışılmaktadır. Kümeleme analizi, doküman kümelerinin temelini oluşturan yapıların keşfedilmesi amacıyla uygulanmaktadır.

Written by vtunali

Ekim 28th, 2009 at 1:56 pm