Kapat

Anlamsız verilerden anlam çıkarma : Metin Madenciliği

Anasayfa
Bilgisayar Anlamsız verilerden anlam çıkarma : Metin Madenciliği

Teknolojinin gelişmesiyle birlikte veri miktarı inanılmaz ölçüde artmıştır. Bununla birlikte de bilgiye erişimde problemler çıkmaya başlamıştır. Bu problemleri çözmek için ortaya atılan bir fikir de metin madenciliği.

Bu yazımızda metin madenciliği(text mining) ya da metin veri madenciliği(text data mining) olarak bilinen kavram açıklanmaya çalışılacaktır.

Metin madenciliğinden bahsetmeden önce veri madenciliğine bir göz atalım. Veri madenciliği, elimizdeki verilerden net olmayan, ancak potansiyel olarak kullanışlı bilgilerin çıkarılmasıdır.

Veri madenciliğinin alt dalı olan metin madenciliği ise, belirli bir formatta olmayan dokümanlardaki metinlerin kaynaklarını girdi olarak kullanıp bu metinler üzerinden önceden bilinmeyen bilgilerin bilgisayar tarafından otomatik olarak keşfedilerek anlamlı çıktılar elde edilmesidir.

Metin madenciliğinin veri madenciliğinden en büyük farkı kalıpların düzgün metin tabanlarından değil de doğal dil metinlerinden çıkarılmasıdır.

TARİHÇESİ

Metin madenciliği çalışmalarının temeli 1980’lere dayanmaktadır. Ancak teknolojinin yaygınlaşmasıyla birlikte 2000’li yıllarda aktif olarak kullanılmaya başlanmıştır. Enformasyon getirimi, veri madenciliği, makine öğrenmesi, kelime frekans dağılımı, örüntü tanıma, etiketleme gibi kavramların ortak çalışma alanıdır.

Bugün kullandığımız verilerin yaklaşık %80’i metin tabanlıdır. Bu yüzden metin madenciliği ekonomik değeri yüksek olan çalışma alanına sahiptir.

Metin madenciliği genel olarak 5 adımdan oluşmaktadır:

  1. Metin toplama: İlgilenilen konu için bilgi erişim sistemleri kullanılarak metin koleksiyonunun oluşturulmasıdır.
  2. Metin önişleme: Metni kelimelere ayırma, kelimelerin anlamsal değerlerini bulma, kelimeleri köklerine ayırma ve dokümanı fazlalıklardan arındırma işlemleri gerçekleştirilir.
  3. Özellik seçme: Ön işlemden geçen kelimelerden önemli olanları belirleme ve ilişkisi olmayan özelliklerin çıkartılması işlemleri gerçekleştirilir.
  4. Görselleştirme: Elde edilen sonuçların kullanıcıya anlaşılır biçimde sunulduğu aşamadır.
  5. Değerlendirme: Genel olarak sistemin değerlendirilmesidir.

UYGULAMA ALANLARI

Metin madenciliği yüksek boyutlu metinlerden gözle görülmeyecek içeriklerin çıkarılmasını sağlar. Böylece bu içerikler yeni iş imkanlarını beraberinde getirir, zaman ve kaynak tasarrufu sağlar.

Genellikle devlet seviyesi, bilimsel araştırma ve iş dünyası ihtiyaçları için çözümler sunar. Bunlardan bazıları şunlardır:

  • Kurumsal İş Zekası, Veri Madenciliği ve Rekabet Zekası
  • Yasaların ve Vergilerin Uygulanması
  • Ulusal Güvenlik ve İstihbarat
  • Duygusal Analiz Araçları
  • Medya ve Yayıncılık
  • Otomatik reklam yerleştirme
  • Arama / Bilgi Erişimi
  • Sosyal Medya Gözetlemesi

Sonuç olarak metin madenciliğinde amaç yapılandırılmamış ya da yarı yapılandırılmış metinlerin yapılandırılmış hale dönüştürülüp analiz edilmesidir. Nitelikli bilgilere kısa sürede erişmeyi sağlar.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.