tr-brain-com / Acikhack2024TDDI

Teknofest 2024 Türkçe Doğal Dil işleme Senarya kategorisi
Apache License 2.0
6 stars 0 forks source link

data labeling #11

Closed erdoganensar closed 4 months ago

erdoganensar commented 4 months ago

Yıldız Teknik Üniversitesinden daha önce tweeter'dan alınmış veri seti alındı ve kendi data mining ile hem şikayet var hemde tweeter verileri çekildi. Toplamda 25 bin veri seti üzerinden etiketleme yapılma çalışmasına başlanıldı. Veriler sadece etiketlenirken entity ve sentimen analiz için etiketlenmedi. Daha geniş perspektifden bakarak özgünlük noktasında aşağıdaki kolon açıklamalaarına göre etiketleme yapılmaktadir. entity_list: Metin içerisinde geçen entity listesi (Yaklaşık 100 yakın farklı entity tespiti yapılmıuştır) target: sentiment analiz için durum ifadesi (olumlu,olumsuz,nötr) severity: Metinin aciliyet durumu (0:önemsiz,1:orta önemli,2:acil) reason: OLumsuz metinler için neyden kaynaklandığını tespit etmek için (fatura,network,mnp vb..) muhattap: Türkcel'in muhattap olup olmadığı mobil: durumun mobil hattan mı kaynaklandığı sabit: durumun sabit hattan mı kaynaklandığı ek paket: durumun ek paketten mi kaynaklandığı kampanya: durumun kampanyadan mı kaynaklandığı (ödl, gb vb.) diğer ürün/uygulama: Türkcel'in hangi uygulamasından kaynaklandığı (bip,fizy,platinum vb...) reklam: Türkcel reklam,sponsorluk,boykot vb durumları çağrı merkezi: çağrı merkezi ve teknik servis şikayetleri bayi: satış noktalarındaki şikayetler aksiyon: severity 1 ve 2 ise aksiyon alınması için değerlendirilmiştir.(0:aksiyon alma, 1: aksiyon al müdahale et )