natalymr / gcm

This repo contains all scripts that are related to "Generate Commit Message" task
1 stars 0 forks source link

[dataset] гипотезы #18

Open natalymr opened 4 years ago

natalymr commented 4 years ago

Гипотезы будут разделены на две группы:

Сложные гипотезы

Что мы хотим от данных?

  1. Чтобы сообщение коррелировало с изменениями
  2. Чтобы в данных не было автосгенерированных сообщений
    • поиск паттернов в сообщениях
  3. Знать дополнительную информацию о данных, чтобы увеличивать точность
    • change type from Tuffano NN
  4. В одном коммите может быть несколько мелких изменений

Простые гипотезы

  1. Проверить результаты "ооочень странной статьи" и полученную зависимость bleu score-a от длины входной последовательности кода (100-14, 100-16.4 vs. 200-0.87, 200-2.2)
  2. Учитывать реальное число измененных токенов (разность двух множеств)
  3. На вход только измененные строчки с контекстом или весь метод?
natalymr commented 4 years ago

Источник

image [8] L. Hattori and M. Lanza.On the nature of commits.In23rdIEEE/ACM International Conference on Automated Software Engineer-ing - Workshop Proceedings (ASE Workshops 2008), 15-16 September2008, L’Aquila, Italy, pages 63–71, 2008. [11] A. Hindle, D. M. Germ ́an, and R. C. Holt. What do large commits tellus?: a taxonomical study of large commits. InProceedings of the 2008International Working Conference on Mining Software Repositories,MSR 2008 (Co-located with ICSE), Leipzig, Germany, May 10-11, 2008,Proceedings, pages 99–108, 2008 [14] A. Mockus and L. G. Votta. Identifying reasons for software changesusing historic databases. In2000 International Conference on SoftwareMaintenance, ICSM 2000, San Jose, California, USA, October 11-14,2000, pages 120–130, 2000. [6] M. Dias, A. Bacchelli, G. Gousios, D. Cassou, and S. Ducasse. Untan-gling fine-grained code changes. In22nd IEEE International Conferenceon Software Analysis, Evolution, and Reengineering, SANER 2015,Montreal, QC, Canada, March 2-6, 2015, pages 341–350, 2015 [1] A. Alali, H. H. Kagdi, and J. I. Maletic. What’s a typical commit? Acharacterization of open source software repositories. InThe 16th IEEEInternational Conference on Program Comprehension, ICPC 2008,Amsterdam, The Netherlands, June 10-13, 2008, pages 182–191, 2008.