andreasjansson / language-detection.el

Automatic programming language detection of code snippets, in Emacs Lisp
74 stars 8 forks source link

HTML consistently misclassified as AWK #4

Open mathrick opened 8 months ago

mathrick commented 8 months ago

Given the following buffer content:

<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit.  Donec
hendrerit tempor tellus.  Donec pretium posuere tellus.  Proin quam
nisl, tincidunt et, mattis eget, convallis nec, purus.  Cum sociis
natoque penatibus et magnis dis parturient montes, nascetur ridiculus
mus.  Nulla posuere.  Donec vitae dolor.  Nullam tristique diam non
turpis.  Cras placerat accumsan nulla.  Nullam rutrum.  Nam vestibulum
accumsan nisl.</p>
<p>Pellentesque dapibus suscipit ligula.  Donec posuere augue in quam.
Etiam vel tortor sodales tellus ultricies commodo.  Suspendisse
potenti.  Aenean in sem ac leo mollis blandit.  Donec neque quam,
dignissim in, mollis nec, sagittis eu, wisi.  Phasellus lacus.  Etiam
laoreet quam sed arcu.  Phasellus at dui in ligula mollis ultricies.
Integer placerat tristique nisl.  Praesent augue.  Fusce commodo.
Vestibulum convallis, lorem a tempus semper, dui dui euismod elit,
vitae placerat urna tortor vitae lacus.  Nullam libero mauris,
consequat quis, varius et, dictum id, arcu.  Mauris mollis tincidunt
felis.  Aliquam feugiat tellus ut neque.  Nulla facilisis, risus a
rhoncus fermentum, tellus tellus lacinia purus, et dictum nunc justo
sit amet elit.</p>
<p>If you'Lorem ipsum dolor sit amet, consectetuer adipiscing elit.
Donec hendrerit tempor tellus.  Donec pretium posuere tellus.  Proin
quam nisl, tincidunt et, mattis eget, convallis nec, purus.  Cum
sociis natoque penatibus et magnis dis parturient montes, nascetur
ridiculus mus.  Nulla posuere.  Donec vitae dolor.  Nullam tristique
diam non turpis.  Cras placerat accumsan nulla.  Nullam rutrum.  Nam
vestibulum accumsan nisl.'t hesitate to contact me and ask! I'll be happy to learn more about
your needs and assist you in selecting the appropriate service.</p>

M-xlanguage-detection-buffer will consistently output awk. Seemingly anything that consists mostly of HTML <p>...</p> will be detected as AWK.

mathrick commented 7 months ago

Here's another example, this time it is classified as CSS:

<p>Here are the general guidelines when sending in content for editing.</p>
<h4 class="heading-standard">Do</h4>
<p>
  <ul class="list-standard">
    <li><strong class="font-bold">Sed velit dignissim sodales ut eu
    sem integer vitae.</strong class="text-boldfont"> Non arcu risus,
    quis varius quam quisque id diam vel quam elementum pulvinar etiam
    non quam lacus suspendisse faucibus interdum posuere lorem ipsum
    dolor. Nulla at volutpat diam ut venenatis tellus in metus
    vulputate eu scelerisque felis imperdiet proin fermentum leo vel
    orci porta non pulvinar neque!</li>
    <li>Nisi lacus, sed viverra tellus in hac habitasse platea
    dictumst vestibulum rhoncus est pellentesque elit ullamcorper
    dignissim cras tincidunt lobortis feugiat vivamus at augue eget
    arcu dictum.</li>
    <li>Neque, gravida in fermentum et, sollicitudin ac orci phasellus
    egestas tellus rutrum tellus. Nibh sit amet commodo nulla facilisi
    nullam vehicula ipsum a arcu cursus vitae congue mauris rhoncus
    aenean vel elit scelerisque mauris pellentesque pulvinar
    pellentesque habitant morbi. Amet nisl purus, in mollis nunc sed
    id semper risus in hendrerit gravida rutrum quisque non tellus
    orci, ac auctor augue mauris augue!</li>
    <li>Commodo sed egestas egestas fringilla phasellus? Vitae
    ultricies leo integer malesuada nunc vel risus? Aenean euismod
    elementum nisi, quis eleifend quam adipiscing vitae proin
    sagittis, nisl rhoncus mattis rhoncus, urna neque viverra justo?
    Laoreet non curabitur gravida arcu ac tortor dignissim convallis
    aenean et tortor at risus viverra adipiscing at in tellus integer
    feugiat scelerisque!</li>
    <li>Pellentesque diam volutpat commodo sed egestas egestas
    fringilla phasellus faucibus. Laoreet sit amet cursus sit amet,
    dictum sit amet! Dolor morbi non arcu risus, quis varius quam
    quisque id diam vel quam elementum pulvinar etiam non quam lacus
    suspendisse faucibus interdum.</li>
    <li>Amet facilisis magna etiam tempor, orci eu lobortis elementum,
    nibh tellus molestie nunc, non blandit massa enim. Hendrerit dolor
    magna eget est lorem ipsum dolor sit amet, consectetur adipiscing
    elit pellentesque habitant! <a class="inner-link"
    href="/resources/pricing">lorem</a> ipsum.</li>
    <li>Feugiat in ante metus, dictum at tempor commodo.</li>
  </ul>
</p>
<h4 class="heading-standard">Don't</h4>
<p>
  <ul class="list-standard">
    <li>Urna neque viverra justo, nec ultrices dui sapien eget mi
    proin sed libero enim, sed faucibus turpis in eu mi bibendum neque
    egestas congue. Auctor augue mauris augue neque, gravida in
    fermentum et, sollicitudin ac orci phasellus!</li>
  </ul>
</p>