Arbol de Huffman - Githubissues

hagarces commented 5 years ago

¿Es normal que en el arbol de Huffman ciertas letras se codifiquen con una cantidad muy grande de bits?, adjunto una parte de una tabla:

'a': '001001', 'b': '1101101010011000001100010000100111100011111111000', 'c': '11011010100110000011000100001001111000111111110010', 'd': '0000', 'e': '111000', 'f': '0101', 'g': '1100110', 'h': '11011010100110000011000100001001111000111111100011111', 'i': '110110101001100000110001000010011110001111111000111101', 'j': '1101101010011000001100010000100111100011111110001111000', 'k': '101111', 'l': '110001', 'm': '01100', 'n': '10101', 'o': '10000', 'p': '110110101001100000110001000010011110001111111100111100000001', 'q': '1101101010011000001100010000100111100011111111001111000000101', 'r': '1111', 's': '10011110'

jachavarri commented 5 years ago

Si es que ese árbol es producto de darle un contexto de algunas letras para predecir la siguiente, yo creo que no debería ser un problema, ya que las letras que tienen una codificación tan grande deben ser muy poco probables. Seguramente vas a codificar una de las letras más probables, con menos de 8 bit. Y después se sigue con otro contexto/árbol.

sebamenabar commented 5 years ago

Me parece algo extraño dado que se utilizarán menos de 127 caracteres, puedes probar como queda la codificación en una página de internet para comparar (e.g. link)

hagarces commented 5 years ago

127 caracteres, no que son 256? gracias por la ayuda veré ahora el link

halobel commented 5 years ago

Usamos el ASCII de 256 (principalmente para incluir tildes), pero eso no implica que se usarán los 256 caracteres posibles. No hay ningún problema en que filtres los que crees no se usarán, ya que sólo probaremos con textos en inglés y español (no páginas web ni texto formateado).

IIC2613 / Syllabus-2019-1

Arbol de Huffman #8