Closed hagarces closed 5 years ago
Si es que ese árbol es producto de darle un contexto de algunas letras para predecir la siguiente, yo creo que no debería ser un problema, ya que las letras que tienen una codificación tan grande deben ser muy poco probables. Seguramente vas a codificar una de las letras más probables, con menos de 8 bit. Y después se sigue con otro contexto/árbol.
Me parece algo extraño dado que se utilizarán menos de 127 caracteres, puedes probar como queda la codificación en una página de internet para comparar (e.g. link)
127 caracteres, no que son 256? gracias por la ayuda veré ahora el link
Usamos el ASCII de 256 (principalmente para incluir tildes), pero eso no implica que se usarán los 256 caracteres posibles. No hay ningún problema en que filtres los que crees no se usarán, ya que sólo probaremos con textos en inglés y español (no páginas web ni texto formateado).
¿Es normal que en el arbol de Huffman ciertas letras se codifiquen con una cantidad muy grande de bits?, adjunto una parte de una tabla:
'a': '001001', 'b': '1101101010011000001100010000100111100011111111000', 'c': '11011010100110000011000100001001111000111111110010', 'd': '0000', 'e': '111000', 'f': '0101', 'g': '1100110', 'h': '11011010100110000011000100001001111000111111100011111', 'i': '110110101001100000110001000010011110001111111000111101', 'j': '1101101010011000001100010000100111100011111110001111000', 'k': '101111', 'l': '110001', 'm': '01100', 'n': '10101', 'o': '10000', 'p': '110110101001100000110001000010011110001111111100111100000001', 'q': '1101101010011000001100010000100111100011111111001111000000101', 'r': '1111', 's': '10011110'