migueldiaz / quartiersRedise-o

2 stars 0 forks source link

Busquedas en contenido de documentos #15

Open migueldiaz opened 13 years ago

migueldiaz commented 13 years ago

http://railscasts.com/episodes/278-search-with-sunspot

migueldiaz commented 13 years ago

Info adicional de su wiki de github, es capaz de indexar documentos

https://github.com/outoftime/sunspot/wiki/Sunspot-addons-(3rd-party-libraries-that-extend-Sunspot-and-Sunspot%3A%3ARails)

tangrammer commented 13 years ago

desdoblo está funcionalidad en dos: busqueda en documentos y busqueda en info de la db

migueldiaz commented 13 years ago

http://stackoverflow.com/questions/7305709/ruby-on-rails-setting-up-a-solr-server-with-sunspot-for-production

tangrammer commented 13 years ago

Try rake sunspot:solr:run -- this runs it in the foreground which will expose any errors happening at startup.

migueldiaz commented 13 years ago

A raíz de https://github.com/migueldiaz/quartiersRedise-o/issues/106 me he encontrando con esto: https://github.com/jnicklas/carrierwave, ver Migrating from paperclip. Por lo que se ve convierte el objeto al mismo tipode que el tutorial de chebyte. Con lo que no deberíamos tener problemas para el amigo solr.

migueldiaz commented 13 years ago

No me lo puedo de creer, solr ha indexado dos documentos, pero no me los está mostrando en los resultados, seguiremos informando

tangrammer commented 13 years ago

Of

El 02/11/2011 16:56, "Miguel" < reply@reply.github.com> escribi:

No me lo puedo de creer, solr ha indexado dos documentos, pero no me los est mostrando en los resultados, seguiremos informando

Reply to this email directly or view it on GitHub: https://github.com/migueldiaz/quartiersRedise-o/issues/15#issuecomment-2605217

migueldiaz commented 13 years ago

Por consola solr extrae todo el documento correctamente. curl 'http://0.0.0.0:8982/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/home/miguel/Escritorio/quartiersRedise-o/public/uploads/documento/archivo/5/html-a4.pdf" http://packtlib.packtpub.com/library/9781847195883/ch03lvl1sec07

migueldiaz commented 13 years ago

Leyendo el fork de esta criatura, al menos parece que intenta generar la url como la de curl anterior, cargarme el plugin anterior e instalar este desde git https://github.com/zmoazeni/sunspot_cell/

migueldiaz commented 13 years ago

Renombro la issue a busqueda en contenido de documentos. Sigo leyendo, el solr en production dicen las criaturas que hay que montarlo en su propio servidor , esto es un tomcat o lo que queramos. Ufff

migueldiaz commented 13 years ago

http://www.slideshare.net/LucidImagination/indexing-text-and-html-files-with-solr-4063407

migueldiaz commented 13 years ago

Ni sunspot cell, ni *\ , extraccion en bruto, las criaturas cuentan que con un jar mas actual de tika, falla menos En production extraer el path del sol.config que funcione

private 
  def attached_archivo   
    extraepdf.output

  end
  def extraepdf
 sub= Subexec.run 'curl "http://0.0.0.0:8982/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true" -F "file=@'+archivo.path+'"'
  puts sub.output
  return sub
  end