neolord0 / hwplib

hwp library for java
Apache License 2.0
452 stars 143 forks source link

hwp에 워드문서 Embedded관련 질문이 있습니다. #224

Closed whitecowworkgood closed 1 year ago

whitecowworkgood commented 1 year ago

hwp에 docx와 같은 ms office문서를 추출하는 코드를 작성 중에 있는 한 학생입니다. 다름이 아니라 hwplib를 통해 hwp에 Embedded된 객체 정보를 스트림으로 변환해서 데이터를 가져오면, 대부분 데이터가 0xFF로 채워져서 그런데, hwplib로는 Embedded된 office문서 정보를 가져오는게 불가능한가요? 참고로 doc와 같은 97-03문서의 경우 추출해 내는데 성공하였습니다.

neolord0 commented 1 year ago

안녕하세요. HWP 파일에 OLE 기능으로 Embedding된 doc 파일을 구하고 싶다는 내용인가요? 보아하니.. HWP 파일에서 doc문서로 추정되는 바이너리 스트림을 구한거 같은데.. 맞나요? 그걸 구했더니 대부분이 0xFF 더 라.. 라는 상황이죠 ?

제가 OLE 쪽에 대해선 잘 모르고, 한글 워드프로세서에서 이 부분을 어떻게 처리 했는지 알 수 없기 때문에.. 뭐라 말씀드릴 수가 없습니다.

혹시, 구한 바이너리 스트림이 맞는지 확인해보세요.