글자 인식(검색) 안되는 PDF, 인식되게 하는법

위의 사진은 PDF 문서를 '전체선택'한 사진입니다. 보시는 바와 같이, 분명 글자가 있는 문서임에도 불구하고 글자를 인식하지를 못합니다. 이유는 저 글자들을 글자가 아니라 이미지로 인식하고 있기 때문이라고 생각하시면 됩니다.

이러한 문제를 해결하기 위해서는 글자를 글자로 인식시켜 주는 프로그램이 필요하겠죠? 여러가지 프로그램이 있지만, 그 중에서도 저는 맥(Mac) OS에서의 인지도가 높은 FineReader를 사용해보도록 하겠습니다. 다만 $131.99(약 15만원)라는 높은 가격이 흠이기는 하네요^^... 인터넷에 OCR 프로그램이라고 치면 많이 나오니 한번 다른 제품을 찾아보시는 것도 좋을 듯 합니다.

FineReader를 실행해주시면 이렇게 메뉴가 뜹니다. 이 중에서 제가 원하는 방식은 PDF 형태로 문서를 저장하는 방식이니, PDF 문서로 변환 을 선택하도록 하겠습니다.

제가 원하는건 그저 글자를 인식하는 것만으로 충분하므로, 이미지 개선, 맞붙은 페이지 분할, 페이지 방향 검색 과 같은 옵션은 전부 해제하도록 하겠습니다.

초록색 박스 안의 영역이 텍스트 영역입니다. 초록색 박스 안에 있다는 뜻이 글자로 인식했다는 뜻이 되겠죠? 제가 원하는 부분이 쉽게 처리됬네요.

⌘+S 로 문서를 저장해줍니다. 그러면 끝입니다.

개인적인 느낌으로는 돈 값 하는 어플이라는 생각이 듭니다. 물론 PDF를 만든 Adobe의 프로그램을 사용하는 것도 좋은 방법이지만, 구독 형식이 아닌 영구 소유 방식이라는 점이 아주 마음에 드는 어플이었습니다.

많은 분들께 도움이 되었기를 바랍니다.

블로그의 정보

참순이네

분도🇰🇷

활동하기

티스토리툴바