google arts 크롤러 사용하기 on redgoose note

google arts 크롤러 사용하기

Nest: ETC Category: Program 2019-08-27

크롤러 프로그램은 다음 github 저장소에서 받을 수 있고, 파이썬으로 작성되어 있다.

https://github.com/redgoose-dev/google-arts-crawler

MacOS 에서 사용하기

일단 클론 받는다.

git clone https://github.com/Boquete/google-arts-crawler.git
cd google-arts-crawler/

다음 링크를 참고하여 virtualenv를 설치한다.
https://dgkim5360.tistory.com/entry/python-virtualenv-on-linux-ubuntu-and-windows

virtualenv를 설치했으면 다음 커멘드를 실행하여 가상환경 설정한다.

virtualenv venv
source venv/bin/activate

다음 커멘드 실행한다.

pip3 install -r requirements.txt

다음 커멘드로 사용한다.

python3 crawler.py

Chromedriver 관련 오류가 있을때..

https://sites.google.com/a/chromium.org/chromedriver/downloads 사이트에 가서 크롬 드라이버를 다운로드하고 글로벌로 사용할 수 있는 패스에다 복사해 넣는다. 꼭 어디서든지 사용할 수 있어야 한다.

글로벌 경로가 어디로 잡혀있는지 확인하려면 cat /etc/paths을 실행하면 목록이 표시된다. 아니면 echo $PATH

편집은 다음 링크를 참고

https://www.architectryan.com/2012/10/02/add-to-the-path-on-mac-os-x-mountain-lion/

사용법

url을 복사해놓고 python crawler.py 실행하면 다운로드 받는다.
다운로드된 이미지는 ./output으로 저장된다.

오류 대처법

Too many open files

한번에 파일을 열수있는 수가 제한되어있는데 제한수를 풀어줘야한다. 다음글을 참고할 수 있다.

https://medium.com/mindful-technology/too-many-open-files-limit-ulimit-on-mac-os-x-add0f1bfddde

이미지 조각을 받다가 실패할때..

이미지 다운로드 실패할때 cannot identify image file 'blobs/33.jpg' 이런 오류가 뜨는데 조각을 받는 횟수가 많을수록 오류날 가능성이 높아지니 사이즈값을 줄일 수 밖에 없다.