google arts 크롤러 사용하기

크롤러 프로그램은 다음 github 저장소에서 받을 수 있고, 파이썬으로 작성되어 있다.

MacOS 에서 사용하기

일단 클론 받는다.

git clone https://github.com/Boquete/google-arts-crawler.git
cd google-arts-crawler/

virtualenv를 설치했으면 다음 커멘드를 실행하여 가상환경 설정한다.

virtualenv venv
source venv/bin/activate

다음 커멘드 실행한다.

pip3 install -r requirements.txt

다음 커멘드로 사용한다.

python3 crawler.py

https://sites.google.com/a/chromium.org/chromedriver/downloads 사이트에 가서 크롬 드라이버를 다운로드하고 글로벌로 사용할 수 있는 패스에다 복사해 넣는다. 꼭 어디서든지 사용할 수 있어야 한다.

글로벌 경로가 어디로 잡혀있는지 확인하려면 cat /etc/paths을 실행하면 목록이 표시된다. 아니면 echo $PATH

편집은 다음 링크를 참고

url을 복사해놓고 python crawler.py 실행하면 다운로드 받는다.
다운로드된 이미지는 ./output으로 저장된다.

한번에 파일을 열수있는 수가 제한되어있는데 제한수를 풀어줘야한다. 다음글을 참고할 수 있다.

이미지 다운로드 실패할때 cannot identify image file 'blobs/33.jpg' 이런 오류가 뜨는데 조각을 받는 횟수가 많을수록 오류날 가능성이 높아지니 사이즈값을 줄일 수 밖에 없다.