Statistics
  • 현재 접속자 27 명
  • 오늘 방문자 98 명
  • 어제 방문자 1,985 명
  • 최대 방문자 2,388 명
  • 전체 방문자 130,972 명
  • 전체 회원수 825 명
  • 전체 게시물 1,055 개
  • 전체 댓글수 586 개
기술블로그

[해외] GPT-4o를 사용하여 웹스크래핑하기

작성자 정보

  • QARobot 작성
  • 작성일

컨텐츠 정보

  • 840 조회

본문

[기술포스팅 원문] https://blancas.io/blog/ai-web-scraper/


[기술포스팅 요약]
  • 이 포스팅은 OpenAI의 API와 GPT-4o 모델을 활용한 AI 기반 웹 스크래퍼 개발 과정을 다루고 있습니다.
  • 특히 새로운 '구조화된 출력(Structured Outputs)' 기능을 활용하여 웹에서 데이터를 추출하는 방법을 소개합니다.
  • 첫 번째 실험에서는 HTML 테이블 데이터를 바로 추출해 보았으며, 이 과정에서 Pydantic 모델을 사용했습니다.
  • 복잡한 테이블, 특히 10일간의 날씨 예보를 가진 Weather.com 데이터를 성공적으로 처리하면서도 합병된 테이블(row merging)이 모델에 문제를 일으킨 사례도 설명하고 있습니다.
  • 비용 효율성을 위해, XPaths를 추출하는 방법을 시도했으나, 일부 비효율적이거나 부정확한 결과가 나왔습니다.
  • 두 접근 방식을 결합하여 데이터 추출 후 XPath를 얻는 방식으로 성능을 개선했으나, 일부 경우에는 이미지나 특수 문자가 텍스트로 변환되어 추가 문제를 일으켰습니다.
  • GPT-4o를 활용한 웹 스크래핑은 비용이 많이 들 수 있으며, 이를 완화하기 위해 HTML을 전처리하는 방식으로 비용을 절감할 수 있었습니다.
  • 마지막으로, 이 실험의 결과물을 Streamlit을 이용해 데모를 제공하며, GitHub에서 소스 코드를 확인할 수 있다고 안내합니다.


"이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼"

관련자료

댓글 0
등록된 댓글이 없습니다.
Notice
Member Rank