Statistics
  • 현재 접속자 152 명
  • 오늘 방문자 419 명
  • 어제 방문자 1,852 명
  • 최대 방문자 2,388 명
  • 전체 방문자 129,308 명
  • 전체 회원수 822 명
  • 전체 게시물 1,051 개
  • 전체 댓글수 582 개
기술블로그

[일반] 웹사이트 크롤링 > make 이용해 노션 DB에 자동 요약/수집 과정

작성자 정보

  • QARobot 작성
  • 작성일

컨텐츠 정보

  • 178 조회

본문

[기술포스팅 원문] https://www.gpters.org/nocode/post/crawling-website-automatic-summarycollection-AKzYBUtIUZqN0xO


[기술포스팅 요약] 이 글에서는 **해외 뉴스레터를 자동으로 요약 및 수집하는 방법**을 소개합니다. RSS 구독 대신 웹 크롤링을 활용하여 데이터를 자동으로 수집하는 방식으로, Apify를 이용한 웹페이지 크롤링과 데이터 추출 프로세스를 설명합니다.
  • 목표
    • Justin Jackson 및 Not Boring 웹사이트에서 기사 자동 요약 및 수집
    • RSS 기반 구독이 아닌 웹 크롤링 방식으로 접근
    • Apify를 활용한 자동화 프로세스 구축
  • 웹사이트 분석
    • Justin Jackson (https://justinjackson.ca/articles)
      • 정적 HTML 구조로 간단한 콘텐츠 추출 가능
      • 추천 크롤링 액터: Article Parser
      • 메타데이터 및 본문 텍스트 수집 최적화
    • Not Boring (https://www.notboring.co/archive)
      • Substack 기반의 동적 콘텐츠
      • JavaScript 렌더링 및 페이지네이션 필요
      • 추천 크롤링 액터: Web Scraper
  • 자동화 프로세스
    • Apify를 이용한 웹페이지 크롤링 진행
    • 리스트 페이지 크롤링 후 개별 기사 URL 획득
    • 각 URL을 개별 크롤링하여 상세 기사 데이터 수집
    • Make와 연동하여 자동화 워크플로우 설정
  • 현재 진행 상황 및 고민
    • RSS 방식 대신 웹 크롤링 방식을 적용하는 과정에서 시행착오 발생
    • Make에서 API 연결을 최적화하는 방법 연구 중
    • 향후 크롤링 및 자동 요약 방식 개선 필요
이 글은 **웹 크롤링을 활용한 뉴스 아카이빙 및 자동 요약 시스템 구축**에 관심 있는 사용자들에게 실용적인 방법을 제공합니다. Apify와 Make를 활용하여 뉴스 콘텐츠를 수집하고 자동화하는 과정에서 발생하는 도전과 해결책을 공유하는 사례로 볼 수 있습니다.

이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼

관련자료

댓글 0
등록된 댓글이 없습니다.
Notice
Member Rank