<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>データ抽出 on データ加工の道具箱</title>
        <link>https://www.dataprep.jp/tags/%E3%83%87%E3%83%BC%E3%82%BF%E6%8A%BD%E5%87%BA/</link>
        <description>Recent content in データ抽出 on データ加工の道具箱</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>ja</language>
        <copyright>dataprep.jp</copyright><atom:link href="https://www.dataprep.jp/tags/%E3%83%87%E3%83%BC%E3%82%BF%E6%8A%BD%E5%87%BA/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>PDFから表データを簡単に取り出したい</title>
        <link>https://www.dataprep.jp/pattern-extract-tables-from-pdf/</link>
        <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
        
        <guid>https://www.dataprep.jp/pattern-extract-tables-from-pdf/</guid>
        <description>&lt;img src="https://visualizing.jp/gridded-cartogram/images/thumb_ph_vizjp_hu_982f6515b909acd4.png" alt="Featured image of post PDFから表データを簡単に取り出したい" /&gt;&lt;p&gt;レポートや行政資料の PDF に表はあるものの、CSV や Excel に再入力せず取り出したいケースです。&lt;/p&gt;
&lt;h2 id=&#34;解決方法&#34;&gt;解決方法
&lt;/h2&gt;&lt;p&gt;まず PDF の中で表として認識できる領域を選び、行列構造を保ったまま抽出します。抽出後に列名や空白を整える前提で、表そのものを早く取り出すことが重要です。&lt;/p&gt;
&lt;h2 id=&#34;使うツール&#34;&gt;使うツール
&lt;/h2&gt;&lt;div class=&#34;external-link-card&#34;&gt;
  &lt;a class=&#34;external-link-card__inner&#34; href=&#34;https://tabula-pdf.dataprep.jp/&#34; target=&#34;_blank&#34; rel=&#34;noopener noreferrer&#34;&gt;
    &lt;div class=&#34;external-link-card__media&#34;&gt;&lt;img src=&#34;https://www.dataprep.jp/images/cover_tabula-pdf.jpg&#34; alt=&#34;Tabula PDF&#34; loading=&#34;lazy&#34; decoding=&#34;async&#34; /&gt;&lt;/div&gt;
    &lt;div class=&#34;external-link-card__body&#34;&gt;&lt;div class=&#34;external-link-card__site&#34;&gt;dataprep.jp&lt;/div&gt;&lt;div class=&#34;external-link-card__title&#34;&gt;Tabula PDF&lt;/div&gt;&lt;div class=&#34;external-link-card__description&#34;&gt;PDFから表データを取り出す&lt;/div&gt;&lt;div class=&#34;external-link-card__url&#34;&gt;tabula-pdf.dataprep.jp&lt;/div&gt;&lt;/div&gt;
    &lt;span class=&#34;external-link-card__icon&#34; aria-hidden=&#34;true&#34;&gt;
      &lt;svg viewBox=&#34;0 0 24 24&#34; focusable=&#34;false&#34;&gt;
        &lt;path d=&#34;M14 3h7v7m0-7L13 11&#34; fill=&#34;none&#34; stroke=&#34;currentColor&#34; stroke-width=&#34;1.5&#34; stroke-linecap=&#34;round&#34; stroke-linejoin=&#34;round&#34;/&gt;
        &lt;path d=&#34;M17 17H5V5h7&#34; fill=&#34;none&#34; stroke=&#34;currentColor&#34; stroke-width=&#34;1.5&#34; stroke-linecap=&#34;round&#34; stroke-linejoin=&#34;round&#34;/&gt;
      &lt;/svg&gt;
    &lt;/span&gt;
  &lt;/a&gt;
&lt;/div&gt;

&lt;h2 id=&#34;向いているケース&#34;&gt;向いているケース
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;行政資料の再利用&lt;/li&gt;
&lt;li&gt;調査レポートの表抽出&lt;/li&gt;
&lt;li&gt;手入力をなるべくなくしたいとき&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
