労働関係法違反リストをcsvにしてみた。

厚生労働省が公開した「労働基準関係法令違反に係る公表事案」のPDFからテーブルデータを抜き出してcsv化してみましたた。

update: 2017/9/15
170510-01.csv

pdf-table-extractを使ってサクッとできそう！とか思っていたのですが、セル内に改行や全角・半角空白が混じっているとうまくパースできないらしいです。

仕方がないので、一部強引な方法で整形しました。

[追記]
公開されているpdf、ちゃんと毎月更新されているんだけど、ファイル名が170510-01.pdfのまま追記されていく形式なのでわかりずらい。

サンプルコード

const pdf_table_extractor = require("pdf-table-extractor")
const d3 = require("d3-dsv") 
 
const fileName = process.argv[2] || null

const shaping = (json) => {
    const head = json.pageTables[0].tables[0]
    
    const pageTables = json.pageTables.map( page => page.tables.filter((tr,i) => i > 0) )
    
    const flattenTable = Array.prototype.concat.apply([], pageTables)
    
    const deletedLF = flattenTable.map( tr => tr.map(td => td.replace(/\n/g, "")) )
    

    const cleand = deletedLF.map((tr => {
        if (tr[1]==="" && tr[2]==="" && tr[3] ==""){
            let split = tr[0].split(/\s/).filter(s => s !== "" )
            
            if(split.length > 4){
                split[0] += split[1]
                delete split[1]
                let tmp = split.filter(s => s !== null)
                split = tmp
            }
            tr[0] = split[0]
            tr[1] = split[1]
            tr[2] = split[2]
            tr[3] = split[3]
            
        }
        else if (tr[1]==="" && tr[2]===""){
            let split = tr[0].split(/\s/).filter(s => s !== "" )
            if(split.length > 3){
                split[0] += split[1]
                delete split[1]
                let tmp = split.filter(s => s !== null)
                split = tmp
            }
            tr[0] = split[0]
            tr[1] = split[1]
            tr[2] = split[2]
            
        }
        else if (tr[2]==="" && tr[3]===""){
            let split = tr[1].split(/\s/).filter(s => s !== "" )
            if(split.length > 3){
                split[0] += split[1]
                delete split[1]
                let tmp = split.filter(s => s !== null)
                split = tmp
            }
            tr[1] = split[0]
            tr[2] = split[1]
            tr[3] = split[2]
            
            
        }
        else if (tr[2]==""){
            let split = tr[1].split(/\s/).filter(s => s !== "" )
            tr[1] = split[0]
            tr[2] = split[1]        
        }
        else  if (tr[3] ==""){
            let split = tr[2].split(/\s/).filter(s => s !== "" )
            tr[2] = split[0]
            tr[3] = split[1]        
        }
        
        return tr
    }))
    
    const result = cleand.map(d => {
        let obj = {}
        head.forEach((key,i) => {
            obj[key] = d[i]
        })
        return obj
    })
        
    return result
}


const success = (result) => {
    const json = shaping(result)    
    const csv = d3.csvFormat(json)
    
    console.log('\ufeff'+csv)
}
 
const error = (err) => {
   console.error('Error: ' + err)
}


if(!fileName){
    console.log("ファイル名を指定してください")
}else{
    pdf_table_extractor(fileName,success,error)    
}

100

101

const pdf_table_extractor = require("pdf-table-extractor")

const d3 = require("d3-dsv")

const fileName = process.argv[2] || null

const shaping = (json) => {

const head = json.pageTables[0].tables[0]

const pageTables = json.pageTables.map( page => page.tables.filter((tr,i) => i > 0) )

const flattenTable = Array.prototype.concat.apply([], pageTables)

const deletedLF = flattenTable.map( tr => tr.map(td => td.replace(/\n/g, "")) )

const cleand = deletedLF.map((tr => {

if (tr[1]==="" && tr[2]==="" && tr[3] ==""){

let split = tr[0].split(/\s/).filter(s => s !== "" )

if(split.length > 4){

split[0] += split[1]

delete split[1]

let tmp = split.filter(s => s !== null)

split = tmp

}

tr[0] = split[0]

tr[1] = split[1]

tr[2] = split[2]

tr[3] = split[3]

}

else if (tr[1]==="" && tr[2]===""){

let split = tr[0].split(/\s/).filter(s => s !== "" )

if(split.length > 3){

split[0] += split[1]

delete split[1]

let tmp = split.filter(s => s !== null)

split = tmp

}

tr[0] = split[0]

tr[1] = split[1]

tr[2] = split[2]

}

else if (tr[2]==="" && tr[3]===""){

let split = tr[1].split(/\s/).filter(s => s !== "" )

if(split.length > 3){

split[0] += split[1]

delete split[1]

let tmp = split.filter(s => s !== null)

split = tmp

}

tr[1] = split[0]

tr[2] = split[1]

tr[3] = split[2]

}

else if (tr[2]==""){

let split = tr[1].split(/\s/).filter(s => s !== "" )

tr[1] = split[0]

tr[2] = split[1]

}

else if (tr[3] ==""){

let split = tr[2].split(/\s/).filter(s => s !== "" )

tr[2] = split[0]

tr[3] = split[1]

}

return tr

}))

const result = cleand.map(d => {

let obj = {}

head.forEach((key,i) => {

obj[key] = d[i]

})

return obj

})

return result

}

const success = (result) => {

const json = shaping(result)

const csv = d3.csvFormat(json)

console.log('\ufeff'+csv)

}

const error = (err) => {

console.error('Error: ' + err)

}

if(!fileName){

console.log("ファイル名を指定してください")

}else{

pdf_table_extractor(fileName,success,error)

}

実行

$ node convert.js 170510-01.pdf > 170510-01.csv

1	$ node convert.js 170510-01.pdf > 170510-01.csv

サンプルコード

投稿者: shimizu