lpuettmann / patent-automat

Search through corpus of patent texts to measure automation :computer: over time and its effect.
MIT License
3 stars 2 forks source link

Come up with our own better and simple match from patent tech. numbers to very broad industry categories. #3

Closed lpuettmann closed 3 years ago

KatjaMa commented 9 years ago

Possibility 1: Use classification of HJT Possibility 2: Develop our own match based on OCLs Other (probably inferior) possibilities: use the Canadian ("Yale") Classification, or the HJT assignee-based classification.

lpuettmann commented 9 years ago

I think there seem to be more ways:

lpuettmann commented 9 years ago

I read a bit what people wrote about this and here’s my take on how to get to sectors of use:

Lybbert and Zolas (2014) review how the different authors derived concordances from patent technology classifications to industries. They identify two basic approaches:

  1. Using empirical frequencies of the 300,000 Canadian patents 1972-1995
  2. Using the texts of patents and the descriptions of industries

For approach 1, I haven’t yet found the original paper or data source of who came up with this matching. But Kortum and Putnam's (1997) Yale Technology Concordance (YTC) assesses this matching. They refer back to Evenson (1991) who did this first in Yale (therefore the name). Johnson's (2002) OECD concordance elaborates on the match in the OECD concordance to also match to ISIC and SIC industries. Silverman’s PATDAT concordance also matches with ISIC and SIC. By the way, I haven't found public access to Canadian patents, yet (only costly bulk downloads).

Approach 2 is followed by Lybbert and Zolas (2014), Schmoch, LaVille, Patel and Fritsch (2003) in the DG concordance and Verspagen, von Moergastel and Slabbers (1994) in the MERIT (here and here) concordance. Lybbert and Zolas (2014) extract keywords in a mixed manual/automated approach from industry descriptions. They search for this in a large amount of international patents in their titles and abstracts. They then carefully calculate empirical frequencies and calculate which words significantly differentiate industries. This they use to calculate probabilities for patents from a specific technology class to be related to some industry.

So do we know whether the patents that Lybbert and Zolas (2014) match to industries, are actually used in the industries? Unfortunately not, as they “cannot differentiate” (p.537) industries of manufacture vs. industries of use. But we also don’t know the opposite: maybe if relevant keywords from industries show up in titles and abstracts, this really tells us where the patents are used? A worry in using Lybbert-Zolas is their Table 6 (p.537). They perform very poorly when compared with the YTC on the Canadian patents. That’s worrying, because those should be very accurately classified patents. For the sector of use, they have a recall of (4.1% / 6.5% = ) 0.63 and a ridiculously low precision of (4.1% / 23.7% = ) 0.17. However, this contingency table codes ALP>0 as Yes which doesn’t exploit the fact that they actually provide probabilities. Counting any probability > 0 is obviously too aggressive, which could explain their poor performance.

Still it’s nice to have both of these approaches at hand as they both derive from very different information. So taken together, we actually know a lot about patents and industries. I think we could try to analyze sectors of use by using the YTC first and checking plausibility and robustness with Lybbert-Zolas. Maybe even combine them.

lpuettmann commented 9 years ago

@KatjaMa, you mentioned the HJT classification, do you mean:

  1. this one? (p. 41 and p.42): hjt2001_p41_p42
  2. or the one based based on industries in which Compustats puts the firms that file the patents?

Update: Ah sorry, I reread your comment. I think you're bullet 1. is my my bullet 1. and when you mention "HJT assignee-based classification" that's my bullet 2.

KatjaMa commented 9 years ago

Yep

lpuettmann commented 9 years ago

Ich hätte eine Idee, wie wir die YTC benutzen könnten.

Der große Nachteil der YTC ist ja, dass die zeitlich auf Mitte 70er bis Anfang 90er beschränkt ist (und dass die aus Kanada kommen, aber gut ... :neutral_face:). Der große Vorteil ist die hohe Qualität und Glaubwürdigkeit dieses matchings.

Wir könnten uns für unsere kausale Analys ("What is the effect of automation on labor markets?") auf diesen Zeitraum beschränken. Dann würden wir also alle Patente aus diesem Zeitraum zu SOU matchen.

Damit könnten wir dann eine Panelanalyse machen. Wir könnten da auch labor market Daten einbeziehen, die länger zurückreichen (weil wir erwarten, dass die Effekte ge-lagged sind).

Nachteil: Kürzere Zeitreihen. Vorteil: Überzeugendes matching zu SOU und damit Angriff :gun: auf die kausale Analyse.

Die Daten, die wir da nicht benutzen können, sind deswegen nicht verloren. Wir könnten dann zeigen: in dieser Periode gab es die und die Effekte von Automatisierung und was können wir jetzt erwarten, wo Automatisierung so gigantisch gestiegen ist? Ich glaube das wäre keine "prediction", weil man dafür ja die x-Variable (automation across industries) beobachten müsste und nicht die y-Variable (labor market variables).

Was hälst du davon?

[Andere Optionen gibt es ja immernoch: Lybbert-Zolas "keyword based", Hall-Jaffe-Trajtenberg "sehr grobe Kategorien", USPTO "IOM only".]

KatjaMa commented 9 years ago

Was ist SOU?

Meiner Meinung nach ist es essentiell, einen „timeless“ Indikator zu haben: Einen industry-level Indikator, mit dem wir nicht nur Automatisierung in der Vergangenheit, sondern auch in der Gegenwart und Zukunft messen können. Der Grund ist, dass genau das der entscheidende komparative Vorteil unseres Indikators gegenüber RTI ist. RTI ist präzise, clever und insbesondere etabliert, wenn es um die 1970er bis -90er geht. Für diesen Zeitraum braucht niemand eine Alternative - und labor market effects of automation für diesen Zeitraum sind bereits vielfach analysiert worden. Woran es aber fehlt, ist ein Indikator, der Automatisierung in real-time trackt. Ein Instrument, das Wissenschaftlern einen Blick darauf eröffnet, wo und wie viel Automatisierung in der Zukunft geschehen wird (remember lag structure: Patente von heute sind die production inputs und outputs der Zukunft).

Damit es nicht wieder zu Missverständnissen kommt: Was ist eigentlich das Ziel unseres Papers? Meiner Meinung nach: einen neuen Goldstandard der Automatisierungsmessung zu schaffen. Einen Industrie-Ebene Indikator, den jeder Forscher benutzt, der sich mit dem Thema beschäftigt. Aber warum soll jemand einen Indikator benutzen, mit dem er nur Analysen für 1970-90 durchführen kann? Das für die Forschung Interessante ist doch, was seit den 2000er Jahren passiert, wo Automatisierung so drastisch zugenommen hat. Dafür wollen die Leute ein Maß haben und genau daran fehlt es bisher. Wir schließen diese Lücke. Im Gegensatz dazu dienen unsere Anwendungen meiner Meinung nach lediglich dem Zweck, zu illustrieren, was mit dem Indikator machbar ist. Sie sind Beiwerk. Ein Praxistest, während der Kern unseres Papers der Indikator und der industry-level match ist. Deshalb finde ich es wichtiger, einen unpräziseren, aber allgemeingültigen Match zu haben als einen präzisen, aber zeitlich beschränkten. Und deshalb bin ich im Übrigen auch der Meinung, dass wir nicht eine große überzeugende Anwendung brauchen, sondern ein Portfolio verschiedener kleiner Anwendungen aus verschiedenen Feldern präsentieren können.

lpuettmann commented 9 years ago

SOU: sector of use. Und ich sage immer, man sollte Abkürzungen vermeiden. :blush:

[Deine Kommentare in bold, meine drunter]

RTI ist präzise, clever und insbesondere etabliert, wenn es um die 1970er bis -90er geht. Für diesen Zeitraum braucht niemand eine Alternative - und labor market effects of automation für diesen Zeitraum sind bereits vielfach analysiert worden.

Ja der RTI ist auf jeden Fall super. Aber es ist doch cool, eine neue Art zu suchen, ein altes Problem anzupacken. Das ist doch ganz typisch in der Forschung, z.B. "a new way of measuring the effects of government spending" oder so. Viele Fragen sind ja nicht endgültig gelöst, sondern werden diskutiert. Und, ich finde, genau so ein Thema ist Automatisierung. Sogar Keynes hat da von geschrieben. Ich glaube nicht, dass die Effekte von Automatisierung komplett erforscht sind. Und das tolle ist doch, dass man dann die Resultate vergleichen kann. Das ist so, wie wenn man die effects of government spending mit Romer-Romer narrative shocks vs. implied government spending shocks from financial markets misst. Man hat mehrere Maße etwas zu untersuchen, das ist doch viel Wert!

Woran es aber fehlt, ist ein Indikator, der Automatisierung in real-time trackt. Ein Instrument, das Wissenschaftlern einen Blick darauf eröffnet, wo und wie viel Automatisierung in der Zukunft geschehen wird (remember lag structure: Patente von heute sind die production inputs und outputs der Zukunft).

Ja das ist schon etwas Besonderes. Aber, wie oben geschrieben, sollten wir weiter alle Daten verwenden und vielleicht sogar noch die von 1920+ kriegen. Aber wenn wir eben keine überzeugende kausale Industrieanalyse mit allen Daten machen können, dann finde ich das trotzdem interessant, dass für die Periode zu machen, in der das geht.

Die prediction - was passiert dann morgen? - finde ich ja auch cool. Sagen wir, wir finden einen Effekt auf dem YCT matching heraus. Dann können wir danach sagen, "look at this gigantic increase in automation" und mit unseren Resultaten dann sagen "given the effect we've shown before, we expect this increase to cause unemployment/have no effect/lead to worker flows form x to y".

Was ist eigentlich das Ziel unseres Papers? Meiner Meinung nach: einen neuen Goldstandard der Automatisierungsmessung zu schaffen.

Ich finde auch, dass das unserer besonderer Beitrag ist. Aber wir hatten ja mal darüber gesprochen, ob wir unser paper "versus RTI" oder "complementary to the RTI" verkaufen sollten. Ich würde die "complementary" Version bevorzugen. Wir können aufzeigen was deren Probleme sind (nicht dynamisch, impose present knowledge), aber ich finde unser approach ist primär anders und ob er besser ist müssen wir dann argumentieren. Aber ich finde es unser Beitrag, nicht unser Ziel.

Im Gegensatz dazu dienen unsere Anwendungen meiner Meinung nach lediglich dem Zweck, zu illustrieren, was mit dem Indikator machbar ist. Sie sind Beiwerk.

Wir hatten doch angefangen mit der Fragestellung "Labor Demand Effects of Automation: Developing a New Indicator of Automation". Und dann hatten wir ein paar Probleme, weil nicht klar war, ob wir herausfinden können, wo Patente benutzt werden.

Ich finde es besonders interessant, ein neues innovatives Datenset auf eine interessante Frage anzuwenden. Und das wären doch die Arbeitsmarkteffekte von Automatisierung.

Deshalb finde ich es wichtiger, einen unpräziseren, aber allgemeingültigen Match zu haben als einen präzisen, aber zeitlich beschränkten.

Meinst du zum Beispiel Lybbert-Zolas? Mit denen könnte man ja alle matchen, aber würde sich angreifbarer machen ("Is it enough that patents and industries use similar words to conclude that they are used in that industry?").

Und deshalb bin ich im Übrigen auch der Meinung, dass wir nicht eine große überzeugende Anwendung brauchen, sondern ein Portfolio verschiedener kleiner Anwendungen aus verschiedenen Feldern präsentieren können.

Ich dachte wir hätten beim letzten Skypen den Kompromiss gefunden: wenn es möglich ist, die Patente zu den Industrien zu verbinden und die Effekte von Automatisierung da herauszukitzeln, dann wäre das die primäre Anwendung. Und wenn das nicht möglich ist, dann könnten wir eben andere Anwendungen zeigen.

Ich finde schon, dass unser Paper eine gerade Ausrichtung braucht nach der Art "We bring a novel data set and analyze an exciting question that everybody cares about." Ich finde ja deskriptive Paper auch cool, wenn man einfach nur neue Daten bringt und zeigt, was möglich ist. Aber, ich finde, die richtig richtig coolen Paper (mailto:Econometrica :sunglasses:) bringen neue Daten und haben eine überzeugende Anwendung.

KatjaMa commented 9 years ago

Ich finde, wir sollten die Yale Klassifikation bestenfalls als Robustness check für eine andere verwenden. Wie bereits gesagt, meine präferierte Klassifikation ist die aufbauend auf HJT's OCL match, die ich dir mal geschickt habe. Lybbert-Zolas lehne ich ab, weil zwei text-based Analyse-Tools miteinander in die Quere kommen könnten. Was ist deine Meinung zu dem HJT?

lpuettmann commented 8 years ago

I'm trying to get the YTC dataset, but it's difficult. Silverman's dataset (check link in this comment) is availabe.

But I cannot find Johnson's (2002) OECD concordance. I think he might currently be updating his website, as I couldn't reach it this morning and the links here don't work yet.

KatjaMa commented 8 years ago

As I understand it, Kortum and Putnam (1997) are the ones who proposed YTC, i.e. the dataset originates from them (even though they refer to other sources for the name YTC). I searched online but also couldn't find it. The Silverman dataset that you reference seems to me a good start for our matching. He has IPC to SIC, which is what we need. IPC to ISIC (as in the Johnson 2002) would not be an improvement to us since we would then need to translate ISIC to NAICS. SIC is on the one hand easier translatable to NAICS, and also most of the older US industry data is available for SIC industries, which makes concordances altogether redundant.

lpuettmann commented 8 years ago

Ok, here's what I'm going to do in the next couple of days:

sic year automation_index
111 1985 0.32
111 1986 0.35
... ... ...
111 1995 1.43
112 1985 0.12
... ... ...

Disadvantage: The nice so far was that the elementary unit of counting was the patent. We will loose this when we go to industries. Advantage: We will get industries of use with a time dimension.

Silverman only uses patents 1990-1993, so we probably can't get much more time coverage than that (maybe a couple of years before and after, before it becomes incredible).

KatjaMa commented 8 years ago

Is there any information on the year of the US SIC that Silverman uses? I searched his webpage and the datapage, but didn't find anything. It's important because I have a CIC-SIC crosswalk for 1987 SICs but need to know whether I need another concordance to translate this into older SICs

lpuettmann commented 8 years ago

I haven't seen that information anywhere. I want to write him an email, so I'll add that to the questions. So in total, the questions right now are:

@KatjaMa , can you check if you can get this book in your library (he mentions it in his documentation): Silverman, B.S. (2002), Technological Resources and the Logic of Corporate Diversification, London, UK: Routledge.

Unfortunately, there was a problem tonight and the scripts stopped running on both of our machines as soon the computers logged out... I'll try to convince Jens to give me access to his computer and then run it on all computers at once.